caiovicentino1/Qwen3.6-35B-A3B-HLWQ-CT-INT4

> Запустите 35B 256-expert MoE на RTX 3060 (12 ГБ) с экспертной разгрузкой RTX PRO 6000 Blackwell (96 ГБ). vLLM + Marlin будет значительно быстрее, чем эти тесты для ноутбуков. BF16 сохранен: нормы, шлюзы GDN (inproja/b), маршрутизаторы, Alog, conv1d, dtbias, встраивания, lm_head

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: caiovicentino1
Теги: qwen3_5_moe, image-text-to-text, hlwq, quantized, moe, compressed-tensors, int4, marlin
Лайков: 12 | Загрузок: 879

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

abacaj/llama-161M-100B

unsloth/Meta-Llama-3.1-8B-Instruct

nroggendorff/smallama-7b

LoneStriker/OpenCodeInterpreter-DS-6.7B-GGUF