> Запустите 35B 256-expert MoE на RTX 3060 (12 ГБ) с экспертной разгрузкой RTX PRO 6000 Blackwell (96 ГБ). vLLM + Marlin будет значительно быстрее, чем эти тесты для ноутбуков. BF16 сохранен: нормы, шлюзы GDN (inproja/b), маршрутизаторы, Alog, conv1d, dtbias, встраивания, lm_head
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: caiovicentino1
Теги: qwen3_5_moe, image-text-to-text, hlwq, quantized, moe, compressed-tensors, int4, marlin
Лайков: 12 | Загрузок: 879
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.