sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP

Родной брат Qwen/Qwen3.6-27B, квантованный только текст, с помощью NVFP4, с головкой MTP (многотокенное предсказание), восстановленной в bf16, поэтому спекулятивное декодирование действительно работает. Исходная версия Qwen3.6-27B-NVFP4 осталась нетронутой, поэтому существующие пользователи (около 15 тыс. загрузок) не будут нарушены. Это ориентированный только на текст брат для пользователей, которым нужна максимальная скорость и не требуется ввод данных с помощью машинного зрения. Две темы обсуждения HF в исходном репозитории подсказали следующее: — #5 — медленнее, чем официальный FP8 на Blackwell — основная причина в том, что путь NVFP4 со сжатыми тензорами медленнее, чем modelopt на Blackwell SM120; в этом репозитории изначально используется modelopt. — #7 — MTP не отвечает — AutoModelForCausalLM.frompretrained не загружает головку MTP, поэтому она отбрасывается во время квантования, что приводит к принятию черновика 0%. Этот репозиторий переносит 15 тензоров mtp.*` (bf16) обратно в квантованную контрольную точку и добавляет их в список игнорирования квантования. Рецепт адаптирован из osoleve/Qwen3.5-27B-Text-NVFP4-MTP — респект и спасибо. Эта модель была произведена на конвейере lna-lab/GGUF-to-NVFP4-SM120 с открытым исходным кодом — производственной линии Lna-Lab для конвертации контрольных точек Qwen3.5/3.6/Gemma 4 в модельопт-формат NVFP4 + рабочий MTP, готовый для vLLM на Blackwell…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: sakamakismile
Теги: qwen3_5, image-text-to-text, qwen3.6, nvfp4, quantized, modelopt, mtp, speculative-decoding
Лайков: 17 | Загрузок: 61,695

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

google/codegemma-1.1-7b-it

unsloth/MiniMax-M2.7

LiquidAI/LFM2-24B-A2B

Goekdeniz-Guelmez/Josiefied-Qwen3.5-0.8B-gabliterated-v1