В этом репозитории размещена квантованная версия модели Qwen3.6-27B NVFP4. Процесс квантования выполнялся с использованием llm-compressor с использованием стратегии смешанной точности, позволяющей значительно сократить объем памяти, сохраняя при этом основные возможности модели. Эта модель хорошо оптимизирована для локального вывода на потребительском оборудовании высокого класса. Локальное тестирование и оценка проводились в следующей среде: Аппаратное обеспечение: 1 процессор вывода NVIDIA RTX 5090: vLLM KV Cache:** FP8. Для достижения оптимальной производительности мы применили определенные конфигурации квантования в архитектуре модели, активно поддерживаемые расширенными модификаторами: Квантование до NVFP4: уровни полного внимания, уровни линейного внимания и блоки MLP. Сохранено в BF16 (нетронутое): компоненты Vision, MTP, пленочная головка и встроенные компоненты. Улучшения: наряду с модификаторами GPTQ** использованы модификаторы SmoothQuant** для улучшения общей производительности после квантования. Индивидуальный набор калибровочных данных с 512 образцами и длиной каждой последовательности 8192. Примечание по среде: базовые оценки bf16 были получены посредством официального онлайн-развертывания в облаке Alibaba. Оценки NVFP4 были получены локально с использованием описанной установки vLLM…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: sudo-0x2a
Теги: qwen3_5, conversational, 8-bit, compressed-tensors
Лайков: 7 | Загрузок: 11,601
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.