CompressedTensors INT4 из Jackrong/Qwopus3.5-27B-v3 (удалено) через HLWQ (весовое квантование по Адамару-Ллойду) > Native vLLM. Ядро Марлина. Нулевой плагин. 168 ток/с на А100. HLWQ обеспечивает лучшие веса INT4, чем прямое квантование — улучшение на 0,12 PPL за счет вращения Адамара + предварительной обработки Lloyd-Max. Стандарт INT4 квантует веса напрямую — выбросы вызывают высокую ошибку. HLWQ добавляет этап предварительной обработки перед INT4:
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: caiovicentino1
Теги: qwen3_5, image-text-to-text, hlwq, quantized, compressed-tensors, int4, marlin, vllm
Лайков: 14 | Загрузок: 1,121
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.