caiovicentino1/Huihui-Qwopus3.5-27B-v3-abliterated-HLWQ-Q5

CompressedTensors INT4 из Jackrong/Qwopus3.5-27B-v3 (удалено) через HLWQ (весовое квантование по Адамару-Ллойду) > Native vLLM. Ядро Марлина. Нулевой плагин. 168 ток/с на А100. HLWQ обеспечивает лучшие веса INT4, чем прямое квантование — улучшение на 0,12 PPL за счет вращения Адамара + предварительной обработки Lloyd-Max. Стандарт INT4 квантует веса напрямую — выбросы вызывают высокую ошибку. HLWQ добавляет этап предварительной обработки перед INT4:

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: caiovicentino1
Теги: qwen3_5, image-text-to-text, hlwq, quantized, compressed-tensors, int4, marlin, vllm
Лайков: 14 | Загрузок: 1,121

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

suayptalha/Lamarckvergence-14B

maritaca-ai/sabia-7b

JetBrains/CodeLlama-7B-KStack

RedHatAI/Mistral-Small-3.2-24B-Instruct-2506-NVFP4