— Q80 (36,9 ГБ): Наиболее близок к полной точности. Используйте, если у вас есть VRAM/RAM. — Q6K/Q5KM (28,5/24,7 ГБ): хороший баланс качества и размера для большинства случаев использования. — Q4KM (21,2 ГБ): популярный вариант — значительное уменьшение размера с минимальной потерей качества. — IQ4NL/IQ4XS (19,8/18,7 ГБ): 4-битная матрица важности — может превосходить стандартные кванты Q4 при аналогичном размере. — IQ3M/IQ3S (15,4/15,3 ГБ): Матрица важности 3 бита — хорошее качество для такого размера с калибровкой imatrix. — IQ2M и ниже (11,7 ГБ и меньше): максимальное сжатие с помощью imatrix. Качество постепенно ухудшается. — IQ1M/IQ1S (8,2/7,5 ГБ): Максимальное сжатие. Ожидайте значительной потери качества. — IQ3M и ниже: для условий с ограниченными возможностями. Качество постепенно ухудшается. — IQ2/IQ1: Экстремальное сжатие. Ожидайте заметного ухудшения качества. — Базовая модель: Qwen Team — Набор обучающих данных: NousResearch — Платформа тонкой настройки: Unsloth — Инструменты квантования: llama.cpp
Модальности:
Генерация текста
Области применения:
Диалог / чат Вызов функций (Tool use)
Задача: Генерация текста
Автор: DJLougen
Теги: hermes, gguf, qwen3.5, moe, lora, function-calling, unsloth, endpoints_compatible
Лайков: 7 | Загрузок: 1,435
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.