Mungert/Qwen2.5-7B-Instruct-1M-GGUF

Наш новейший метод квантования представляет собой высокоточное адаптивное квантование для моделей со сверхмалой разрядностью (1–2 бита) с проверенными на практике улучшениями Llama-3-8B. Этот подход использует стратегии, специфичные для слоев, для сохранения точности при сохранении максимальной эффективности памяти. Все тесты проводились на Llama-3-8B-Instruct с использованием: — Стандартного конвейера оценки недоумения — Контекстного окна с 2048 токенами — Одинаковый набор подсказок для всех квантований — Динамическое точное распределение: — Первые/последние 25% слоев → IQ4XS (выбранные слои) — Средние 50% → IQ2XXS/IQ3S (повышение эффективности) — Защита критически важных компонентов: — Использование вложений/выходных слоев Q5K — Снижает распространение ошибок на 38 % по сравнению со стандартным 1–2-битным ключом: — PPL = недоумение (чем ниже, тем лучше) — Δ PPL = процентное изменение стандарта на DynamicGate — Скорость = время вывода (CPU avx2, контекст токена 2048) — Различия в размерах отражают смешанные накладные расходы на квантование Ключевые улучшения: — 🔥 IQ1M демонстрирует значительное снижение недоумения на 43,9 % (27,46 → 15.41) — 🚀 IQ2S снижает сложность на 36,9%, добавляя всего 0,2 ГБ — ⚡ IQ1S** сохраняет точность на 39,7% выше, несмотря на 1-битное квантование. Компромиссы: — Все варианты имеют незначительное увеличение размера (0,1–0,3 ГБ) — Скорость вывода…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: Mungert
Теги: gguf, chat, en, endpoints_compatible, imatrix, conversational
Лайков: 7 | Загрузок: 1,277

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

cybermotaz/nemotron3-nano-nvfp4-w4a16

FPHam/Harper_AssistantEditor_V1_13b_GPTQ

sometimesanotion/Qwenvergence-14B-v13-Prose-DS

Aitrepreneur/wizardLM-7B-GPTQ-4bit-128g