Квантование Qwen 3.6 27B смешанной точности с учетом абляции. Размер файла 12 ГБ, степень недоумения 7,034, 181 переопределение квантов на тензор. Рекомендуемый отбор проб: температура=0. По результатам тестирования с использованием всего набора тестов, temp=0 получил наивысшие результаты во всех тестах. 03.05.2026 Исправления оценок: обнаружены и исправлены ошибки в сценариях тестирования. В HumanEval была ошибка, приводившая к разрушению отступов (оценки были примерно на 6 баллов ниже). У ARC были ошибочные ответы на 19 вопросов из-за обработки числовых меток. У HellaSwag было 108 пустых ответов, которые ошибочно считались неправильными. Полный контрольный журнал и результаты по каждому вопросу в репозитории Cerebellum. Тесты с коротким ответом (ARC, HellaSwag) практически идентичны — оба метода сохраняют поверхностные рассуждения на уровне 2 бит. Разрыв открывается в задачах, требующих точной генерации кода (HumanEval: +28%) и глубоких знаний (MMLU-Redux: +2,8%), где точное распределение с учетом абляции защищает важные тензоры. Стандартное квантование применяет один и тот же уровень точности равномерно для каждого тензора. Мозжечок измеряет фактическую чувствительность каждого тензора и распределяет биты там, где они имеют значение. Каждый тензор индивидуально сжимается до Q2_K, сохраняя при этом все остальные тензоры на базовой линии…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: deucebucket
Теги: gguf, quantized, cerebellum, qwen3.6, ablation-informed, endpoints_compatible, imatrix, conversational
Лайков: 9 | Загрузок: 481
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.