mlx-community/gemma-4-e4b-it-qat-OptiQ-4bit

> Создан на основе mlx-optiq, собственного набора инструментов MLX для квантования, точной настройки и обслуживания LLM локально на Apple Silicon, без PyTorch и без облака. Попробуйте лабораторную работу · Все кванты OptiQ · Документы 4-битный квант MLX смешанной точности, созданный компанией mlx-optiq и построенный на базе Gemma-4 с поддержкой квантования (QAT) от Google. Послойное распределение битов OptiQ с учетом чувствительности применяется поверх весов, которые были обучены выдерживать низкобитное квантование, и оно по-прежнему превосходит однородный 4-битный квант той же базы QAT на +1,19 балла оценки возможностей. Это квант google/gemma-4-E4B-it-qat-q4_0-неквантованный. Разрядность каждого слоя получается в результате прохода чувствительности KL-дивергенции в калибровочном миксе из шести доменов (проза, рассуждения, код, агент, вызов инструмента, инструкции, несущие ограничения). Чувствительные слои переходят на 8-битные, надежные остаются на 4-битных. Среднее шестиметрическое значение (MMLU, GSM8K, IFEval, BFCL, HumanEval, HashHop), сопоставленное с опубликованным унифицированным 4-битным квантом той же базы QAT (mlx-community/gemma-4-E4B-it-qat-4bit). Это сравнение изолирует то, что добавляет распределение смешанной точности, сохраняя базу фиксированной. Распределение смешанной точности добавляет +1,19 балла по сравнению с унифицированным 4-битным распределением на базе QAT, при этом наибольший прирост достигается на…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: mlx-community
Теги: mlx, gemma4, quantized, mixed-precision, 4bit, 8bit, optiq, qat
Лайков: 7 | Загрузок: 3,451

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

cmarkea/bloomz-3b-sft-chat

LoneStriker/Noromaid-v0.1-mixtral-8x7b-Instruct-v3-3.5bpw-h6-exl2

YBXL/Med-LLaMA3-8B

openbmb/BitCPM4-1B