mlx-community/gemma-4-12B-it-OptiQ-4bit

4-битный квант MLX смешанной точности, созданный mlx-optiq, набором инструментов квантования с учетом чувствительности для Apple Silicon. Оценка +6,40 по сравнению со стандартным 4-битным процессором по шестиметровому показателю возможностей, второй по величине прирост смешанной точности в линейке Gemma-4. 4-битный квант MLX смешанной точности для google/gemma-4-12B-it, унифицированной (текст+видение+аудио) Gemma-4. Этот артефакт представляет собой путь вывода текста: языковая башня квантуется, а башни изображения/звука удаляются во время преобразования. Разрядность каждого слоя получается в результате прохода чувствительности KL-дивергенции в калибровочном миксе из шести доменов (проза, рассуждения, код, агент, вызов инструмента, инструкции, несущие ограничения). Чувствительные слои переходят на 8-битные; надежные остаются на 4-битном уровне. Мы следуем тому же соглашению об именах, которое llama.cpp использует для Q4KM и подобных квантов смешанной точности: метка «4 бита» предназначена для преобладающей точности, а не для средневзвешенного значения. Смешанное распределение — это то, что позволяет этой сборке превзойти стандартную 4-битную систему по показателю возможностей при сопоставимом размере диска. Джемма-4-12Б — модель рассуждения с каналом мышления. Для прямых (необдумывающих) ответов на такие задачи, как извлечение или классификация, введитеchattemplatekwargs={«enablethinking»:…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: mlx-community
Теги: mlx, gemma4_unified, quantized, mixed-precision, 4bit, 8bit, optiq, apple-silicon
Лайков: 9 | Загрузок: 3,443

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

cyberagent/open-calm-1b

teknium/GPT4-x-Alpaca13b-RolePlayLora-4bit-v2

DavidAU/Gemma-The-Writer-N-Restless-Quill-10B-Uncensored-GGUF

georgesung/llama2_7b_chat_uncensored