Brooooooklyn/Qwen3.5-9B-unsloth-mlx

3/4/5/6-битное квантование смешанной точности Qwen/Qwen3.5-9B для Apple Silicon с использованием стратегии квантования Unsloth Dynamic через mlx-node. Декодирование привязано к пропускной способности памяти Apple Silicon — меньшее количество байтов для передачи на один токен напрямую приводит к более высокой пропускной способности. Вложения и lmhead остаются квантованными в памяти (5/6 бит) и при пересылке используют quantizedmatmul — никаких накладных расходов на деквантование при загрузке. Входные проекции Attention q/k/v и SSM квантуются в 5 бит с предварительным масштабированием imatrix AWQ для обеспечения качества практически без потерь. Внимание oproj и SSM outproj сохраняются на уровне bf16 (нет предшествующей нормы для коррекции AWQ). Рецепт квантования этой модели основан на обширном тестировании KL-дивергенции каждого уровня архитектуры Qwen3.5, проведенном командой Unsloth. Их работа, опубликованная как Unsloth Dynamic 2.0, представляет собой наиболее тщательный публичный анализ того, как гибридная конструкция GatedDeltaNet + полное внимание Qwen3.5 реагирует на квантование, и является основой для каждого решения в этой модели. Qwen3.5 не является стандартным трансформером. Он использует гибридную архитектуру: 24 линейных уровня внимания GatedDeltaNet + 8 стандартных уровней полного внимания (fulllattentioninterval=4). Стандартное равномерное квантование обрабатывает все слои…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Brooooooklyn
Теги: mlx-node, qwen3_5, mlx, quantized, awq, 3-bit, qwen3.5, hybrid-attention
Лайков: 12 | Загрузок: 2,001

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

bigscience/bloomz-7b1

vvsotnikov/stablelm-tuned-alpha-3b-16bit

NousResearch/Hermes-2-Pro-Llama-3-70B

WisdomShell/CodeShell-7B-Chat