3/4/5/6-битное квантование смешанной точности Qwen/Qwen3.5-27B для Apple Silicon с использованием стратегии квантования Unsloth Dynamic через mlx-node. Декодирование привязано к пропускной способности памяти Apple Silicon — меньшее количество байтов для передачи на один токен напрямую приводит к более высокой пропускной способности. Вложения и lmhead остаются квантованными в памяти (5/6 бит) и при пересылке используют quantizedmatmul — никаких накладных расходов на деквантование при загрузке. Входные проекции Attention q/k/v и SSM квантуются в 5 бит с предварительным масштабированием imatrix AWQ для обеспечения качества практически без потерь. Внимание oproj и SSM outproj сохраняются на уровне bf16 (нет предшествующей нормы для коррекции AWQ). Рецепт квантования этой модели основан на обширном тестировании KL-дивергенции каждого уровня архитектуры Qwen3.5, проведенном командой Unsloth. Их работа, опубликованная как Unsloth Dynamic 2.0, представляет собой наиболее тщательный публичный анализ того, как гибридная конструкция GatedDeltaNet + полное внимание Qwen3.5 реагирует на квантование, и является основой для каждого решения в этой модели. Qwen3.5 не является стандартным трансформером. Он использует гибридную архитектуру: 48 линейных слоев внимания GatedDeltaNet + 16 стандартных слоев полного внимания (fulllattentioninterval=4). Стандартное равномерное квантование обрабатывает все слои…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Brooooooklyn
Теги: mlx-node, qwen3_5, mlx, quantized, awq, 3-bit, qwen3.5, hybrid-attention
Лайков: 18 | Загрузок: 8,347
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.