thetom-ai/MiniMax-M2.7-ConfigI-MLX

93,5% MMLU при 87 ГБ. Декодирование 61 ток/с. ЗГЗ 4.604. 228B-параметр MoE сжат на 62% с помощью квантования смешанной точности Config-I. Стандартный формат MLX — работает со стандартными mlxlm и mlx-swift-lm`. Никаких специальных загрузчиков не требуется. Квантование Config-I MiniMaxAI/MiniMax-M2.7 (всего 228,7B, ~1,4B активного на токен). Политика применяет агрессивное 2-битное сжатие к экспертным MLP (к которым MoE наиболее толерантен), защищает внимание на 4-битном уровне и защищает пограничные слои и маршрутизацию с полной точностью. См. документ Config-I для получения информации о политике. Недоумение: 4,604 ± 0,042 (викитекст, 50 образцов, длина 2048 сек., со сжатием Turbo4v2 KV). Методология: однопроходная, 200 вопросов (10 субъектов MMLU x 20), рассуждение включено, без повторных попыток, без нескольких попыток, оценка с помощью mlxlm` на Apple M5 Max 128 ГБ. Все тесты с включенным сжатием Turbo4v2 KV. Измерено с помощью ekryski/mlx-swift-lm (ветвь ek/tom-eric-moe-tuning). В столбце «Мост» используется собственный путь предварительного заполнения C++, который обходит накладные расходы Swift и ускоряет обработку запросов на 5–48 %, при этом наибольший выигрыш достигается при запросах 512–1024 токенов. Декодирование между Bridge и Swift сравнимо — оба пути достигают ~61 ток/с в коротком контексте и плавно деградируют до ~37 ток/с…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: thetom-ai
Теги: mlx, minimax_m2, turboquant, turboquant-plus, config-i, moe, apple-silicon, conversational
Лайков: 14 | Загрузок: 3,215

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

pkupie/lawyer-llama-13b-v2

Groq/Llama-3-Groq-70B-Tool-Use

susnato/phi-2

chargoddard/storytime-13b