cerebras/MiniMax-M2-REAP-162B-A10B

𓌳 REAP𓌳 Эксперты: почему обрезка преобладает при однократном сжатии MoE Представляем MiniMax-M2-REAP-162B-A10B, сжатый вариант MiniMax-M2 с эффективным использованием памяти, который сохраняет почти идентичную производительность, будучи на 30% легче. Эта модель была создана с использованием REAP (router-weighted Expert Activation Pruning), нового метода сокращения экспертов, который выборочно удаляет лишних экспертов, сохраняя при этом независимый контроль маршрутизатора над оставшимися экспертами. Ключевые особенности включают в себя: — Производительность почти без потерь: обеспечивает почти такую же точность при генерации кода, агентном кодировании и вызове функций по сравнению с полной моделью 230B. — Сокращение памяти на 30 %: параметры сжаты с 230B до 162B, что значительно снижает затраты на развертывание и требования к памяти. — Сохраненные возможности: сохраняются все основные функции, включая генерацию кода, математические рассуждения и вызов инструментов. — Совместимость с прямым подключением: работает с ванильным vLLM — не требуется модификация исходного кода или специальные исправления — Оптимизирован для реального использования: особенно эффективен для сред с ограниченными ресурсами, локальных развертываний и академических исследований. Эталонный тест MiniMax-M2 MiniMax-M2-REAP-172B-A10B MiniMax-M2-REAP-162B-A10B…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: cerebras
Теги: minimax_m2, minimax, MOE, pruning, compression, conversational, custom_code, en
Лайков: 77 | Загрузок: 83

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

feeltheAGI/Maverick-Math-7B

MaziyarPanahi/MixTAO-7Bx2-MoE-v8.1-GGUF

mlx-community/SmolLM3-3B-8bit

taide/Llama3-TAIDE-LX-8B-Chat-Alpha1