𓌳 REAP𓌳 Эксперты: почему обрезка преобладает при однократном сжатии MoE Представляем MiniMax-M2-REAP-162B-A10B, сжатый вариант MiniMax-M2 с эффективным использованием памяти, который сохраняет почти идентичную производительность, будучи на 30% легче. Эта модель была создана с использованием REAP (router-weighted Expert Activation Pruning), нового метода сокращения экспертов, который выборочно удаляет лишних экспертов, сохраняя при этом независимый контроль маршрутизатора над оставшимися экспертами. Ключевые особенности включают в себя: — Производительность почти без потерь: обеспечивает почти такую же точность при генерации кода, агентном кодировании и вызове функций по сравнению с полной моделью 230B. — Сокращение памяти на 30 %: параметры сжаты с 230B до 162B, что значительно снижает затраты на развертывание и требования к памяти. — Сохраненные возможности: сохраняются все основные функции, включая генерацию кода, математические рассуждения и вызов инструментов. — Совместимость с прямым подключением: работает с ванильным vLLM — не требуется модификация исходного кода или специальные исправления — Оптимизирован для реального использования: особенно эффективен для сред с ограниченными ресурсами, локальных развертываний и академических исследований. Эталонный тест MiniMax-M2 MiniMax-M2-REAP-172B-A10B MiniMax-M2-REAP-162B-A10B…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: cerebras
Теги: minimax_m2, minimax, MOE, pruning, compression, conversational, custom_code, en
Лайков: 77 | Загрузок: 83
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.