cerebras/Qwen3-Coder-REAP-25B-A3B

𓌳 REAP𓌳 Эксперты: почему сокращение преобладает при однократном сжатии MoE Представляем Qwen3-Coder-REAP-25B-A3B, сжатый вариант Qwen3-Coder-30B-A3B-Instruct с эффективным использованием памяти, который обеспечивает почти идентичную производительность, будучи на 20 % легче. Эта модель была создана с использованием REAP (router-weighted Expert Activation Pruning), нового метода сокращения экспертов, который выборочно удаляет лишних экспертов, сохраняя при этом независимый контроль маршрутизатора над оставшимися экспертами. Ключевые особенности включают в себя: — Производительность почти без потерь: обеспечивает почти такую же точность генерации кода, агентного кодирования и задач вызова функций по сравнению с полной моделью 25B. — Сокращение памяти на 20 %: сжатие параметров с 30 до 25 Б, что значительно снижает затраты на развертывание и требования к памяти. — Сохраненные возможности: сохраняются все основные функции, включая генерацию кода, агентские рабочие процессы, понимание масштаба репозитория и вызов функций. vLLM — не требуется модификация исходного кода или специальные исправления — Оптимизирован для реального использования: особенно эффективен для сред с ограниченными ресурсами, локального развертывания и научных исследований 🟩 Эта контрольная точка…

Модальности:
Генерация текста

Области применения:
Диалог / чат Генерация кода

Задача: Генерация текста
Автор: cerebras
Теги: qwen3_moe, qwen-coder, MOE, pruning, compression, conversational, en, endpoints_compatible
Лайков: 77 | Загрузок: 221

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

NoesisLab/Kai-30B-Instruct

TheBloke/Wizard-Vicuna-13B-Uncensored-GPTQ

eren23/AYA-Mistral7B-instruct-TR-4b

IDEA-CCNL/Yuyuan-GPT2-3.5B