XiaomiMiMo/MiMo-V2.5-Pro-Base - Каталог нейросетей
Генерация текста

XiaomiMiMo/MiMo-V2.5-Pro-Base

Добавлено:
XiaomiMiMo/MiMo-V2.5-Pro-Base

🤗 Обнимающее лицо  | 📰 Блог  | 🎨 API-платформа Xiaomi MiMo  | 🗨️ Студия Xiaomi MiMo  | Сообщество группы WeChat |  Раздор   |  Телеграмма  |  Reddit MiMo-V2.5-Pro ​​— это языковая модель Mixture-of-Experts (MoE) с открытым исходным кодом, общим количеством параметров 1,02T и активными параметрами 42B. Он использует гибридную архитектуру внимания и трехуровневое прогнозирование нескольких токенов (MTP), представленное в MiMo-V2-Flash, с длиной контекста токенов до 1 млн. MiMo-V2.5-Pro ​​— наша самая мощная модель на сегодняшний день, предназначенная для самых требовательных агентов, сложной разработки программного обеспечения и долгосрочных задач. Он поддерживает сложные траектории, охватывающие тысячи вызовов инструментов, с четким следованием инструкциям и согласованностью в контекстном окне объемом 1 миллион токенов. Ключевые особенности: — Гибридная архитектура внимания: чередование скользящего окна внимания (SWA) и глобального внимания (GA) с соотношением 6:1 и скользящим окном 128. Это уменьшает объем KV-кэша почти в 7 раз, сохраняя при этом производительность в длительном контексте за счет обучаемого смещения приемника внимания. — Прогнозирование нескольких токенов (MTP): оснащен тремя легкими модулями MTP, использующими плотные FFN. Это утроит скорость вывода во время вывода и будет…

Модальности:
Генерация текста

Области применения:
Генерация кода Диалог / чат


Задача: Генерация текста
Автор: XiaomiMiMo
Теги: mimo_v2, agent, long-context, code, conversational, custom_code, en, zh
Лайков: 18  |  Загрузок: 73

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.