🤗 Обнимающее лицо | 📰 Блог | 🎨 API-платформа Xiaomi MiMo | 🗨️ Студия Xiaomi MiMo | Сообщество группы WeChat | Раздор | Телеграмма | Reddit MiMo-V2.5-Pro — это языковая модель Mixture-of-Experts (MoE) с открытым исходным кодом, общим количеством параметров 1,02T и активными параметрами 42B. Он использует гибридную архитектуру внимания и трехуровневое прогнозирование нескольких токенов (MTP), представленное в MiMo-V2-Flash, с длиной контекста токенов до 1 млн. MiMo-V2.5-Pro — наша самая мощная модель на сегодняшний день, предназначенная для самых требовательных агентов, сложной разработки программного обеспечения и долгосрочных задач. Он поддерживает сложные траектории, охватывающие тысячи вызовов инструментов, с четким следованием инструкциям и согласованностью в контекстном окне объемом 1 миллион токенов. Ключевые особенности: — Гибридная архитектура внимания: чередование скользящего окна внимания (SWA) и глобального внимания (GA) с соотношением 6:1 и скользящим окном 128. Это уменьшает объем KV-кэша почти в 7 раз, сохраняя при этом производительность в длительном контексте за счет обучаемого смещения приемника внимания. — Прогнозирование нескольких токенов (MTP): оснащен тремя легкими модулями MTP, использующими плотные FFN. Это утроит скорость вывода во время вывода и будет…
Модальности:
Генерация текста
Области применения:
Генерация кода Диалог / чат
Задача: Генерация текста
Автор: XiaomiMiMo
Теги: mimo_v2, agent, long-context, code, conversational, custom_code, en, zh
Лайков: 18 | Загрузок: 73
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.