Этот репозиторий в первую очередь предназначен для платформы Transformers. Если вы используете другие платформы с открытым исходным кодом, используйте альтернативный репозиторий: MiniMax-M1-80k Мы представляем MiniMax-M1, первую в мире открытую крупномасштабную модель рассуждения с гибридным вниманием. MiniMax-M1 основан на гибридной архитектуре Mixture-of-Experts (MoE) в сочетании с механизмом мгновенного внимания. Модель разработана на основе нашей предыдущей модели MiniMax-Text-01, которая содержит в общей сложности 456 миллиардов параметров, из которых 45,9 миллиардов параметров активируются на каждый токен. В соответствии с MiniMax-Text-01 модель M1 изначально поддерживает длину контекста в 1 миллион токенов, что в 8 раз превышает размер контекста DeepSeek R1. Кроме того, механизм молниеносного внимания в MiniMax-M1 обеспечивает эффективное масштабирование вычислений во время тестирования. Например, по сравнению с DeepSeek R1, M1 потребляет 25% FLOP при длине генерации 100 тыс. токенов. Эти свойства делают M1 особенно подходящим для сложных задач, требующих обработки длинных входных данных и интенсивного мышления. MiniMax-M1 обучается с использованием крупномасштабного обучения с подкреплением (RL) для решения различных задач, начиная от традиционных математических рассуждений и заканчивая реальными задачами в песочнице…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: MiniMaxAI
Теги: minimax, vllm, conversational, endpoints_compatible
Лайков: 8 | Загрузок: 69
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.