AIDC-AI/Marco-Mini-Base - Каталог нейросетей
Генерация текста

AIDC-AI/Marco-Mini-Base

Добавлено:
AIDC-AI/Marco-Mini-Base

Marco-Mini-Base — это компактная, очень редкая многоязычная языковая модель Mixture-of-Experts (MoE) из семейства Marco-MoE, разработанная Alibaba International Digital Commerce. Он активирует только 0,86 млрд из 17,3 млрд параметров (коэффициент активации 5%) на каждый токен, что соответствует или превосходит плотные модели с до 4 млрд параметров на английском языке и многоязычных тестах на 29 языках — при этом используется в 5,5 раз меньше обучающих FLOP, чем Qwen3-4B. Marco-Mini построен на архитектуре Transformer, состоящей только из декодера, с редкими слоями MoE, заменяющими стандартные уровни FFN. Он создан из Qwen3-0.6B-Base с использованием стратегии детального разделения подматриц в сочетании с Drop-Upcycling для содействия экспертной диверсификации. Marco-Mini прошел предварительное обучение на 5,1 триллионе токенов с использованием четырехэтапной учебной программы: 1. Этап 1 (токены 0–2,4T): базовое обучение — высококачественные данные на английском языке (Nemotron-CC-v2), данные для рассуждений и инструкций, а также многоязычные веб-данные и данные контроля качества для 19 языков. 2. Этап 2 (токены 2.4T–4.1T): оптимизация и повышенная дискретизация — повышенная дискретизация массивов рассуждений, пониженная дискретизация английских веб-данных и повышенная дискретизация китайских данных со снижением скорости обучения. 3. Этап 3 (токены 4,1–4,6 т): Расширение языка — добавлено 9…

Модальности:
Генерация текста

Области применения:
Диалог / чат Мультиязычность


Задача: Генерация текста
Автор: AIDC-AI
Теги: qwen3_moe, moe, mixture-of-experts, multilingual, upcycling, conversational, en, zh
Лайков: 8  |  Загрузок: 23

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.