BAAI/AquilaMoE-SFT - Каталог нейросетей
Генерация текста

BAAI/AquilaMoE-SFT

Добавлено:
BAAI/AquilaMoE-SFT

Команда Language Foundation Model & Software Пекинская академия искусственного интеллекта (BAAI) [Документ (скоро выйдет)] [Код] [github] Мы представляем AquilaMoE, передовую двуязычную языковую модель 816B Mixture of Experts (MoE), разработанную с использованием инновационной методологии обучения под названием EfficientScale. Этот подход оптимизирует производительность при минимизации требований к данным за счет двухэтапного процесса. На первом этапе, называемом Scale-Up, большая модель инициализируется с весами предварительно обученной меньшей модели, что обеспечивает значительную передачу знаний и непрерывное предварительное обучение со значительно меньшим количеством данных. На втором этапе, Scale-Out, используется предварительно обученная плотная модель для инициализации экспертов Министерства образования, что еще больше повышает эффективность передачи знаний и производительности. Обширные проверочные эксперименты на моделях 1.8B и 7B сравнивали различные схемы инициализации, создавая модели, которые поддерживают и уменьшают потери во время непрерывного предварительного обучения. Используя оптимальную схему, мы успешно обучили модель 16B, а затем модель 816B AquilaMoE, продемонстрировав значительные улучшения производительности и эффективности обучения. Мы создали двуязычный набор данных для предварительного обучения из токенов объемом 4 ТБ на китайском и…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: BAAI
Теги: aquilamoe, moe, conversational, custom_code, en, zh
Лайков: 7  |  Загрузок: 23

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.