Расширенные возможности моделей ERNIE 4.5, особенно серий A47B и A3B на основе MoE, подкреплены несколькими ключевыми техническими инновациями: 1. Предварительное обучение мультимодальному гетерогенному MoE: наши модели совместно обучаются как текстовым, так и визуальным модальностям, чтобы лучше улавливать нюансы мультимодальной информации и повышать производительность при выполнении задач, связанных с пониманием и генерацией текста, пониманием изображений и кросс-модальным рассуждением. Чтобы добиться этого, чтобы одна модальность не мешала обучению другой, мы разработали гетерогенную структуру MoE, включили модально-изолированную маршрутизацию и использовали ортогональные потери маршрутизатора и мультимодальные потери, сбалансированные по токенам. Такой архитектурный выбор гарантирует эффективное представление обоих модальностей, обеспечивая взаимное подкрепление во время обучения. 2. Инфраструктура с эффективным масштабированием. Мы предлагаем новую стратегию гетерогенного гибридного параллелизма и иерархической балансировки нагрузки для эффективного обучения моделей ERNIE 4.5. Используя внутриузловой экспертный параллелизм, эффективное планирование конвейеров с использованием памяти, обучение смешанной точности FP8 и методы мелкозернистого повторного вычисления, мы достигаем замечательной пропускной способности предварительного обучения. Для вывода мы…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: baidu
Теги: ernie4_5_moe, ERNIE4.5, conversational, en, zh, 8-bit
Лайков: 20 | Загрузок: 18
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.