> [!NOTE] > Примечание. В моделях «-Paddle» используются веса PaddlePaddle, а в моделях «-PT» используются веса PyTorch в стиле Transformer. > [!NOTE] > Примечание. Базовая модель поддерживает только завершение текста. Для оценки используйте API завершения (не чат-заполнение) в vLLM/FastDeploy. Расширенные возможности моделей ERNIE 4.5, особенно серий A47B и A3B на основе MoE, подкреплены несколькими ключевыми техническими инновациями: 1. Предварительное обучение мультимодальному гетерогенному MoE: наши модели совместно обучаются как текстовым, так и визуальным модальностям, чтобы лучше улавливать нюансы мультимодальной информации и повышать производительность при выполнении задач, связанных с пониманием и генерацией текста, пониманием изображений и кросс-модальным рассуждением. Чтобы добиться этого, чтобы одна модальность не мешала обучению другой, мы разработали гетерогенную структуру MoE, включили модально-изолированную маршрутизацию и использовали ортогональные потери маршрутизатора и мультимодальные потери, сбалансированные по токенам. Такой архитектурный выбор гарантирует эффективное представление обоих модальностей, обеспечивая взаимное подкрепление во время обучения. 2. Инфраструктура с эффективным масштабированием. Мы предлагаем новый гетерогенный гибридный параллелизм и иерархическую балансировку нагрузки…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: baidu
Теги: PaddlePaddle, ernie4_5_moe, ERNIE4.5, conversational, en, zh
Лайков: 11 | Загрузок: 50
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.