Эта модель имеет веса безопасных датчиков для модели языка параметров Madlad-400 8B. Код ВЧ-трансформаторов для выполнения вывода еще не готов. Исходная реализация находится в JAX/Flaxformer. Это T5 только для декодера с 32 слоями, 16 головками запросов, 1 головкой KV и размером встраивания 4096. Вот основные отличия от исходной архитектуры T5: — Активация SwiGLU — Параллельные уровни — Внимание к нескольким запросам — Внедрения RoPE — Совместные внедрения ввода-вывода — Отсутствие предвзятости — Двунаправленное внимание — Норма слоя с centerscaleatzero и последний слой с usescale=False Если вы ищете модели языковых моделей, вот доступные версии: — 3B — 7B — 7B-BT — 10B Статья: MADLAD-400: большой многоязычный и проверенный набор данных на уровне документов > Мы представляем MADLAD-400, проверенный вручную одноязычный набор данных токенов 3T общего домена, основанный на CommonCrawl и охватывающий 419 языков. Мы обсуждаем ограничения, выявленные при самостоятельном аудите MADLAD-400, а также роль аудита данных в процессе создания набора данных. Затем мы обучаем и выпускаем многоязычную модель машинного перевода с параметрами 10,7 млрд на 250 миллиардах токенов, охватывающую более 450 языков, с использованием общедоступных данных и…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: jbochi
Теги: t5, text-generation-inference, custom_code, en, ru, es, fr, de
Лайков: 8 | Загрузок: 20
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.