ai-forever/mGPT-13B - Каталог нейросетей
Генерация текста

ai-forever/mGPT-13B

Добавлено:
ai-forever/mGPT-13B

Многоязычная языковая модель. Эта модель была обучена на 61 языке из 25 языковых семей (см. список ниже). Модель была предварительно обучена на 600Гб текста, в основном из MC4 и Википедии. Данные обучения были дедуплицированы, дедупликация текста включает 64-битное хеширование каждого текста в корпусе для сохранения текстов с уникальным хешем. Мы также фильтруем документы по степени сжатия текста, используя zlib4. Наиболее сильно и слабо сжимаемые дедуплицированные тексты отбрасываются. Вот таблица с количеством токенов для каждого языка в корпусе предварительного обучения в логарифмическом масштабе: африкаанс (af), арабский (ar), армянский (hy), азербайджанский (az), баскский (eu), башкирский (ba), белорусский (be), бенгальский (bn), болгарский (bg), бирманский (my), бурятский (bxr), чувашский (cv), датский (da), английский (en), эстонский (et), финский (fi), французский. (fr), грузинский (ka), немецкий (de), греческий (el), иврит (he), хинди (hi), венгерский (hu), индонезийский (id), итальянский (it), японский (ja), яванский (jv), калмыцкий (xal), казахский (kk), корейский (ko), кыргызский (ky), латышский (lv), литовский (lt), малайский (ms), малаялам (ml), маратхи (mr), монгольский (mn), осетинский (os), персидский (fa), польский (pl), португальский (пт), румынский…

Модальности:
Генерация текста

Области применения:
Мультиязычность


Задача: Генерация текста
Автор: ai-forever
Теги: gpt2, multilingual, PyTorch, Transformers, gpt3, ar, he, vi
Лайков: 49  |  Загрузок: 357

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.