aubmindlab/aragpt2-mega

Код в этом репозитории использовался для обучения всех вариантов GPT2. Код поддерживает обучение и тонкую настройку GPT2 на графических процессорах и TPU через API TPUEstimator. База и среда GPT2 используют код из папки gpt2 и могут обучать модели из репозитория minimaxir/gpt-2-simple. Эти модели были обучены с использованием оптимизатора Lamb, имеют ту же архитектуру, что и gpt2, и полностью совместимы с библиотекой преобразователей. GPT2-large и GPT2-mega были обучены с использованием библиотеки imcaspar/gpt2-ml и соответствуют архитектуре grover. Вы можете использовать классы pytorch, найденные в grover/modelinggpt2.py, в качестве прямой замены классов в библиотеке преобразователей (она должна поддерживать версию v4.x из преобразователей). Обе модели обучаются с использованием оптимизатора adafactor, поскольку оптимизаторы Адама и Лэмба используют слишком много памяти, из-за чего модель не помещается даже в один пакет на ядре TPU. AraGPT2 обучается на том же большом наборе данных на арабском языке, что и AraBERTv2. в противном случае модель не сможет генерировать правильный результат. Код модели теперь размещен на HuggingFace, поэтому вам необходимо использовать флагtrustremotecode, и его можно использовать следующим образом: Модель | Оптимизатор | Размер контекста | Размер встраивания | Количество голов | Нум…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: aubmindlab
Теги: tensorboard, aragpt2, custom_code, ar
Лайков: 11 | Загрузок: 2,394

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

bartowski/Smaug-Llama-3-70B-Instruct-GGUF

NousResearch/Hermes-3-Llama-3.2-3B

h2oai/h2ogpt-gm-oasst1-multilang-2048-falcon-7b

Weyaxi/Einstein-v6-7B