Проектирование архитектуры модели, ее предварительное обучение и оценка описаны в нашем препринте: «Семейство предварительно обученных языковых моделей трансформеров для русского языка». Модель была предварительно обучена с длиной последовательности 1024 с использованием библиотеки Transformers командой SberDevices на 80B токенах в течение 3 эпох. После этого модель была доработана с размером контекста в 2048 токенов. Общее время обучения составило около 16 дней на 64 графических процессорах. Итоговое недоумение на тестовом наборе — 17,4.
Модальности:
Генерация текста
Задача: Генерация текста
Автор: ai-forever
Теги: gpt2, PyTorch, Transformers, ru, text-generation-inference, endpoints_compatible
Лайков: 28 | Загрузок: 14,603
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.