BUT-FIT/Czech-GPT-2-XL-133k - Каталог нейросетей
Генерация текста

BUT-FIT/Czech-GPT-2-XL-133k

Добавлено:
BUT-FIT/Czech-GPT-2-XL-133k

Это наш GPT-2 XL, обученный в рамках исследования проекта SemANT. — BUT-FIT/CSTinyLlama-1.2B — BUT-FIT/Czech-GPT-2-XL-133k — BUT-FIT/csmpt7b — Модель обучена на нашем полученном корпусе чешского языка объемом 15 621 685 248 токенов/78,48 ГБ/10 900 000 000 слов/18 800 000 абзацев веб-сканированием. — Исходный размер нашего корпуса до этапов дедупликации и lm-фильтрации составлял 266,44 ГБ. — Размер нашего токенизатора составляет 64 КБ, и для токенизации мы используем кодировку GPT-2, например BPE. — Модель обучена в стиле GPT-2, первый токен — это настоящий текстовый токен (не bos). Таким образом, вероятность первого токена не может быть вычислена. — Из-за особенности нашего кода наша модель никогда не была обучена генерировать [EOS]. — Модель была обучена с помощью 133 000 шагов обновления (~ 139 млрд токенов обучения) до окончания эксперимента. — Модель была адаптирована из исходного GPT-2 XL путем: — замены токенизатора, — соответствующих внедрений и — копирования более 1000 представлений EN, соответствующих 1000 наиболее частых токенов, в новые внедрения на основе двуязычного словаря. — Потери на обучение неуклонно снижались, а модель еще точно не сходилась. Мы сравниваем потери с небольшой версией модели 124М. -…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: BUT-FIT
Теги: gpt2, cs, text-generation-inference, endpoints_compatible
Лайков: 8  |  Загрузок: 500

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.