BUT-FIT/Czech-GPT-2-XL-133k

Это наш GPT-2 XL, обученный в рамках исследования проекта SemANT. — BUT-FIT/CSTinyLlama-1.2B — BUT-FIT/Czech-GPT-2-XL-133k — BUT-FIT/csmpt7b — Модель обучена на нашем полученном корпусе чешского языка объемом 15 621 685 248 токенов/78,48 ГБ/10 900 000 000 слов/18 800 000 абзацев веб-сканированием. — Исходный размер нашего корпуса до этапов дедупликации и lm-фильтрации составлял 266,44 ГБ. — Размер нашего токенизатора составляет 64 КБ, и для токенизации мы используем кодировку GPT-2, например BPE. — Модель обучена в стиле GPT-2, первый токен — это настоящий текстовый токен (не bos). Таким образом, вероятность первого токена не может быть вычислена. — Из-за особенности нашего кода наша модель никогда не была обучена генерировать [EOS]. — Модель была обучена с помощью 133 000 шагов обновления (~ 139 млрд токенов обучения) до окончания эксперимента. — Модель была адаптирована из исходного GPT-2 XL путем: — замены токенизатора, — соответствующих внедрений и — копирования более 1000 представлений EN, соответствующих 1000 наиболее частых токенов, в новые внедрения на основе двуязычного словаря. — Потери на обучение неуклонно снижались, а модель еще точно не сходилась. Мы сравниваем потери с небольшой версией модели 124М. -…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: BUT-FIT
Теги: gpt2, cs, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 500

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

unsloth/DeepSeek-R1-0528-Qwen3-8B-bnb-4bit

second-state/Wizard-Vicuna-13B-Uncensored-GGUF

TheBloke/chronos-33b-GPTQ

Statuo/NemoMix-Unleashed-EXL2-4bpw