Словацкая GPT-J-1.4B с колоссальными 1 415 283 792 параметрами является последней и самой крупной моделью, выпущенной в словацкой серии GPT-J. Меньшие варианты, словацкий GPT-J-405M и словацкий GPT-J-162M, все еще доступны. Модель основана на GPT-J и имеет более 1,4 млрд обучаемых параметров. † ByteLevelBPETokenizer был обучен на том же словацком корпусе. Словацкие модели GPT-J были обучены на собранном в частном порядке наборе данных, состоящем преимущественно из словацкого текста, охватывающего различные категории, например. Интернет, новостные статьи или даже библейские тексты — всего для обучения этой модели было использовано более 40 ГБ текстовых данных. Набор данных был предварительно обработан и очищен особым способом, который включает в себя небольшие, но несколько предостережений, поэтому для достижения ожидаемой производительности не стесняйтесь обращаться к разделу [Как использовать]. Имейте в виду, что, несмотря на усилия по удалению неприемлемого корпуса, модель все равно может генерировать конфиденциальный контент или передавать конфиденциальную информацию. Эта модель была обучена на чуть более чем 26,5 миллиардах токенов за 48 001 шаг на модуле TPU v3-8. Потери при проверке перекрестной энтропии на последнем этапе составили 2,657. Как и оригинальный GPT-J, словацкий GPT-J изучает внутреннее представление языка, которое может…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: Milos
Теги: gptj, Slovak GPT-J, causal-lm, sk, endpoints_compatible
Лайков: 8 | Загрузок: 2,976
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.