Это небольшая модель GPT2, предварительно обученная с помощью индонезийской Википедии с использованием цели моделирования причинного языка (CLM). Эта модель не имеет корпуса: она не делает разницы между Индонезией и Индонезией. Это одна из нескольких других языковых моделей, предварительно обученных с использованием наборов данных на индонезийском языке. Более подробную информацию о ее использовании в последующих задачах (классификация текста, генерация текста и т. д.) можно найти на странице Модели индонезийского языка на основе Transformer. Эту модель можно использовать непосредственно с конвейером для генерации текста. Поскольку генерация основана на некоторой случайности, мы задаем начальное значение для воспроизводимости: Вот как использовать эту модель для получения характеристик заданного текста в PyTorch: Эта модель была предварительно обучена с использованием 522 МБ индонезийской Википедии. Тексты токенизированы с использованием байтовой версии кодирования пар байтов (BPE) (для символов Юникода) и размера словаря 52 000. Входные данные представляют собой последовательности из 128 последовательных токенов.
Модальности:
Генерация текста
Задача: Генерация текста
Автор: cahya
Теги: tf, jax, gpt2, id, text-generation-inference, endpoints_compatible
Лайков: 14 | Загрузок: 2,958
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.