crumb/gpt2023

Это самая маленькая модель GPT-2 (124 м) от OpenAi, настроенная примерно на 2,23 млрд токенов (почти 2,48 млрд, необходимых для ее «оптимального для шиншиллы» предварительного обучения! Это также больше токенов, чем общее количество токенов, на которых было обучено Cerebras-GPT-111M), состоящее из 1,3 млрд с сайтов общего сканирования за 2023 год, 540 млн с ArXiv и 390M с GitHub. Модель обучалась со скоростью обучения 1e-4, с прогревом 1024 шага, а затем спадом до 0. Всего во время обучения было 4400 шагов при размере пакета 512 примеров с длиной контекста 1024. Размер пакета и длина контекста такие же, как и предварительное обучение самого GPT2. Обучение заняло в общей сложности 1,18e+18 FLO в течение 79,32 часов локально с использованием RTX3060 емкостью 12 ГБ. Итоговая потеря поезда составила 2,73. Полученная модель достигает PUplexity 339,38, что делает ее конкурентоспособной с Cerebras-590m всего лишь по 21% параметров и намного лучше, чем у оригинальной GPT-2, которая набрала 491,57! (метрическое объяснение здесь: https://twitter.com/aicrumb/status/1650350363898265601, tldr, это шутка) Чтобы продемонстрировать, как GPT2(023) знает о недавних событиях, давайте посмотрим на данный пример: Как вы можете видеть, GPT2(023) может генерировать связный и релевантный текст, относящийся к…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: crumb
Теги: gpt2, causal-lm, en, text-generation-inference, endpoints_compatible
Лайков: 18 | Загрузок: 2,035

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

failspy/Phi-3-medium-4k-instruct-abliterated-v3-GGUF

allenai/OLMo-7B-Twin-2T

QuantTrio/Qwen3-235B-A22B-Instruct-2507-AWQ

ServiceNow-AI/SuperApriel-15B-Instruct