Эта модель представляет собой доработанную версию Qwen/Qwen2.5-3B-Instruct. Он был обучен с использованием TRL и GRPO в игре Countdown. Если вы хотите узнать, как воспроизвести эту модель и воспроизвести свой собственный момент «ага» Deepseek R1, прочтите сообщение в моем блоге. Эта модель была обучена с помощью GRPO, метода, представленного в книге DeepSeekMath: расширение границ математического рассуждения в моделях открытого языка. — TRL: 0.14.0 — Трансформеры: 4.48.1 — Pytorch: 2.5.1+cu121 — Наборы данных: 3.1.0 — Токенизаторы: 0.21.0
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: philschmid
Теги: tensorboard, qwen2, generated_from_trainer, trl, grpo, r1, rl, conversational
Лайков: 8 | Загрузок: 7
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.