philschmid/qwen-2.5-3b-r1-countdown

Эта модель представляет собой доработанную версию Qwen/Qwen2.5-3B-Instruct. Он был обучен с использованием TRL и GRPO в игре Countdown. Если вы хотите узнать, как воспроизвести эту модель и воспроизвести свой собственный момент «ага» Deepseek R1, прочтите сообщение в моем блоге. Эта модель была обучена с помощью GRPO, метода, представленного в книге DeepSeekMath: расширение границ математического рассуждения в моделях открытого языка. — TRL: 0.14.0 — Трансформеры: 4.48.1 — Pytorch: 2.5.1+cu121 — Наборы данных: 3.1.0 — Токенизаторы: 0.21.0

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: philschmid
Теги: tensorboard, qwen2, generated_from_trainer, trl, grpo, r1, rl, conversational
Лайков: 8 | Загрузок: 7

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

WizardLMTeam/WizardCoder-Python-34B-V1.0

TrevorJS/gemma-4-26B-A4B-it-uncensored

DavidAU/Qwen2.5-QwQ-35B-Eureka-Cubed-abliterated-uncensored

BramVanroy/fietje-2-chat