nvidia/Nemotron-Research-GooseReason-4B-Instruct

Обучение с помощью Golden Goose: простой трюк для синтеза неограниченного количества задач RLVR из непроверяемого интернет-текста GooseReason‑4B‑Instruct — это современная модель рассуждения 4B, обученная с помощью обучения с подкреплением с проверяемыми вознаграждениями (RLVR) на GooseReason-0.7M, крупномасштабном наборе данных, синтезированном конвейером Golden Goose. Начиная с Qwen3-4B-Instruct и применяя рецепт ProRLv2 RL, дополненный данными GooseReason-0.7M, GooseReason-4B-Instruct достигает новых современных результатов среди моделей 4B-Instruct в 15 различных тестах, охватывающих математику, программирование, рассуждения STEM, следование инструкциям и логические головоломки. Расширение RLVR затруднено из-за нехватки проверяемых обучающих данных, когда улучшения все больше насыщаются после длительного обучения на существующих наборах данных. Golden Goose — это простой, масштабируемый конвейер, который синтезирует неограниченное количество задач RLVR из насыщенного, но не поддающегося проверке интернет-текста — таких массивов, как учебники по естественным наукам, математические форумы для олимпиад и веб-страницы по кибербезопасности, которые ранее были исключены из построения данных RLVR из-за сложности автоматической проверки. Ключевая идея: учитывая исходный текст S, мы…

Модальности:
Генерация текста

Области применения:
Генерация кода Математика Логика и рассуждение Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: nvidia
Теги: qwen3, reasoning, rlvr, math, code, stem, nvidia, conversational
Лайков: 8 | Загрузок: 41

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Undi95/Emerhyst-20B

qihoo360/Light-IF-32B

TheBloke/go-bruins-v2-GGUF

QuantFactory/ko-gemma-2-9b-it-GGUF