nvidia/Nemotron-Research-GooseReason-4B-Instruct - Каталог нейросетей
Генерация текста

nvidia/Nemotron-Research-GooseReason-4B-Instruct

Добавлено:
nvidia/Nemotron-Research-GooseReason-4B-Instruct

Обучение с помощью Golden Goose: простой трюк для синтеза неограниченного количества задач RLVR из непроверяемого интернет-текста GooseReason‑4B‑Instruct — это современная модель рассуждения 4B, обученная с помощью обучения с подкреплением с проверяемыми вознаграждениями (RLVR) на GooseReason-0.7M, крупномасштабном наборе данных, синтезированном конвейером Golden Goose. Начиная с Qwen3-4B-Instruct и применяя рецепт ProRLv2 RL, дополненный данными GooseReason-0.7M, GooseReason-4B-Instruct достигает новых современных результатов среди моделей 4B-Instruct в 15 различных тестах, охватывающих математику, программирование, рассуждения STEM, следование инструкциям и логические головоломки. Расширение RLVR затруднено из-за нехватки проверяемых обучающих данных, когда улучшения все больше насыщаются после длительного обучения на существующих наборах данных. Golden Goose — это простой, масштабируемый конвейер, который синтезирует неограниченное количество задач RLVR из насыщенного, но не поддающегося проверке интернет-текста — таких массивов, как учебники по естественным наукам, математические форумы для олимпиад и веб-страницы по кибербезопасности, которые ранее были исключены из построения данных RLVR из-за сложности автоматической проверки. Ключевая идея: учитывая исходный текст S, мы…

Модальности:
Генерация текста

Области применения:
Генерация кода Математика Логика и рассуждение Диалог / чат Следование инструкциям


Задача: Генерация текста
Автор: nvidia
Теги: qwen3, reasoning, rlvr, math, code, stem, nvidia, conversational
Лайков: 8  |  Загрузок: 41

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.