Метка: rlvr

Автор: Сортировка:

Генерация текста

nvidia/Nemotron-Research-GooseReason-4B-Instruct

Обучение с помощью Golden Goose: простой трюк для синтеза неограниченного количества задач RLVR из непроверяемого интернет-текста GooseReason‑4B‑Instruct —...

Генерация текста

fangwu97/DeepSearch-1.5B

DeepSearch-1.5B🌟 — это модель рассуждения с параметрами 1,5 млрд, обученная с помощью обучения с подкреплением с проверяемыми вознаграждениями...