Мы представляем Light-R1-14B-DS, первую успешную попытку RL с открытым исходным кодом на уже давно отлаженных моделях COT аналогичных размеров при небольшом бюджете. Light-R1-14B-DS также является современной математической моделью 14B с баллами AIME24 и 25 74,0 и 60,2, что превосходит многие модели 32B. Недавние работы по RL успешно обучали RL на базовых моделях (обычно с -нулем в названии), или на моделях 1,5B (с длиной ответа, что интересно уменьшается, а затем увеличивается), или на QwQ-32B с предположительно непомерно тяжелыми вычислениями. Light-R1-14B-DS знаменует собой еще один шаг вперед в воспроизведении и демократизации DeepSeek-R1. Мы наконец-то увидели ожидаемое поведение во время обучения RL: одновременное увеличение длины ответа и оценки вознаграждения в уже давно настроенной модели COT (см. журнал wandb). Созданный на основе DeepSeek-R1-Distill-Qwen-14B, Light-R1-14B-DS прошел длительное пост-обучение COT RL и достиг нового уровня техники по моделям 14B-Math: 74.0 и 60.2 на AIME 24 и 25 соответственно. Light-R1-14B-DS также хорошо показал себя на GPQA без какой-либо специальной подготовки. Мы рады представить эту модель вместе с техническим отчетом и продолжим совершенствовать наше длительное пост-обучение COT RL. Мы тщательно…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: qihoo360
Теги: qwen2, conversational, text-generation-inference, endpoints_compatible
Лайков: 37 | Загрузок: 8
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.