ZR1-1.5B — это небольшая модель рассуждения, тщательно обученная как проверенному программированию, так и математическим задачам с обучением с подкреплением. Модель превосходит Llama-3.1-70B-Instruct при выполнении задач жесткого кодирования и превосходит базовую модель R1-Distill-1.5B более чем на 50 %, достигая при этом высоких оценок по математическим оценкам и точности 37,91 % при 1 прохождении по GPQA-Diamond всего лишь с 1,5 B параметров. !ZR1-1.5B Результаты оценки LiveBench на LiveBench с жадной выборкой: модель очень эффективна с использованием токенов. Для обучения мы использовали набор данных PRIME Eurus-2-RL, который объединяет следующие наборы математических и кодовых данных: — NuminaMath-CoT — набор поездов APPS, CodeContests, TACO и Codeforces. Мы фильтровали математические данные, проверяя правильность оценки вопросов при вызове оценщика с помощью контрольной точки. правда, и мы удалили все примеры кода с пустым списком тест-кейсов. Наш окончательный набор данных включал примерно 400 тысяч математических вычислений + 25 тысяч примеров кода. Мы используем PRIME (усиление процесса посредством IMplicit вознаграждений), онлайн-алгоритм RL с вознаграждением за процесс, мотивированный улучшением по сравнению с GPRO, продемонстрированным в статье, а также потенциально более точными вознаграждениями на уровне токенов благодаря вознаграждению за изученный процесс…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Zyphra
Теги: qwen2, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 71 | Загрузок: 1,447
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.