DeepScaleR-1.5B-Preview 🚀 Демократизация обучения с подкреплением для LLM 🌟 DeepScaleR-1.5B-Preview — это языковая модель, доработанная на основе DeepSeek-R1-Distilled-Qwen-1.5B с использованием распределенного обучения с подкреплением (RL) для масштабирования до больших длин контекста. Модель достигает точности Pass@1 на AIME 2024 43,1%, что представляет собой улучшение на 15% по сравнению с базовой моделью (28,8%) и превосходит производительность OpenAI O1-Preview всего с 1,5B параметров. Наш набор обучающих данных состоит примерно из 40 000 уникальных пар проблема-ответ, составленных из: — задач AIME (1984-2023 гг.) — проблем AMC (до 2023 г.) — набора данных Omni-MATH — набора данных Still. Мы используем оптимизацию групповой относительной политики Deepseek (GRPO), упрощенный алгоритм RL, который расширяет PPO за счет: — Нормализации функции преимущества по всем образцам, сгенерированным из одного и того же запроса. — Применение регуляризации дивергенции KL поверх суррогатных потерь PPO для предотвращения значительного отклонения политики. Функция вознаграждения: Наша функция вознаграждения проста, но эффективна: — 1 за правильные ответы, прошедшие проверки LaTeX/Sympy — 0 за неправильные или неправильно отформатированные ответы — Примечание. Никаких частичных вознаграждений (например, PRM) или промежуточной обратной связи. Итеративное удлинение контекста: ключевой момент…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: agentica-org
Теги: qwen2, en, text-generation-inference, endpoints_compatible
Лайков: 577 | Загрузок: 9,933
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.