Этот репозиторий содержит модель ученика с параметрами 7B, обученную с использованием конвейера учителей с подкреплением (RLT), представленного в нашей статье «Учителя обучения с подкреплением». — Разработано: Sakana AI — Тип модели: авторегрессионная языковая модель — Лицензия: Apache License, версия 2.0 — Бумага: https://arxiv.org/abs/2506.08388 — Код: https://github.com/SakanaAI/RLT Этот студент RLT 7B был получен от преподавателя 7B, обученного с подкреплением, который был специально обучен создавать высококачественные трассировки рассуждений, оптимизированные для учащихся. дистилляция. Модель была обучена с контролируемой точной настройкой с использованием тех же гиперпараметров, системной подсказки и тегов рассуждения из Li et al. 2025. Оценка проводилась с использованием библиотеки SkyThought при коммите 4bb8f3e. Пожалуйста, обратитесь к нашему репозиторию и документу для получения подробной информации и результатов. Эта модель предназначена только для целей исследований и разработок и ее следует рассматривать как экспериментальный прототип. Он не предназначен для коммерческого использования или развертывания в критически важных средах. Пользователь использует эту модель на свой страх и риск, ее производительность и результаты не гарантируются. Sakana AI не несет ответственности за какие-либо прямые, косвенные,…
Модальности:
Генерация текста
Области применения:
Генерация кода Математика Логика и рассуждение Диалог / чат
Задача: Генерация текста
Автор: SakanaAI
Теги: qwen2, reasoning, reinforcement, learning, RLT, math, science, code
Лайков: 19 | Загрузок: 22
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.