SakanaAI/RLT-7B

Этот репозиторий содержит модель ученика с параметрами 7B, обученную с использованием конвейера учителей с подкреплением (RLT), представленного в нашей статье «Учителя обучения с подкреплением». — Разработано: Sakana AI — Тип модели: авторегрессионная языковая модель — Лицензия: Apache License, версия 2.0 — Бумага: https://arxiv.org/abs/2506.08388 — Код: https://github.com/SakanaAI/RLT Этот студент RLT 7B был получен от преподавателя 7B, обученного с подкреплением, который был специально обучен создавать высококачественные трассировки рассуждений, оптимизированные для учащихся. дистилляция. Модель была обучена с контролируемой точной настройкой с использованием тех же гиперпараметров, системной подсказки и тегов рассуждения из Li et al. 2025. Оценка проводилась с использованием библиотеки SkyThought при коммите 4bb8f3e. Пожалуйста, обратитесь к нашему репозиторию и документу для получения подробной информации и результатов. Эта модель предназначена только для целей исследований и разработок и ее следует рассматривать как экспериментальный прототип. Он не предназначен для коммерческого использования или развертывания в критически важных средах. Пользователь использует эту модель на свой страх и риск, ее производительность и результаты не гарантируются. Sakana AI не несет ответственности за какие-либо прямые, косвенные,…

Модальности:
Генерация текста

Области применения:
Генерация кода Математика Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: SakanaAI
Теги: qwen2, reasoning, reinforcement, learning, RLT, math, science, code
Лайков: 19 | Загрузок: 22

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

legraphista/glm-4-9b-chat-1m-GGUF

clibrain/Llama-2-7b-ft-instruct-es-gptq-4bit

sophosympatheia/Nova-Tempus-70B-v0.2

4bit/Qwen-VL-Chat-Int4