eth-nlped/TutorRL-7B

TutorRL-7B — это усовершенствованный вариант Qwen/Qwen2.5-7B-Instruct, обученный действовать как репетитор по математике, а не как решатель. Он соответствует педагогическим принципам использования обучения с подкреплением (GRPO) в синтетических многоходовых классах, не требуя каких-либо данных, помеченных человеком. Эта модель была разработана в рамках исследовательского проекта «От решения проблем к обучению решению проблем», который предлагает масштабируемый, без аннотаций подход к обучению LLM в качестве преподавателей. Вместо прямых ответов на вопросы модель оптимизирована для поддержки рассуждений, руководства сократовскими вопросами и отказа от окончательных решений, когда это полезно для обучения. Интерактивное обучение математике. Генерация сократического диалога. Исследование образовательного соответствия программ LLM. Безопасное и косвенное обучение в контексте решения проблем. > Примечание. Эта модель не генерирует блоки. Если вам нужны рассуждения, основанные на планировании, обратитесь к этому варианту модели: TutorRL-7B-think. Если вы используете эту модель или опираетесь на структуру обучения, укажите:

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: eth-nlped
Теги: qwen2, math-tutor, grpo, conversational, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 131

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Magpie-Align/MagpieLM-4B-Chat-v0.1

facebook/MobileLLM-ParetoQ-600M-BF16

Bahasalab/Bahasa-4b

unsloth/gemma-2-9b-it-bnb-4bit