TIGER-Lab/Qwen2.5-Math-7B-CFT

Qwen2.5-Math-7B-CFT — это модель математического рассуждения с 7B параметрами, которая вносит сдвиг парадигмы в обучение языковой модели. Вместо использования традиционной контролируемой точной настройки (SFT) для имитации правильных ответов, эта модель обучается с использованием нашего нового подхода Critique Fine-Tuning (CFT), который учит модель критиковать и анализировать ответы, что приводит к более глубокому пониманию и расширению возможностей рассуждения. Модель демонстрирует, что научиться критиковать более эффективно, чем научиться подражать. Несмотря на то, что он обучен всего на 50 тысячах образцов, он достигает замечательной производительности, соответствующей или превосходящей модели, обученные на более чем 2 миллионах образцов, достигая точности 79,4% в математических тестах и 41,6% в тестах OlympiadBench. — Новая методология обучения, основанная на процессах обучения человека, в которых особое внимание уделяется критическому мышлению — Постоянное улучшение на 4–10 % по сравнению с традиционными подходами SFT по шести математическим тестам — Исключительная эффективность данных: соответствует производительности моделей, обученных на 40-кратном большем количестве данных — Построена на прочной основе Qwen2.5-Math-7B — Набор данных: WebInstruct-CFT-50K — Формат обучения: (вход = [запрос; шумный ответ], вывод = критика) — Модель учителя: GPT-4o для создания критики -…

Модальности:
Генерация текста

Области применения:
Математика Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: TIGER-Lab
Теги: qwen2, cft, math, reasoning, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 7

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

openlm-research/open_llama_3b_v2

OrionStarAI/OrionStar-Yi-34B-Chat

mlx-community/Qwen3-30B-A3B-4bit

microsoft/UserLM-8b