MBZUAI-Paris/Frugal-Thinking-4B

Статья: Короче, но не хуже: экономное рассуждение с помощью простых примеров в качестве регуляризаторов длины в математике. Страница проекта RLVR: https://mbzuai-paris.github.io/Frugal-Thinking Frugal-Thinking-4B — это оптимизированный для рассуждений вариант Qwen3-4B-Thinking-2507, обученный с помощью обучения с подкреплением с проверяемыми вознаграждениями (RLVR) на экономном мышлении. набор данных. Это обеспечивает неожиданную краткость: модель учится эффективно рассуждать и генерировать краткие, проверяемые математические решения — без какого-либо явного ограничения длины. Сохраняя умеренно простые задачи во время обучения, экономное мышление неявно упорядочивает длину рассуждений, уменьшая многословие при сохранении точности. Метрики оценки: Pass@1 (%) и точность с поправкой на эффективность. Чтобы совместно сравнить модели по точности и краткости, мы вводим новую метрику под названием «Точность, скорректированная на эффективность» (EAA). EAA наказывает излишне длинные цепочки рассуждений: $text{EAA}gamma = a times exp!left[-gamma cdot frac{L — L{min}}{L{max} — L{min}}right]$, где a — точность, $L$ — средняя длина выходных данных, а $γ$ определяет, насколько сильно наказываются длинные выходные данные ($γ$ = 3 в наших экспериментах). Более высокий EAA означает, что модель эффективно решает задачи с меньшими затратами…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: MBZUAI-Paris
Теги: qwen3, conversational, en, ar, fr, es, pt, text-generation-inference
Лайков: 7 | Загрузок: 4

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Delta-Vector/Austral-4.5B-Winton

DMindAI/DMind-1

deepvk/plato-9b

RuterNorway/Llama-2-13b-chat-norwegian