THU-KEG/LongWriter-Zero-32B

— 🚀 LongWriter-Zero — 📊 Тесты и оценка — ⚡ Быстрый старт — 📝 Citation LongWriter-Zero — это модель большого языка, основанная исключительно на обучении с подкреплением (RL), способная генерировать связные отрывки, превышающие 10 000 токенов. Процесс обучения, основанный на Qwen 2.5-32B-Base, включает в себя: — Постоянное предварительное обучение на 30 миллиардов токенов по длинным книгам и техническим отчетам для улучшения фундаментальных навыков письма; — Применение оптимизации групповой относительной политики (GRPO) с составной функцией вознаграждения: — Модель вознаграждения за длину (RM) обеспечивает желаемую длину вывода, — Написание RM оценивает беглость, связность и полезность, — Формат RM обеспечивает строгое соблюдение …… структуры, а также обнаруживает повторяющийся контент, чтобы избежать избыточности; — Специальная стратегия подсказок, которая побуждает модели явно размышлять, прежде чем ответить, тем самым улучшая структурное планирование и детальный контроль длины. Полученная модель LongWriter-Zero-32B соответствует или превосходит производительность моделей масштаба 100B при генерации сверхдлинных форм. Эффективность LongWriter-Zero демонстрируется на двух фронтах: WriteBench и Arena-Write для автоматического подсчета очков и человеческое исследование процента побед для…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: THU-KEG
Теги: qwen2, reinforcement-learning, writing, Long Context, conversational, en, zh, text-generation-inference
Лайков: 111 | Загрузок: 21

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

beomi/Llama-3-KoEn-8B

jondurbin/bagel-dpo-7b-v0.1

CofeAI/Tele-FLM-1T

TheBloke/speechless-mistral-dolphin-orca-platypus-samantha-7B-GGUF