Kwai-Klear/GoLongRL-30B-A3B

Мы представляем GoLongRL, полностью открытый, ориентированный на возможности посттренировочный рецепт для обучения с подкреплением в длительном контексте с проверяемыми вознаграждениями (RLVR). Общее сравнение производительности в долгоконтекстных тестах (DocMath, LongBench-V2, Frames, MRCR, CorpusQA, LBV1-QA). GoLongRL-30B-A3B обеспечивает высокую производительность при длительном контексте в масштабе 30B. 1. Набор данных, ориентированный на возможности (23 тыс. образцов, 9 типов задач). Руководствуясь таксономией возможностей долгого контекста, набор данных охватывает точный поиск, понимание, исчерпывающий поиск, численные рассуждения, структурированное извлечение, структурированное сопоставление, градуированное ранжирование, упорядочивание последовательностей и обобщение. Каждая задача сочетается со своей естественной метрикой оценки в виде функции вознаграждения. 2. TMN-Перевес. Для решения проблем оптимизации, связанных с разнородными вознаграждениями, мы предлагаем TMN-Reweight, который сочетает в себе нормализацию среднего значения на уровне задач для выравнивания шкалы вознаграждений за перекрестные задачи с взвешиванием, адаптирующимся к сложности, для более надежной оценки преимуществ. 3. Полная открытая версия. Мы публично публикуем полный набор данных, четырехэтапный конвейер строительства и весь обучающий код. — При той же стандартной настройке GRPO только наш набор данных превосходит…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Kwai-Klear
Теги: qwen3_moe, conversational, endpoints_compatible
Лайков: 10 | Загрузок: 434

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.