stepfun-ai/RLVR-8B-0926

Мы представляем PaCoRe (параллельное скоординированное рассуждение), структуру, которая смещает движущую силу вывода с последовательной глубины на скоординированную параллельную ширину, преодолевая ограничения контекста модели и значительно масштабируя время тестирования: Думайте параллельно: PaCoRe запускает массовые параллельные траектории исследования. Координация в нескольких раундах: он использует архитектуру передачи сообщений, чтобы сжать эти мысли в краткие сообщения и синтезировать их, чтобы направлять следующий раунд. Обученный посредством крупномасштабного обучения с подкреплением, основанного на результатах, PaCoRe овладевает возможностями синтеза рассуждений, необходимыми для согласования различных параллельных идей. Этот подход дает значительные улучшения в различных областях и, в частности, выводит рассуждения за пределы передовых математических систем: модель 8B достигает 94,5% на HMMT 2025, превосходя 93,2% GPT-5 за счет масштабирования эффективного TTC примерно до двух миллионов токенов. Мы открываем контрольные точки модели, данные обучения и полный конвейер вывода с открытым исходным кодом для ускорения последующей работы! Рисунок 1 | Производительность параллельного скоординированного мышления (PaCoRe). Слева: на HMMT 2025 PaCoRe-8B демонстрирует замечательное масштабирование времени тестирования, обеспечивая стабильный прирост и в конечном итоге превосходя…

Модальности:
Генерация текста

Области применения:
Генерация кода Математика Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: stepfun-ai
Теги: qwen3, reasoning, test-time-compute, pacore, math, code, conversational, text-generation-inference
Лайков: 8 | Загрузок: 37

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

tensorblock/Phi-4-mini-instruct-abliterated-GGUF

DavidAU/L3.1-Dark-Reasoning-Unholy-Hermes-R1-Uncensored-8B

OuteAI/Lite-Oute-1-65M-Instruct

adalbertojunior/Llama-3-8B-Dolphin-Portuguese-v0.3