Мы представляем LongCat-Flash-Prover, флагманскую модель Mixture-of-Experts (MoE) с открытым исходным кодом стоимостью 560 миллиардов долларов США, которая развивает нативные формальные рассуждения в Lean4 посредством агентного интегрированного рассуждения (TIR). Мы разлагаем стандартную задачу формального рассуждения на три независимые формальные возможности: автоформализация, наброски и доказательство. Чтобы облегчить эти возможности, мы предлагаем структуру итерации гибридных экспертов для расширения высококачественных траекторий задач, включая создание формального утверждения на основе заданной неформальной проблемы, создание полного доказательства непосредственно из утверждения или эскиз в стиле леммы. В ходе агентного RL мы представляем алгоритм оптимизации политики иерархической выборки по важности (HisPO), целью которого является стабилизация обучения модели MoE для таких долгосрочных задач. Он использует стратегию градиентной маскировки, которая учитывает устаревшую политику и присущие механизму вывода поездов несоответствия как на уровне последовательности, так и на уровне токенов. Кроме того, мы также включаем механизмы проверки согласованности теорем и законности для устранения проблем со взломом вознаграждений. Обширные оценки показывают, что наш LongCat-Flash-Prover устанавливает новый уровень развития для открытых весов…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: meituan-longcat
Теги: conversational, custom_code, endpoints_compatible
Лайков: 29 | Загрузок: 389
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.