Мы представляем обновленную версию LongCat-Flash-Thinking, мощной и эффективной модели большого рассуждения (LRM) с 560 миллиардами общих параметров, построенной на инновационной архитектуре Mixture-of-Experts (MoE). Помимо наследования рецепта параллельного обучения в нашей предыдущей версии и поддержания высокой конкурентоспособности по традиционным критериям рассуждения, это обновление систематически усиливает возможности агентного мышления с помощью тщательно разработанного конвейера, который сочетает в себе масштабирование среды и последующий синтез задач, за которым следует надежное и эффективное крупномасштабное обучение с подкреплением в нескольких средах. Чтобы лучше адаптироваться к шуму и неопределенности, присущим реальным агентским задачам, мы проводим систематический анализ и обучение по различным типам и уровням шума окружающей среды, что обеспечивает надежную работу в несовершенных условиях. В результате LongCat-Flash-Thinking-2601 достигает не только высочайшего уровня производительности при использовании агентских инструментов, агентного поиска и интегрированных с инструментами рассуждений, но и существенно улучшает обобщение в произвольных агентных сценариях реального мира, не подлежащих распространению. Далее мы разрабатываем специальную оценку…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: meituan-longcat
Теги: LongCat-Flash-Thinking-2601, conversational, custom_code, eval-results
Лайков: 103 | Загрузок: 111
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.