Orchestrator-8B — это современная модель оркестровки параметров 8B, предназначенная для решения сложных многоэтапных агентских задач путем координации разнообразного набора экспертных моделей и инструментов. В тесте «Последний экзамен человечества» (HLE) ToolOrchestrator-8B набрал 37,1%, превзойдя GPT-5 (35,1%) и при этом примерно в 2,5 раза более эффективный. — Интеллектуальная оркестровка: возможность управления разнородными наборами инструментов, включая базовые инструменты (поиск, выполнение кода) и другие LLM (специализированные и универсальные). — Многоцелевое обучение RL: обучение проводится с помощью групповой относительной политики оптимизации (GRPO) с новой функцией вознаграждения, которая оптимизирует точность, задержку/стоимость и соответствие предпочтениям пользователя. — Эффективность: обеспечивает более высокую точность при значительно меньших вычислительных затратах по сравнению с монолитными пограничными моделями. — Надежное обобщение: продемонстрирована способность обобщать невидимые инструменты и конфигурации цен. На последнем экзамене человечества Orchestrator-8B набрал 37,1%, превзойдя GPT-5 (35,1%), затратив всего 30% денежных затрат и в 2,5 раза быстрее. На FRAMES и τ²-Bench Orchestrator-8B неизменно превосходит сильные монолитные системы, демонстрируя универсальность рассуждений и надежный инструмент…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: nvidia
Теги: qwen3, conversational, eval-results, text-generation-inference, endpoints_compatible
Лайков: 557 | Загрузок: 14,245
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.