Qwen3 — это последнее поколение больших языковых моделей в серии Qwen, предлагающее полный набор моделей с плотным доступом и моделями со смешанным участием экспертов (MoE). Основываясь на обширных достижениях в области обучающих данных, архитектуры моделей и методов оптимизации, Qwen3 обеспечивает следующие ключевые улучшения по сравнению с ранее выпущенным Qwen2.5: — Расширенный корпус предварительного обучения более высокого качества: Qwen3 предварительно обучен на 36 триллионах токенов на 119 языках, что в три раза превышает языковой охват Qwen2.5, с гораздо более богатым сочетанием высококачественных данных, включая кодирование, STEM, рассуждения, книги, многоязычные и синтетические данные. — Методы обучения и архитектура модели: Qwen3 включает в себя ряд методов обучения и архитектурных усовершенствований, включая потерю балансировки глобальной пакетной нагрузки для моделей MoE и qk Layernorm для всех моделей, что приводит к повышению стабильности и общей производительности. — Трехэтапное предварительное обучение: этап 1 фокусируется на широком языковом моделировании и приобретении общих знаний, этап 2 улучшает навыки рассуждения, такие как STEM, программирование и логическое рассуждение, а этап 3 улучшает понимание длинного контекста за счет увеличения длины обучающей последовательности до 32 тыс. токенов. — Руководствуясь законом масштабирования…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Qwen
Теги: qwen3, conversational, text-generation-inference, endpoints_compatible
Лайков: 153 | Загрузок: 231,004
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.