Qwen/Qwen3-0.6B-Base

Qwen3 — это последнее поколение больших языковых моделей в серии Qwen, предлагающее полный набор моделей с плотным доступом и моделями со смешанным участием экспертов (MoE). Основываясь на обширных достижениях в области обучающих данных, архитектуры моделей и методов оптимизации, Qwen3 обеспечивает следующие ключевые улучшения по сравнению с ранее выпущенным Qwen2.5: — Расширенный корпус предварительного обучения более высокого качества: Qwen3 предварительно обучен на 36 триллионах токенов на 119 языках, что в три раза превышает языковой охват Qwen2.5, с гораздо более богатым сочетанием высококачественных данных, включая кодирование, STEM, рассуждения, книги, многоязычные и синтетические данные. — Методы обучения и архитектура модели: Qwen3 включает в себя ряд методов обучения и архитектурных усовершенствований, включая потерю балансировки глобальной пакетной нагрузки для моделей MoE и qk Layernorm для всех моделей, что приводит к повышению стабильности и общей производительности. — Трехэтапное предварительное обучение: этап 1 фокусируется на широком языковом моделировании и приобретении общих знаний, этап 2 улучшает навыки рассуждения, такие как STEM, программирование и логическое рассуждение, а этап 3 улучшает понимание длинного контекста за счет увеличения длины обучающей последовательности до 32 тыс. токенов. — Руководствуясь законом масштабирования…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Qwen
Теги: qwen3, conversational, text-generation-inference, endpoints_compatible
Лайков: 153 | Загрузок: 231,004

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Darkknight535/Moonlight-L3-15B-v2.5-64k

nolanoAI/Hi-NOLIN-9B

NickyNicky/Mistral-7B-OpenOrca-oasst_top1_2023-08-25-v3

MuXodious/GLM-4.7-Flash-impotent-heresy