unsloth/Qwen3-Next-80B-A3B-Instruct - Каталог нейросетей
Генерация текста

unsloth/Qwen3-Next-80B-A3B-Instruct

Добавлено:
unsloth/Qwen3-Next-80B-A3B-Instruct

За последние несколько месяцев мы наблюдали все более четкие тенденции к масштабированию как общих параметров, так и длины контекста в поисках более мощного и агентного искусственного интеллекта (ИИ). Мы рады поделиться нашими последними достижениями в удовлетворении этих требований, направленными на повышение эффективности масштабирования за счет инновационной архитектуры моделей. Мы называем эту модель фундамента нового поколения Qwen3-Next. Qwen3-Next-80B-A3B — это первая часть серии Qwen3-Next, в которой реализованы следующие ключевые улучшения: — Гибридное внимание: стандартное внимание заменяется комбинацией Gated DeltaNet и Gated Attention, что позволяет эффективно моделировать контексты для сверхдлинных контекстов. — Смесь экспертов с высокой разреженностью (MoE): достигает чрезвычайно низкого коэффициента активации в слоях MoE, резко сокращая число операций на токене при сохранении емкости модели. — Оптимизация стабильности: включает в себя такие методы, как норма слоя с нулевым центром и распадом веса, а также другие улучшения стабилизации для надежной предварительной и пост-обучения. — Прогнозирование нескольких токенов (MTP): повышает производительность модели перед обучением и ускоряет вывод. Мы видим хорошие результаты по обоим направлениям…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям


Задача: Генерация текста
Автор: unsloth
Теги: qwen3_next, unsloth, conversational, endpoints_compatible
Лайков: 89  |  Загрузок: 320

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.