За последние несколько месяцев мы наблюдали все более четкие тенденции к масштабированию как общих параметров, так и длины контекста в поисках более мощного и агентного искусственного интеллекта (ИИ). Мы рады поделиться нашими последними достижениями в удовлетворении этих требований, направленными на повышение эффективности масштабирования за счет инновационной архитектуры моделей. Мы называем эту модель фундамента нового поколения Qwen3-Next. > [!Note] > Этот репозиторий содержит квантованную FP8 контрольную точку модели Qwen3-Next-80B-A3B-Instruct для удобства и производительности. > Метод квантования — «мелкозернистое квантование fp8» с размером блока 128. > Более подробную информацию можно найти в поле quantizationconfig в config.json`. > > Кроме того, экспериментальные результаты, представленные на этой карточке модели, получены из исходной модели bfloat16 до квантования FP8. Qwen3-Next-80B-A3B-FP8 является первой версией серии Qwen3-Next и содержит следующие ключевые улучшения: — Гибридное внимание: заменяет стандартное внимание комбинацией Gated DeltaNet и Gated Attention, что обеспечивает эффективное моделирование контекста для сверхдлинных контекстов. — Высокоразреженная смесь экспертов (МО): Достигает…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: Qwen
Теги: qwen3_next, conversational, endpoints_compatible, fp8
Лайков: 82 | Загрузок: 177,005
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.