unsloth/Qwen3-Coder-480B-A35B-Instruct-1M

> [!NOTE] > Увеличивает длину контекста с 256 КБ до 1 миллиона > Сегодня мы анонсируем Qwen3-Coder, нашу самую агентную модель кода на сегодняшний день. Qwen3-Coder доступен в нескольких размерах, но мы рады представить сначала его самый мощный вариант: Qwen3-Coder-480B-A35B-Instruct. Со следующими ключевыми улучшениями: — Значительная производительность среди открытых моделей при агентном кодировании, использовании агентного браузера и других основных задачах кодирования, достигая результатов, сравнимых с Клодом Сонетом. — Возможности длительного контекста с встроенной поддержкой 256 тыс. токенов, расширяемой до 1 млн токенов с помощью Yarn, оптимизированной для понимания в масштабе репозитория. — Поддержка агентного кодирования для большинства платформ, таких как Qwen Code, CLINE, со специально разработанным форматом вызова функций. Qwen3-480B-A35B-Instruct имеет следующие функции: — Тип: причинно-языковые модели — Этап обучения: предварительное обучение и постобучение — Количество параметров: всего 480B и 35B активированных — Количество слоев: 62 — Количество головок внимания (GQA): 96 для Q и 8 для KV — Количество экспертов: 160 — Количество активированных экспертов: 8 — Контекст Длина: 262 144 исходно. Для получения более подробной информации, включая оценку производительности, требования к оборудованию и…

Модальности:
Генерация текста

Области применения:
Диалог / чат Генерация кода Следование инструкциям

Задача: Генерация текста
Автор: unsloth
Теги: qwen3_moe, conversational, endpoints_compatible
Лайков: 7 | Загрузок: 78

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.