unsloth/Qwen3-Coder-480B-A35B-Instruct-FP8

> [!NOTE] > Включает исправления шаблона чата Unsloth! Для llama.cpp используйте —jinja > Unsloth Dynamic 2.0 обеспечивает превосходную точность и превосходит другие ведущие количественные показатели. Сегодня мы анонсируем Qwen3-Coder, нашу самую агентную модель кода на сегодняшний день. Qwen3-Coder доступен в нескольких размерах, но мы рады представить сначала его самый мощный вариант: Qwen3-Coder-480B-A35B-Instruct. Со следующими ключевыми улучшениями: — Значительная производительность среди открытых моделей при агентном кодировании, использовании агентного браузера и других основных задачах кодирования, достигая результатов, сравнимых с Клодом Сонетом. — Возможности длительного контекста с встроенной поддержкой 256 тыс. токенов, расширяемой до 1 млн токенов с помощью Yarn, оптимизированной для понимания в масштабе репозитория. — Поддержка агентного кодирования для большинства платформ, таких как Qwen Code, CLINE, со специально разработанным форматом вызова функций. Qwen3-480B-A35B-Instruct имеет следующие функции: — Тип: каузальные языковые модели — Этап обучения: предварительное обучение и постобучение — Количество параметров: всего 480B и 35B активированных — Количество слоев: 62 - Количество голов внимания (GQA): 96 для Q и 8 для KV — Количество экспертов: 160 — Количество активированных экспертов: 8 — Контекст…

Модальности:
Генерация текста

Области применения:
Диалог / чат Генерация кода Следование инструкциям

Задача: Генерация текста
Автор: unsloth
Теги: qwen3_moe, unsloth, conversational, endpoints_compatible, fp8
Лайков: 8 | Загрузок: 15

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TheBloke/dolphin-2.7-mixtral-8x7b-GPTQ

Toten5/Marcoroni-neural-chat-7B-v2

deepseek-ai/DeepSeek-Coder-V2-Lite-Base

LLM360/K2