nota-ai/Qwen3-30B-A3B-NotaMoEQuant-Int4

Мы разработали метод квантования только по весу, специализированный для архитектуры Mixture-of-Experts (MoE), и выпустили Qwen3-30B-A3B, квантованный с помощью нашего алгоритма. Квантованные веса упаковываются с использованием формата квантования на основе AutoRound. Nota MoEQuant использует 8-битное квантование для уровня вентиля, в то время как все остальные линейные слои квантуются до 4 бит. Токенов в секунду. (TPS) измеряется с помощью 16 запросов с использованием 20 000 токенов для предварительного заполнения и 20 000 токенов для декодирования. Память указывает выделенную память графического процессора для параметров модели. Оценки модели проводились с использованием AutoRound==0.8.0 и vLLM==0.12.0.

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: nota-ai
Теги: qwen3_moe, conversational, 4-bit, auto-round
Лайков: 8 | Загрузок: 7

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.