Мы разработали метод квантования только по весу, специализированный для архитектуры Mixture-of-Experts (MoE), и выпустили Qwen3-30B-A3B, квантованный с помощью нашего алгоритма. Квантованные веса упаковываются с использованием формата квантования на основе AutoRound. Nota MoEQuant использует 8-битное квантование для уровня вентиля, в то время как все остальные линейные слои квантуются до 4 бит. Токенов в секунду. (TPS) измеряется с помощью 16 запросов с использованием 20 000 токенов для предварительного заполнения и 20 000 токенов для декодирования. Память указывает выделенную память графического процессора для параметров модели. Оценки модели проводились с использованием AutoRound==0.8.0 и vLLM==0.12.0.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: nota-ai
Теги: qwen3_moe, conversational, 4-bit, auto-round
Лайков: 8 | Загрузок: 7
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.