mratsim/MiniMax-M2.1-BF16-INT4-AWQ - Каталог нейросетей
Генерация текста

mratsim/MiniMax-M2.1-BF16-INT4-AWQ

Добавлено:
mratsim/MiniMax-M2.1-BF16-INT4-AWQ

Это квант высочайшего качества, который может работать на 192 ГБ видеопамяти > [!TIP] > 💡Это родственная модель mratsim/MiniMax-M2.1-FP8-INT4-AWQ > с весами исходной модели FP8, предварительно деквантованными до BF16. > > Это делает его совместимым с системами 8×3090 (которые не имеют аппаратного обеспечения FP8), > а также совместимым с SGLang для дополнительных 3 ГиБ видеопамяти. В ней представлены: — Эта модель гарантирует, что все эксперты откалиброваны, невыполнение этого крайне вредно, PR: https://github.com/vllm-project/llm-compressor/pull/2171. Наглядная демонстрация того, почему важно обеспечить квантование всех экспертов МО. — Источник: https://avtc.github.io/aquarium-side-by-side/ — Контекст: https://github.com/ModelCloud/GPTQModel/pull/2235 — Смешанная точность с: — весами самообслуживания, скопированными непосредственно из официальной версии (по умолчанию FP8 с 2D-блоками) — экспертными весами, квантованными с использованием схемы AWQ W4A16G32 (4-битные веса, 16-битные активации, коэффициент масштабирования на группу из 32 весов) — Высококачественный большой и разнообразный набор данных с программированием и развивает фокус, а также знания в конкретной области (математика, естественные науки, медицина, финансы, бизнес, гуманитарные науки, философия, творческое письмо), общие знания, поп-культура…

Модальности:
Генерация текста

Области применения:
Генерация кода Диалог / чат


Задача: Генерация текста
Автор: mratsim
Теги: llm-compressor, minimax_m2, fp8, awq, conversational, vllm, code, devops
Лайков: 7  |  Загрузок: 10

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.