mratsim/MiniMax-M2.1-BF16-INT4-AWQ

Это квант высочайшего качества, который может работать на 192 ГБ видеопамяти > [!TIP] > 💡Это родственная модель mratsim/MiniMax-M2.1-FP8-INT4-AWQ > с весами исходной модели FP8, предварительно деквантованными до BF16. > > Это делает его совместимым с системами 8×3090 (которые не имеют аппаратного обеспечения FP8), > а также совместимым с SGLang для дополнительных 3 ГиБ видеопамяти. В ней представлены: — Эта модель гарантирует, что все эксперты откалиброваны, невыполнение этого крайне вредно, PR: https://github.com/vllm-project/llm-compressor/pull/2171. Наглядная демонстрация того, почему важно обеспечить квантование всех экспертов МО. — Источник: https://avtc.github.io/aquarium-side-by-side/ — Контекст: https://github.com/ModelCloud/GPTQModel/pull/2235 — Смешанная точность с: — весами самообслуживания, скопированными непосредственно из официальной версии (по умолчанию FP8 с 2D-блоками) — экспертными весами, квантованными с использованием схемы AWQ W4A16G32 (4-битные веса, 16-битные активации, коэффициент масштабирования на группу из 32 весов) — Высококачественный большой и разнообразный набор данных с программированием и развивает фокус, а также знания в конкретной области (математика, естественные науки, медицина, финансы, бизнес, гуманитарные науки, философия, творческое письмо), общие знания, поп-культура…

Модальности:
Генерация текста

Области применения:
Генерация кода Диалог / чат

Задача: Генерация текста
Автор: mratsim
Теги: llm-compressor, minimax_m2, fp8, awq, conversational, vllm, code, devops
Лайков: 7 | Загрузок: 10

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Jiabin99/GraphGPT-7B-mix-all

TheBloke/CodeLlama-13B-GGML

lightonai/alfred-40b-1023

maywell/Synatra-7B-v0.3-base