ayysasha/MiniMax-M2.7-AWQ-G32-STRIX-2H - Каталог нейросетей
Генерация текста

ayysasha/MiniMax-M2.7-AWQ-G32-STRIX-2H

Добавлено:
ayysasha/MiniMax-M2.7-AWQ-G32-STRIX-2H

MiniMax-M2.7-AWQ-G32-STRIX-2H — это AWQ-квантование смешанной точности amd/MiniMax-M2.7-BF16, созданное для двухузлового вывода AMD Strix Halo (gfx1151) с тензорным параллелизмом vLLM + Ray. Рецепт квантования сохраняет внимание, маршрутизацию, встраивания, нормализацию и последние четыре экспертных уровня MoE основной модели в BF16, одновременно квантуя основную часть экспертных весов MoE до INT4 W4A16 AWQ с размером группы 32. Цель состоит в том, чтобы сохранить поведение в долгом контексте и качество рассуждений при одновременной установке MiniMax-M2.7 в цель развертывания 2 × Strix Halo. Этот квант предназначен для двухсистемной установки AMD Strix Halo: — 2 графических процессора Strix Halo / gfx1151 — обслуживание, совместимое с vLLM OpenAI — распределенный исполнитель Ray — тензорный параллельный размер 2 — среда выполнения на основе ROCm. Он не предназначен для обслуживания Strix Halo с одним графическим процессором. Размер модели и бюджет KV-кэша с длинным контекстом предполагают тензорный параллелизм в двух системах Strix Halo. Для среды Strix Halo ROCm/vLLM используйте набор инструментов Strix Halo vLLM: этот проект предоставляет ориентированную на Strix Halo среду контейнера/набора инструментов vLLM для систем AMD Ryzen AI Max/Strix Halo (gfx1151). Настройки для конкретной модели, используемые для этого количественного анализа, перечислены ниже. Если это смешанный BF16/INT4…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: ayysasha
Теги: minimax_m2, minimax-m2, awq, int4, bf16, vllm, rocm, strix-halo
Лайков: 8  |  Загрузок: 1,833

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.