Гибридная модель 30B Mamba + MoE с 7,6 ГБ видеопамяти, 15 ток/с, правильный вывод на RTX 4090. Самый быстрый и надежный путь использует базовую модель BF16 с экспертной вилкой разгрузки vLLM. Эксперты МО живут в памяти, закрепленной за процессором, с кэшем LFRU на графическом процессоре. Требования: — Графический процессор: 24+ ГБ видеопамяти (RTX 3090/4090 или лучше) — ОЗУ ЦП: 64 ГБ (экспертные веса хранятся в закрепленной памяти) — CUDA: 12.0+ — Python: 3.10+ Этот репозиторий представляет собой квантованную версию HLWQ Q5 Nemotron-Cascade-2-30B-A3B: — Всего 20,6 ГБ (против ~60 ГБ) BF16 = в 2,9 раза меньше) — формат Polarenginev5 (HLWQ с поддержкой Mamba с послойными кодами + центроиды Lloyd-Max + блочные нормы) — 6006 слоев, квантованных по 52 блокам преобразователей + слои микшера Mamba — 18 232 весовых тензора (включая триплеты кодов / ct / норм для квантованных линейных + входных/выходных проекций Mamba) Для графических процессоров с 64+ ГБ видеопамяти, где экспертная разгрузка не требуется, вы можете деквантовать коды HLWQ в BF16 и обслуживать их напрямую: в результате получается контрольная точка BF16 размером ~60 ГБ, которая соответствует одному A100 80 ГБ или H100 80 ГБ. HLWQ Q5 = вращение Уолша-Адамара + 5-битное скалярное квантование Ллойда-Макса на 128 блоков, с адаптацией для Mamba: — Проекции внимания (q/k/v/o): HLWQ Q5 — Эксперт Министерства образования…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: caiovicentino1
Теги: nemotron_h, hlwq, hadamard-lloyd-quantization, moe, expert-offloading, nemotron, mamba, consumer-gpu
Лайков: 7 | Загрузок: 11
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.