Статические кванты GGUF GLM-4.7-Flash-REAP-23B-A3B-абсолютной-ереси. GLM-4.7-Flash-REAP-23B-A3B имеет следующие характеристики: — Базовая модель: GLM-4.7-Flash — Метод сжатия: REAP (взвешенное по маршрутизатору сокращение экспертной активации) — Коэффициент сжатия: экспертное сокращение 25 % — Тип: причинно-языковая модель разреженной смеси экспертов (SMoE) — Количество параметров: всего 23B, 3B активируется на каждый токен — Количество слоев: 47 — Количество глав внимания: 20 для QKV — Количество экспертов: 48 (равномерно сокращено с 64) — Количество активированных экспертов: 4 на токен — Длина контекста: 202 752 токена — Лицензия: MIT Вы можете развернуть модель напрямую, используя последнюю версию vLLM (которая поддерживает GLM4.7-Flash), никаких модификаций исходного кода или пользовательских исправлений не требуется. Если при запуске этой модели вы столкнулись с недостатком памяти, возможно, вам придется установить меньшее значение для флага —max-num-seqs (например, установить значение 64). Эта контрольная точка была создана путем применения метода REAP (взвешенное по маршрутизатору сокращение экспертной активации) равномерно для всех блоков Mixture-of-Experts (MoE) GLM-4.7 с коэффициентом сокращения 25%. REAP выбирает экспертов для сокращения на основе нового критерия значимости, который учитывает оба: — Значения шлюзов маршрутизатора: насколько часто и сильно…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: MuXodious
Теги: gguf, glm, MOE, pruning, compression, heretic, uncensored, decensored
Лайков: 9 | Загрузок: 475
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.