0xSero/GLM-5.1-555B-GGUF

> [!TIP] > Поддержите эту работу → · X · GitHub · Документ REAP · Cerebras REAP Это Q4KM квантованный GGUF 25%-ного экспертного сокращения zai-org/GLM-5.1 с использованием REAP (относительное сокращение экспертной активации). Циклы с нулевым повторением по 220 эталонным тестам. Эта модель полностью устраняет дегенерацию повторения, которая затронула более агрессивно сокращенный вариант с 40%. Вариант с сокращением на 40 % (444B, 154 эксперта/уровень) страдал от циклов повторения примерно в 29 % задач кодовой/структурированной генерации. Анализ первопричин показал, что скорость вырождения определяется агрессивностью сокращения — удаление 40% экспертов оставляет слишком мало для того, чтобы модель могла поддерживать последовательные длинные результаты. При сокращении 25% сохраняются 192/256 экспертов, что обеспечивает достаточное экспертное разнообразие для стабильной генерации при любой длине последовательности. Требуется ~80–90 ГиБ видеопамяти на каждый графический процессор для четырех графических процессоров, или всего ~325 ГиБ. Защищено на уровне Q80 (НЕ квантуется до Q4):** — Веса шлюзов маршрутизатора + смещение — Веса индексатора DSA — Все проекции внимания + нормы — Общий эксперт (ворота, вверх, вниз) — Плотные слои (первые 3 слоя) — Встраивание токенов + выходной заголовок Квантуются до Q4K / Q6K: — Маршрутизируемые экспертные проекции (ворота, вверх → Q4K; вниз → Q6K) Стало возможным благодаря NVIDIA · TNG…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: 0xSero
Теги: llama-cpp, gguf, expert-pruning, glm, moe, pruning, q4_k_m, reap
Лайков: 7 | Загрузок: 176

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

stefan-it/xlstm-german-wikipedia

baichuan-inc/Baichuan-13B-Chat

numind/NuExtract-1.5

LLM360/CrystalChat