Квантование GGUF 0xSero/gemma-4-21b-a4b-it-REAP, 20% экспертного варианта google/gemma-4-26b-a4b-it с использованием метода REAP (взвешенное по маршрутизатору экспертное сокращение активации). 0xSero/gemma-4-21b-a4b-it-REAP применяет экспертное сокращение REAP (arXiv:2510.13999) для удаления 20% экспертов MoE (25 из 128 на слой) из Gemma 4 26B-A4B-it, сохраняя при этом поведение маршрутизации. Активные параметры каждого токена остаются неизменными и составляют ~4B. В результате получается модель примерно на 18% меньшего размера с почти идентичным качеством генерации по всем критериям кодирования, математических вычислений и рассуждений.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: barozp
Теги: gguf, gemma4, image-text-to-text, moe, pruning, reap, cerebras, expert-pruning
Лайков: 13 | Загрузок: 2,625
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.