GGUF собирает google/gemma-4-E2B-it-assistant — официальный разработчик Gemma 4 Multi-Token Prediction (MTP) для google/gemma-4-E2B-it. Используйте его в качестве черновой модели спекулятивного декодирования вместе с соответствующей целью Gemma 4, чтобы получить значительное ускорение декодирования при нулевой потере качества. > [!ВАЖНО] > Эти GGUF используют собственную архитектуру gemma4assistant и не > загружают стандартный файл llama.cpp. Для них требуется > форк атомной-ламы-cpp-turboquant, который добавляет: > — арку-чертеж MTP gemma4assistant (включая центроидную головку LM для E2B/E4B), > — квантование KV-кэша TurboQuant (-ctk Turbo3 -ctv Turbo3), > — флаги времени выполнения mtp —mtp-head / —spec-type. > > Загрузка этих файлов в вышестоящий ggml-org/llama.cpp` завершится неудачно с > неизвестной ошибкой архитектуры. Для E2B/E4B помощник использует заголовок центроида с упорядоченным внедрением (mtp.centroids.weight + mtp.tokenordering.weight`), который сжимает заголовок LM поверх 262K-словаба в 2048 центроидов; эта структура сохраняется на каждом уровне квантования в этом репозитории. Запускаем llama-server со спекулятивным декодированием MTP + кэш TurboQuant KV: Готовый лаунчер живет по адресу scripts/run-gemma4-e2b-mtp-server.sh в форке…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: AtomicChat
Теги: llama.cpp, gguf, mtp, multi-token-prediction, speculative-decoding, gemma, gemma-4, atomic-chat
Лайков: 7 | Загрузок: 3,193
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.