Эта модель была конвертирована в формат MLX из google/gemma-4-26B-A4B-it-assistant с использованием mlx-vlm версии 0.4.5. Более подробную информацию о модели можно найти на оригинальной карточке модели. Пакетная генерация — —draft-block-size 3, используйте пакетный генератор`: порт MLX проекта Google Gemma 4 Multi-Token Prediction (MTP) для спекулятивного декодирования. Небольшой четырехуровневый помощник составляет несколько жетонов-кандидатов за раунд; полная цель Gemma 4 проверяет их за один проход вперед. Вывод побайтно идентичен выводу без рисунка при температуре = 0. Рекомендуемый —draft-block-size: 6 для одиночных запросов, 3 для пакетной генерации. Архитектуру, поддерживаемые пары, показатели производительности и предостережения см. в документации составителя.
Модальности:
Генерация текста
Задача: Генерация текста
Автор: mlx-community
Теги: mlx, gemma4_assistant, speculative-decoding, mtp, gemma, drafter
Лайков: 13 | Загрузок: 13,513
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.