z-lab/Qwen3-4B-DFlash-b16

DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Это обеспечивает эффективное, высококачественное параллельное черчение, расширяющее границы скорости вывода. Эта модель является компонентом чертежника. Его необходимо использовать вместе с целевой моделью Qwen/Qwen3-4B. Эта модель требует, чтобы Trustremotecode=True загружал пользовательскую архитектуру для генерации диффузии блоков. Убедитесь, что у вас установлены трансформаторы и горелка. Наша оценка проводится с факелом == 2.9.0 и трансформаторами = 4.57.3. В следующем примере показано, как загрузить средство разработки DFlash и целевую модель Qwen3-8B для выполнения спекулятивного декодирования. DFlash обеспечивает ускорение без потерь до 6,17 раз для Qwen3-8B, что делает его почти в 2,5 раза быстрее, чем современный метод спекулятивного декодирования EAGLE-3. Посетите наш репозиторий GitHub, чтобы узнать, как воспроизвести результаты. Если вы считаете, что DFlash полезен для ваших исследований или приложений, укажите наш проект.

Модальности:
Генерация текста

Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, diffusion, efficiency, flash-decoding, qwen
Лайков: 22 | Загрузок: 100,875

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

MerlynMind/merlyn-education-corpus-qa

unsloth/GLM-4.7-REAP-218B-A32B-GGUF

YanweiLi/MGM-7B

JetBrains/Mellum-4b-sft-kotlin