DFlash — это спекулятивный метод декодирования, который использует облегченную модель диффузии блоков для параллельного создания нескольких токенов. Это модель черчения, которую необходимо использовать в сочетании с Qwen/Qwen3-Coder-Next. > Совет: Для длинных контекстных или агентских рабочих нагрузок добавьте —speculative-dflash-draft-window-size WINDOWSIZE`, чтобы включить внимание разработчика к скользящему окну. Особая благодарность Дэвиду Вангу за его выдающуюся инженерную поддержку этого проекта. Мы также благодарны Modal, InnoMatrix и Yotta Labs за предоставление вычислительных ресурсов, использованных для обучения этого проекта модели. Если вы считаете DFlash полезным, процитируйте нашу работу. Чтобы поделиться отзывом о DFlash или запросить поддержку новой модели, заполните эту форму: DFlash Feedback.
Модальности:
Генерация текста
Области применения:
Генерация кода
Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, block-diffusion, draft-model, efficiency, qwen
Лайков: 11 | Загрузок: 2,717
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.