z-lab/Qwen3.5-9B-DFlash

DFlash — это спекулятивный метод декодирования, который использует облегченную модель диффузии блоков для параллельного создания нескольких токенов, обеспечивая ускорение до 4,4 раз по сравнению с авторегрессионным декодированием. Это модель чертежника, которую необходимо использовать в паре с Qwen/Qwen3.5-9B. > Совет: Для длинных контекстных или агентских рабочих нагрузок добавьте —speculative-dflash-draft-window-size WINDOWSIZE`, чтобы включить внимание разработчика к скользящему окну. Настройка: одиночная NVIDIA B200, SGLang, включено мышление, максимальная длина вывода 4096. Мы сообщаем о сквозной пропускной способности, включая время предварительного заполнения. Сценарии воспроизведения см. в нашем репозитории GitHub. DFlash превосходит MTP по всем размерам блоков и уровням параллелизма, достигая ускорения в 4,4 раза при параллелизме 1. Особая благодарность Дэвиду Вангу за его выдающуюся техническую поддержку этого проекта. Мы также благодарны Modal, InnoMatrix и Yotta Labs за предоставление вычислительных ресурсов, использованных для обучения этого проекта модели. Если вы считаете DFlash полезным, процитируйте нашу работу. Чтобы поделиться отзывом о DFlash или запросить поддержку новой модели, заполните эту форму: DFlash Feedback.

Модальности:
Генерация текста

Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, block-diffusion, draft-model, efficiency, qwen
Лайков: 23 | Загрузок: 7,163

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese

OpenMOSS-Team/moss-moon-003-base

Salesforce/Llama-xLAM-2-70b-fc-r

AI-MO/Kimina-Prover-Distill-8B