DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Это обеспечивает эффективное, высококачественное параллельное черчение, расширяющее границы скорости вывода. Эта модель является компонентом чертежника. Его необходимо использовать вместе с целевой моделью Qwen/Qwen3-Coder-30B-A3B-Instruct. Qwen3-Coder-30B-A3B-DFlash обучен на 289 тыс. образцов, состоящих из: — Разделение кода из nvidia/Nemotron-Post-Training-Dataset-v2 — theblackcat102/evol-codealpaca-v1 — Примерно 2,8 тыс. трассировок выполнения Cline, собранных нами. Несмотря на обучение на значительно меньшем количестве данных, DFlash уже превосходит EAGLE-3 в ускорении вывода. Для сравнения, lmsys/SGLang-EAGLE3-Qwen3-Coder-30B-A3B-Instruct-SpecForge обучается на наборе данных open-perfect-blend с 1,4 млн выборок, что почти в 5 раз больше данных, чем DFlash. Этот результат подчеркивает эффективность обучения и масштабируемость DFlash и предполагает, что дальнейшее масштабирование обучающих данных может обеспечить еще больший прирост ускорения. DFlash неизменно обеспечивает высокую длительность принятия и ускорение на разных уровнях параллелизма. DFlash достигает одинаковой длины принятия как для целевой модели bfloat16, так и для…
Модальности:
Генерация текста
Области применения:
Генерация кода
Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, diffusion, efficiency, flash-decoding, qwen
Лайков: 28 | Загрузок: 964
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.