z-lab/Qwen3-Coder-30B-A3B-DFlash

DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Это обеспечивает эффективное, высококачественное параллельное черчение, расширяющее границы скорости вывода. Эта модель является компонентом чертежника. Его необходимо использовать вместе с целевой моделью Qwen/Qwen3-Coder-30B-A3B-Instruct. Qwen3-Coder-30B-A3B-DFlash обучен на 289 тыс. образцов, состоящих из: — Разделение кода из nvidia/Nemotron-Post-Training-Dataset-v2 — theblackcat102/evol-codealpaca-v1 — Примерно 2,8 тыс. трассировок выполнения Cline, собранных нами. Несмотря на обучение на значительно меньшем количестве данных, DFlash уже превосходит EAGLE-3 в ускорении вывода. Для сравнения, lmsys/SGLang-EAGLE3-Qwen3-Coder-30B-A3B-Instruct-SpecForge обучается на наборе данных open-perfect-blend с 1,4 млн выборок, что почти в 5 раз больше данных, чем DFlash. Этот результат подчеркивает эффективность обучения и масштабируемость DFlash и предполагает, что дальнейшее масштабирование обучающих данных может обеспечить еще больший прирост ускорения. DFlash неизменно обеспечивает высокую длительность принятия и ускорение на разных уровнях параллелизма. DFlash достигает одинаковой длины принятия как для целевой модели bfloat16, так и для…

Модальности:
Генерация текста

Области применения:
Генерация кода

Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, diffusion, efficiency, flash-decoding, qwen
Лайков: 28 | Загрузок: 964

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

MaziyarPanahi/Calme-7B-Instruct-v0.1.1-GGUF

DavidAU/Qwen3-The-Josiefied-Omega-Directive-22B-uncensored-abliterated-GGUF

TheBloke/openthaigpt-1.0.0-beta-13B-chat-GGUF

xuqinyang/baichuan-13b-chat-ggml-int4