z-lab/Qwen3.5-122B-A10B-DFlash

Поддержка механизма вывода может быть пока не полностью доступна из-за архитектурных изменений, включая причинные уровни SWA. DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Он обеспечивает эффективное и высококачественное параллельное черчение, расширяющее границы скорости вывода. Эта модель является компонентом чертежника. Его необходимо использовать вместе с целевой моделью Qwen/Qwen3.5-122B-A10B. vLLM (ознакомьтесь с этим PR для поддержки чередующихся черновых слоев SWA): Особая благодарность Дэвиду Вангу за его выдающуюся инженерную поддержку этого проекта. Мы также благодарны Modal, InnoMatrix и Yotta Labs за предоставление вычислительных ресурсов, использованных для обучения этого проекта модели. Если вы считаете DFlash полезным, процитируйте нашу работу. Чтобы поделиться отзывом о DFlash или запросить поддержку новой модели, заполните эту форму: DFlash Feedback.

Модальности:
Генерация текста

Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, diffusion, efficiency, flash-decoding, qwen
Лайков: 14 | Загрузок: 2,915

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

inclusionAI/Ring-mini-linear-2.0

yamatazen/Gemma2-Snowflakes-9B

tencent/Youtu-LLM-2B-GGUF

arcee-ai/Trinity-Large-Preview-W4A16