z-lab/Qwen3.5-122B-A10B-DFlash - Каталог нейросетей
Генерация текста

z-lab/Qwen3.5-122B-A10B-DFlash

Добавлено:
z-lab/Qwen3.5-122B-A10B-DFlash

Поддержка механизма вывода может быть пока не полностью доступна из-за архитектурных изменений, включая причинные уровни SWA. DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Он обеспечивает эффективное и высококачественное параллельное черчение, расширяющее границы скорости вывода. Эта модель является компонентом чертежника. Его необходимо использовать вместе с целевой моделью Qwen/Qwen3.5-122B-A10B. vLLM (ознакомьтесь с этим PR для поддержки чередующихся черновых слоев SWA): Особая благодарность Дэвиду Вангу за его выдающуюся инженерную поддержку этого проекта. Мы также благодарны Modal, InnoMatrix и Yotta Labs за предоставление вычислительных ресурсов, использованных для обучения этого проекта модели. Если вы считаете DFlash полезным, процитируйте нашу работу. Чтобы поделиться отзывом о DFlash или запросить поддержку новой модели, заполните эту форму: DFlash Feedback.

Модальности:
Генерация текста


Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, diffusion, efficiency, flash-decoding, qwen
Лайков: 14  |  Загрузок: 2,915

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.