abhinand/Qwen3.6-35B-A3B-DFlash-GGUF

> [!Note] > Этот репозиторий предоставляет конвертированные веса GGUF для использования с форком dflash llama.cpp, основанным на исходной модели z-lab/Qwen3.6-35B-A3B-DFlash. DFlash — это спекулятивный метод декодирования, который использует облегченную модель диффузии блоков для параллельного создания нескольких токенов. Это модель чертежника, которую необходимо использовать в паре с Qwen/Qwen3.6-35B-A3B. vLLM (мы временно модифицируем установку с помощью этого PR для поддержки чередующегося SWA и обеспечения правильной обработки целевых скрытых состояний для оптимальной производительности): > Совет: для длинных контекстных или агентных рабочих нагрузок добавьте —speculative-dflash-draft-window-size WINDOWSIZE`, чтобы включить внимание разработчика к скользящему окну. Настройка: одиночная NVIDIA B200, SGLang, включено мышление, максимальная длина вывода 4096. Мы сообщаем о сквозной пропускной способности, включая время предварительного заполнения. Сценарии воспроизведения см. в нашем репозитории GitHub. Особая благодарность Дэвиду Вангу за его выдающуюся инженерную поддержку этого проекта. Мы также благодарны Modal, InnoMatrix и Yotta Labs за предоставление вычислительных ресурсов, использованных для обучения этого проекта модели. Если вы считаете DFlash полезным, процитируйте нашу работу. Чтобы поделиться отзывом о DFlash или запросить поддержку новой модели, заполните…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: abhinand
Теги: gguf, dflash, speculative-decoding, block-diffusion, draft-model, efficiency, qwen, diffusion-language-model
Лайков: 8 | Загрузок: 1,495

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

internlm/internlm2-math-20b

DavidAU/gemma-3-1b-it-heretic-extreme-uncensored-abliterated

NousResearch/Meta-Llama-3-8B-GGUF

microsoft/MediPhi