abhinand/Qwen3.6-35B-A3B-DFlash-GGUF - Каталог нейросетей
Генерация текста

abhinand/Qwen3.6-35B-A3B-DFlash-GGUF

Добавлено:
abhinand/Qwen3.6-35B-A3B-DFlash-GGUF

> [!Note] > Этот репозиторий предоставляет конвертированные веса GGUF для использования с форком dflash llama.cpp, основанным на исходной модели z-lab/Qwen3.6-35B-A3B-DFlash. DFlash — это спекулятивный метод декодирования, который использует облегченную модель диффузии блоков для параллельного создания нескольких токенов. Это модель чертежника, которую необходимо использовать в паре с Qwen/Qwen3.6-35B-A3B. vLLM (мы временно модифицируем установку с помощью этого PR для поддержки чередующегося SWA и обеспечения правильной обработки целевых скрытых состояний для оптимальной производительности): > Совет: для длинных контекстных или агентных рабочих нагрузок добавьте —speculative-dflash-draft-window-size WINDOWSIZE`, чтобы включить внимание разработчика к скользящему окну. Настройка: одиночная NVIDIA B200, SGLang, включено мышление, максимальная длина вывода 4096. Мы сообщаем о сквозной пропускной способности, включая время предварительного заполнения. Сценарии воспроизведения см. в нашем репозитории GitHub. Особая благодарность Дэвиду Вангу за его выдающуюся инженерную поддержку этого проекта. Мы также благодарны Modal, InnoMatrix и Yotta Labs за предоставление вычислительных ресурсов, использованных для обучения этого проекта модели. Если вы считаете DFlash полезным, процитируйте нашу работу. Чтобы поделиться отзывом о DFlash или запросить поддержку новой модели, заполните…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: abhinand
Теги: gguf, dflash, speculative-decoding, block-diffusion, draft-model, efficiency, qwen, diffusion-language-model
Лайков: 8  |  Загрузок: 1,495

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.