z-lab/Kimi-K2.5-DFlash

DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Это обеспечивает эффективное, высококачественное параллельное черчение, расширяющее границы скорости вывода. Эта модель является компонентом чертежника. Его необходимо использовать совместно с целевой моделью Moonshotai/Kimi-K2.5. Пожалуйста, обратитесь к PR39930, чтобы узнать, как использовать DFlash с Kimi-K2.5 на vLLM. > Совет: Для длинных контекстных или агентских рабочих нагрузок добавьте —speculative-dflash-draft-window-size WINDOWSIZE`, чтобы включить внимание разработчика к скользящему окну. — Мышление: включено — Максимальное количество новых токенов: 4096 — Размер блока: 8 — Результаты SGLang. Особая благодарность Дэвиду Вангу за его выдающуюся инженерную поддержку этого проекта. Мы также благодарны Modal, InnoMatrix и Yotta Labs за предоставление вычислительных ресурсов, использованных для обучения этого проекта модели. Если вы считаете DFlash полезным, процитируйте нашу работу. Чтобы поделиться отзывом о DFlash или запросить поддержку новой модели, заполните эту форму: DFlash Feedback.

Модальности:
Генерация текста

Задача: Генерация текста
Автор: z-lab
Теги: qwen3, feature-extraction, dflash, speculative-decoding, diffusion, efficiency, flash-decoding, qwen
Лайков: 22 | Загрузок: 826

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

bryanmildort/gpt-clinical-notes-summarizer

microsoft/Phi-3-vision-128k-instruct-onnx-cpu

DeepMount00/Minerva-3B-base-RAG

BelleGroup/BELLE-LLaMA-13B-2M-enc