Эта модель была преобразована в FP16 из z-lab/Qwen3.6-27B-DFlash BF16. >DFlash — это новый метод спекулятивного декодирования, в котором для черчения используется облегченная модель диффузии блоков. Это обеспечивает эффективное, высококачественное параллельное черчение, расширяющее границы скорости вывода. «FP16» — это оптимизация M1/M2 Apple Silicon, которая приводит к очень заметному ускорению обработки. Подробности см. в разделе «Баланс Metal FP32 против BF16 против FP16» и jundot/omlx/pull/880.
Модальности:
Генерация текста
Задача: Генерация текста
Автор: deepsweet
Теги: qwen3, image-feature-extraction, dflash, speculative-decoding, draft-model, custom_code, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 377
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.