WeDLM-8B-Instruct — это наша флагманская модель диффузного языка с настройкой инструкций, которая выполняет параллельное декодирование со стандартным причинным вниманием, точно настроенным на основе WeDLM-8B. Основные особенности: — 🚀 В 3–6 раз быстрее, чем Qwen3-8B, оптимизированный для vLLM, при выполнении математических задач — 📈 Превосходит базовый Qwen3-8B-Instruct в большинстве тестов — ✅ Совместимость с собственным кэшем KV (FlashAttention, PagedAttention, CUDA Graphs) Базовую (предварительно обученную) версию см. в WeDLM-8B, основанном на Qwen3-8B-База. > Примечание: flash-attn требует компиляции и должен быть установлен после PyTorch. > Сценарий install.sh выполняет это автоматически (по умолчанию: CUDA 12.9). > Для других версий CUDA: CUDAVERSION=cu124 bash install.sh` > ⚠️ Примечание. Интерфейс HuggingFace предназначен для удобства обучения/перехода вперед. Для оптимизации производительности вывода используйте механизм wedlm, описанный выше. Ускорение зависит от характеристик задачи (измеряется по Qwen3-8B-Instruct, оптимизированному для vLLM):
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: tencent
Теги: wedlm, language model, parallel-decoding, conversational, custom_code, en, zh
Лайков: 311 | Загрузок: 1,947
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.