Nemotron-Labs-Diffusion — это трехрежимная языковая модель, которая поддерживает как AR-декодирование, так и параллельное декодирование на основе диффузии путем простого переключения шаблона внимания одной и той же модели во время вывода. Синергия между этими двумя режимами обеспечивает третий режим, называемый самопредположением: одна и та же модель выполняет параллельное составление на основе диффузии и проверку AR с общим кэшем KV, достигая высокой длины приема и эффективности декодирования. Плавное переключение режимов путем простого изменения шаблонов внимания обеспечивает высокую эффективность на разных уровнях параллелизма в различных сценариях развертывания с помощью одной единственной модели. — Плотное семейство LM SOTA 3B, 8B, 14B (базовый вариант, вариант языка инструкций и языка видения), поддерживающее AR, распространение и самообсуждение с упором на эффективность декодирования. — Генерация перешла от режима, привязанного к памяти, к режиму, привязанному к вычислениям. Веса модели загружаются один раз и повторно используются для вычисления нескольких токенов во время генерации. — Самоспекуляция использует диффузию для черчения и AR для проверки, обеспечивая более сильную альтернативу подходам MTP: длина принятия в 3 раза выше и ускорение в 2,2 раза по сравнению с Qwen3-8B-Eagle3 в SGLang. 5,9× токенов за пересылку через Qwen3-8B (без MTP)…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: nvidia
Теги: nemotron_labs_diffusion, feature-extraction, nvidia, conversational, custom_code
Лайков: 9 | Загрузок: 17,136
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.