nvidia/Nemotron-Labs-Diffusion-3B-Base

Nemotron-Labs-Diffusion — это трехрежимная языковая модель, которая поддерживает как AR-декодирование, так и параллельное декодирование на основе диффузии путем простого переключения шаблона внимания одной и той же модели во время вывода. Синергия между этими двумя режимами обеспечивает третий режим, называемый самопредположением: одна и та же модель выполняет параллельное составление на основе диффузии и проверку AR с общим кэшем KV, достигая высокой длины приема и эффективности декодирования. Плавное переключение режимов путем простого изменения шаблонов внимания обеспечивает высокую эффективность на разных уровнях параллелизма в различных сценариях развертывания с помощью одной единственной модели. — Плотное семейство LM SOTA 3B, 8B, 14B (базовый вариант, вариант языка инструкций и языка видения), поддерживающее AR, распространение и самообсуждение с упором на эффективность декодирования. — Генерация перешла от режима, привязанного к памяти, к режиму, привязанному к вычислениям. Веса модели загружаются один раз и повторно используются для вычисления нескольких токенов во время генерации. — Самоспекуляция использует диффузию для черчения и AR для проверки, обеспечивая более сильную альтернативу подходам MTP: длина принятия в 3 раза выше и ускорение в 2,2 раза по сравнению с Qwen3-8B-Eagle3 в SGLang. 5,9× токенов за пересылку через Qwen3-8B (без MTP)…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: nvidia
Теги: nemotron_labs_diffusion, feature-extraction, nvidia, conversational, custom_code
Лайков: 9 | Загрузок: 17,136

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TheBloke/Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQ

TheBloke/starcoderplus-GGML

akjindal53244/Llama-3.1-Storm-8B-GGUF

vilm/Quyen-Pro-v0.1