nvidia/Nemotron-Flash-1B

🗞️Бумага&nbsp&nbsp| &nbsp&nbsp 🤗 Немотрон-Флэш-1Б | &nbsp&nbsp 🤗 Немотрон-Флэш-3Б | &nbsp&nbsp 🤗 Nemotron-Flash-3B-Instruct &nbsp Nemotron-Flash — это новое гибридное семейство малых языковых моделей, разработанное с учетом реальной задержки, а не количества параметров. Он имеет оптимальное соотношение глубины и ширины с задержкой, гибридные операторы, обнаруженные посредством эволюционного поиска, и нормализацию веса во время обучения. Дополнительные технические подробности см. в нашем документе NeurIPS 2025. Модели достигают точности SOTA в математических вычислениях, кодировании и здравом смысле в масштабах 1B и 3B, обеспечивая при этом приличную задержку для малых пакетов и пропускную способность для больших пакетов. Например, Nemotron-Flash-1B обеспечивает +5,5% точности, меньшую задержку в 1,9 раза и более высокую пропускную способность в 45,6 раза по сравнению с Qwen3-0,6B; а Nemotron-Flash-3B достигает точности +2%/+5,5% по сравнению с Qwen2.5-3B/Qwen3-1.7B с меньшей задержкой в 1,3×/1,7× и пропускной способностью в 6,4×/18,7× выше соответственно. Мы предоставляем сценарий для создания среды conda: bash setup.sh. Мы интегрировали ядро внимания из TRT-LLM AutoDeploy, чтобы обеспечить генерацию с помощью CUDA Graph: Для точной настройки моделей Nemotron-Flash переключите ядро внимания на FlashAttention2 при загрузке модели: An…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: nvidia
Теги: nemotron_flash, custom_code
Лайков: 28 | Загрузок: 9,382

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

XiaomiMiMo/MiMo-V2-Flash-Base

khazarai/Qwen3-4B-Qwen3.6-plus-Reasoning-Slerp-GGUF

internlm/internlm2-math-7b

TheBloke/airoboros-l2-70B-GPT4-2.0-GPTQ