🗞️Бумага  |    🤗 Немотрон-Флэш-1Б |    🤗 Немотрон-Флэш-3Б |    🤗 Nemotron-Flash-3B-Instruct   Nemotron-Flash — это новое гибридное семейство малых языковых моделей, разработанное с учетом реальной задержки, а не количества параметров. Он имеет оптимальное соотношение глубины и ширины с задержкой, гибридные операторы, обнаруженные посредством эволюционного поиска, и нормализацию веса во время обучения. Дополнительные технические подробности см. в нашем документе NeurIPS 2025. Модели достигают точности SOTA в математических вычислениях, кодировании и здравом смысле в масштабах 1B и 3B, обеспечивая при этом приличную задержку для малых пакетов и пропускную способность для больших пакетов. Например, Nemotron-Flash-1B обеспечивает +5,5% точности, меньшую задержку в 1,9 раза и более высокую пропускную способность в 45,6 раза по сравнению с Qwen3-0,6B; а Nemotron-Flash-3B достигает точности +2%/+5,5% по сравнению с Qwen2.5-3B/Qwen3-1.7B с меньшей задержкой в 1,3×/1,7× и пропускной способностью в 6,4×/18,7× выше соответственно. Мы предоставляем сценарий для создания среды conda: bash setup.sh. Мы интегрировали ядро внимания из TRT-LLM AutoDeploy, чтобы обеспечить генерацию с помощью CUDA Graph: Для точной настройки моделей Nemotron-Flash переключите ядро внимания на FlashAttention2 при загрузке модели: An…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: nvidia
Теги: nemotron_flash, custom_code
Лайков: 28 | Загрузок: 9,382
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.