NVIDIA-Nemotron-Nano-9B-v2-FP8 представляет собой квантованную версию NVIDIA-Nemotron-Nano-9B-v2 и представляет собой большую языковую модель (LLM), обученную с нуля NVIDIA и разработанную как унифицированную модель как для рассуждений, так и для задач, не связанных с рассуждением. Он реагирует на запросы и задачи пользователя, сначала генерируя логическую цепочку, а затем заканчивая окончательным ответом. Возможностями рассуждения модели можно управлять с помощью системной подсказки. Если пользователь предпочитает, чтобы модель давала окончательный ответ без промежуточных следов рассуждений, ее можно настроить на это, хотя и с небольшим снижением точности для более сложных подсказок, требующих рассуждений. И наоборот, разрешение модели сначала генерировать следы рассуждений обычно приводит к более высокому качеству окончательных решений запросов и задач. Модель использует гибридную архитектуру, состоящую в основном из слоев Mamba-2 и MLP в сочетании всего с четырьмя уровнями внимания. Информацию об архитектуре можно найти в техническом отчете Nemotron-H. Всего Nano 9B v2 имеет 56 слоев: 27 слоев Mamba, 25 слоев MLP и 4 слоя внимания. В квантовой версии FP8 слои Mamba и MLP квантуются до FP8, в то время как все 4 слоя внимания и компоненты Conv1d внутри…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: nvidia
Теги: nemotron_h, nvidia, conversational, custom_code, en, es, fr, de
Лайков: 9 | Загрузок: 337,535
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.