nvidia/NVIDIA-Nemotron-Nano-9B-v2-FP8

NVIDIA-Nemotron-Nano-9B-v2-FP8 представляет собой квантованную версию NVIDIA-Nemotron-Nano-9B-v2 и представляет собой большую языковую модель (LLM), обученную с нуля NVIDIA и разработанную как унифицированную модель как для рассуждений, так и для задач, не связанных с рассуждением. Он реагирует на запросы и задачи пользователя, сначала генерируя логическую цепочку, а затем заканчивая окончательным ответом. Возможностями рассуждения модели можно управлять с помощью системной подсказки. Если пользователь предпочитает, чтобы модель давала окончательный ответ без промежуточных следов рассуждений, ее можно настроить на это, хотя и с небольшим снижением точности для более сложных подсказок, требующих рассуждений. И наоборот, разрешение модели сначала генерировать следы рассуждений обычно приводит к более высокому качеству окончательных решений запросов и задач. Модель использует гибридную архитектуру, состоящую в основном из слоев Mamba-2 и MLP в сочетании всего с четырьмя уровнями внимания. Информацию об архитектуре можно найти в техническом отчете Nemotron-H. Всего Nano 9B v2 имеет 56 слоев: 27 слоев Mamba, 25 слоев MLP и 4 слоя внимания. В квантовой версии FP8 слои Mamba и MLP квантуются до FP8, в то время как все 4 слоя внимания и компоненты Conv1d внутри…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: nvidia
Теги: nemotron_h, nvidia, conversational, custom_code, en, es, fr, de
Лайков: 9 | Загрузок: 337,535

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

NousResearch/Hermes-4-14B-FP8

mlx-community/gemma-4-26B-A4B-it-assistant-bf16

sarvamai/sarvam-30b-gguf

allenai/open-instruct-pythia-6.9b-tulu