nvidia/Mistral-NeMo-Minitron-8B-Base - Каталог нейросетей
Генерация текста

nvidia/Mistral-NeMo-Minitron-8B-Base

Добавлено:
nvidia/Mistral-NeMo-Minitron-8B-Base

Mistral-NeMo-Minitron-8B-Base — это базовая модель преобразования текста в текст, которую можно адаптировать для различных задач генерации естественного языка. Это большая языковая модель (LLM), полученная путем обрезки и дистилляции Mistral-NeMo 12B; в частности, мы сокращаем измерение внедрения и промежуточное измерение MLP в модели. После обрезки мы продолжаем обучение с дистилляцией, используя 380 миллиардов токенов, чтобы получить окончательную модель; для этой цели мы используем непрерывный корпус данных предварительного обучения, используемый в Nemotron-4 15B. Более подробную информацию можно найти в нашем техническом отчете. Даты модели: Mistral-NeMo-Minitron-8B-Base прошел обучение в период с 24 июля 2024 г. по 10 августа 2024 г. Эта модель выпущена в соответствии с лицензионным соглашением NVIDIA Open Model. Mistral-NeMo-Minitron-8B-Base использует размер встраивания модели 4096, 32 головки внимания, промежуточный размер MLP 11520, всего 40 слоев. Кроме того, он использует внимание к групповым запросам (GQA) и встраивание вращающихся позиций (RoPE). Тип архитектуры: Декодер-трансформер (авторегрессивная языковая модель). Другие свойства, связанные с входными данными: хорошо работает в пределах 8 000 символов или меньше. Поддержка этой модели будет добавлена ​​в ближайшем…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: nvidia
Теги: nemo, mistral, text-generation-inference, endpoints_compatible
Лайков: 177  |  Загрузок: 3,203

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.