nvidia/Mistral-NeMo-Minitron-8B-Base

Mistral-NeMo-Minitron-8B-Base — это базовая модель преобразования текста в текст, которую можно адаптировать для различных задач генерации естественного языка. Это большая языковая модель (LLM), полученная путем обрезки и дистилляции Mistral-NeMo 12B; в частности, мы сокращаем измерение внедрения и промежуточное измерение MLP в модели. После обрезки мы продолжаем обучение с дистилляцией, используя 380 миллиардов токенов, чтобы получить окончательную модель; для этой цели мы используем непрерывный корпус данных предварительного обучения, используемый в Nemotron-4 15B. Более подробную информацию можно найти в нашем техническом отчете. Даты модели: Mistral-NeMo-Minitron-8B-Base прошел обучение в период с 24 июля 2024 г. по 10 августа 2024 г. Эта модель выпущена в соответствии с лицензионным соглашением NVIDIA Open Model. Mistral-NeMo-Minitron-8B-Base использует размер встраивания модели 4096, 32 головки внимания, промежуточный размер MLP 11520, всего 40 слоев. Кроме того, он использует внимание к групповым запросам (GQA) и встраивание вращающихся позиций (RoPE). Тип архитектуры: Декодер-трансформер (авторегрессивная языковая модель). Другие свойства, связанные с входными данными: хорошо работает в пределах 8 000 символов или меньше. Поддержка этой модели будет добавлена в ближайшем…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: nvidia
Теги: nemo, mistral, text-generation-inference, endpoints_compatible
Лайков: 177 | Загрузок: 3,203

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

nicholasKluge/TeenyTinyLlama-460m

Casual-Autopsy/L3-Umbral-Mind-RP-v3.0-8B

nomic-ai/gpt4all-mpt

MrRikyz/Rei-Pulse-24B