Minitron-4B-Base — это большая языковая модель (LLM), полученная путем обрезки Nemotron-4 15B; в частности, мы сокращаем размер встраиваемой модели, количество голов внимания и промежуточное измерение MLP. После обрезки мы продолжаем обучение с дистилляцией, используя 94 миллиарда токенов, чтобы получить окончательную модель; для этой цели мы используем непрерывный корпус данных предварительного обучения, используемый в Nemotron-4 15B. Для получения моделей Minitron 8B и 4B из базовой модели 15B с использованием нашего подхода требуется до 40 раз меньше обучающих жетонов на модель по сравнению с обучением с нуля; это приводит к экономии вычислительных затрат в 1,8 раза при обучении всего семейства моделей (15B, 8B и 4B). Модели Minitron демонстрируют улучшение показателей MMLU до 16 % по сравнению с обучением с нуля, работают на уровне других моделей сообщества, таких как Mistral 7B, Gemma 7B и Llama-3 8B, и превосходят современные методы сжатия, описанные в литературе. Более подробную информацию можно найти в нашей статье arXiv. Даты модели: Minitron-4B-Base проходил обучение в период с февраля 2024 г. по июнь 2024 г. Minitron-4B-Base выпускается в соответствии с лицензионным соглашением NVIDIA Open Model. Minitron-4B-Base использует размер встраивания модели 3072, 32…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: nvidia
Теги: nemo, nemotron, nvidia, llama-3, en, endpoints_compatible
Лайков: 136 | Загрузок: 2,451
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.