nvidia/gpt3-8b-multi-3.5t-base

Мы выпускаем 8B-параметрическую модель Mamba-2 и Mamba-2-Hybrid (состоящую из слоев Mamba-2, внимания и MLP), обученную для статьи «Эмпирическое исследование языковых моделей на основе Mamba». Эти модели были обучены для токенов 3,5T с длиной последовательности 4K. Эти модели можно сравнить с выпущенным Трансформером с 8В параметрами, обученным на тех же данных и с теми же гиперпараметрами. Мы также выпускаем длинноконтекстные расширения Mamba-2-Hybrid на 32 КБ и 128 КБ. gpt3-8b-multi-3.5t-base: эталонная базовая модель трансформатора с параметрами 8B, обученная на токенах 3.5T с длиной последовательности 4 КБ. Роджер Валефф, Вонмин Бён, Дункан Риач, Брэндон Норик, Виджай Кортиканти, Три Дао, Альберт Гу, Али Хатамизаде, Судхакар Сингх, Дипак Нараянан, Гарвит Кулшрешта, Вартика Сингх, Джаред Каспер, Ян Каутц, Мохаммад Шойби, Брайан Катандзаро. (2024) Пожалуйста, цитируйте статью следующим образом, если вы используете модели из этого репозитория:

Модальности:
Генерация текста

Задача: Генерация текста
Автор: nvidia
Теги: Megatron-LM, nvidia, Mamba, Mamba-2, SSM, 8B, en
Лайков: 9 | Загрузок: 0

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.