amd/Instella-3B-Stage1 - Каталог нейросетей
Генерация текста

amd/Instella-3B-Stage1

Добавлено:
amd/Instella-3B-Stage1

AMD рада представить Instella, семейство полностью открытых современных языковых моделей (LM) с 3 миллиардами параметров, обученных с нуля на графических процессорах AMD Instinct™ MI300X. Модели Instella превосходят существующие полностью открытые модели аналогичных размеров и достигают конкурентоспособной производительности по сравнению с современными моделями с открытым весом, такими как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B, включая их настроенные по инструкции аналоги. Рисунок 1: Граница Парето токенов предварительного обучения в сравнении со средней производительностью для предварительно обученных и настроенных с помощью инструкций моделей. Обучая Instella с нуля на графических процессорах Instinct MI300X, мы подчеркиваем возможности и масштабируемость нашего оборудования для обработки требовательных крупномасштабных рабочих нагрузок по обучению искусственного интеллекта, предлагая жизнеспособную альтернативу в сфере аппаратного обеспечения искусственного интеллекта. В соответствии с приверженностью AMD к открытому исходному коду мы публикуем здесь все артефакты, связанные с моделями Instella, включая веса моделей, подробные конфигурации обучения, наборы данных и код, что позволяет сообществу ИИ сотрудничать, копировать и внедрять инновации, тем самым ускоряя прогресс. — Анонс Instella, серии языковых моделей с 3 миллиардами параметров, разработанных AMD и обученных с нуля на 128 Instinct…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: amd
Теги: instella, custom_code
Лайков: 13  |  Загрузок: 24

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.