AMD-Llama-135m — языковая модель, обученная на ускорителях AMD Instinct MI250. Основанная на архитектуре модели LLama2, эту модель можно плавно загрузить как LlamaForCausalLM с преобразователями Huggingface. Кроме того, мы используем тот же токенизатор, что и LLama2, что позволяет использовать его в качестве черновой модели спекулятивного декодирования для LLama2 и CodeLlama. Коды AMD-Llama-135m и AMD-Llama-135m можно загрузить и использовать через преобразователи Huggingface, вот простой пример. Мы используем набор данных SlimPajama и Project Gutenberg для предварительного обучения нашей 135-метровой модели, всего около 670 миллиардов обучающих токенов. SlimPajama — это дедуплицированная версия RedPajama, исходники которой взяты из Commoncrawl, C4, GitHub, Books, ArXiv, Wikpedia и StackExchange. Мы удалили данные Books из SlimPajama из-за проблем с лицензией и вместо этого использовали набор данных проекта Gutenberg. Слои внедрения и модуль «Линейные слои внимания» инициализируются случайным образом с использованием нормализованного распределения со средним значением 0,0 и стандартной дисперсией sqrt(2/5d) в соответствии с GPT-NeoX. Линейные слои сетевого модуля прямой связи инициализируются случайным образом с использованием нормализованного распределения со средним значением 0,0 и стандартной дисперсией 2/(L*sqrt(d)) где d — скрытый размер, а L — количество слоев. Мы…
Модальности:
Генерация текста
Области применения:
Генерация кода
Задача: Генерация текста
Автор: amd
Теги: llama, text-generation-inference, endpoints_compatible
Лайков: 14 | Загрузок: 82
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.