Модели-трансформеры стали популярным выбором для задач обработки естественного языка (НЛП) благодаря их способности обрабатывать долгосрочные зависимости и превосходной производительности в различных тестах НЛП. Архитектура модели трансформатора была представлена в 2017 году Васвани и др. и с тех пор используется во многих современных моделях, таких как BERT и GPT. Модель преобразователя только для декодера — это вариант модели преобразователя, которая обычно используется для генеративных задач в НЛП. Он использует замаскированное самовнимание для прогнозирования следующего токена в последовательности и доказал свою эффективность в прогнозировании последовательностей текста. Дистилляция [Bucila et al., 2006, Hinton et al., 2015] — это метод, используемый в машинном обучении для сжатия большой модели в меньшую, которую можно использовать на устройствах с ограниченными вычислительными ресурсами. В этом методе меньшая модель обучается имитировать поведение более крупной модели, обучаясь на ее прогнозах. Меньшая модель обучается на меньшем наборе данных, чем более крупная модель, что делает ее быстрее и эффективнее. Этот метод использовался для сжатия таких моделей, как BERT и GPT-2, в более мелкие модели, такие как DistilBERT и DistilGPT-2,…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: crumb
Теги: gpt_neox, en, text-generation-inference, endpoints_compatible
Лайков: 6 | Загрузок: 261
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.