SpeechGPT — это большая языковая модель с внутренними кросс-модальными разговорными способностями, способная воспринимать и генерировать многомодельный контент, следуя человеческим инструкциям. Используя дискретные представления речи, мы сначала создаем SpeechInstruct, крупномасштабный кросс-модальный набор данных речевых инструкций. Кроме того, мы используем трехэтапную стратегию обучения, которая включает предварительную тренировку по адаптации модальности, точную настройку кросс-модальных инструкций и точную настройку инструкций по цепочке модальности. Результаты эксперимента демонстрируют, что SpeechGPT обладает впечатляющей способностью следовать мультимодальным человеческим инструкциям и подчеркивает потенциал обработки нескольких модальностей с помощью одной модели. Демонстрации SpeechGPT показаны на странице нашего проекта. Как показано в демонстрациях, SpeechGPT обладает мощной способностью следовать кросс-модальным инструкциям и способностью устного диалога. SpeechGPT может быть говорящей энциклопедией, вашим личным помощником, вашим собеседником, поэтом, психологом и вашим помощником по образованию… Возможности SpeechGPT для решения множества кросс-модальных задач. Слева: процесс создания SpeechInstruct. Справа: структура модели SpeechGPT — [2023/9/15] Мы выпустили код SpeechGPT, контрольные точки и…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: OpenMOSS-Team
Теги: llama, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 476
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.