lmms-lab/Aero-1-Audio

Aero-1-Audio — это компактная аудиомодель, способная решать различные аудиозадачи, включая распознавание речи, понимание звука и выполнение аудиоинструкций. 1. Созданный на основе языковой модели Qwen-2.5-1.5B, Aero обеспечивает высокую производительность во многих тестах аудио, сохраняя при этом эффективность параметров даже по сравнению с более крупными продвинутыми моделями, такими как Whisper, Qwen-2-Audio и Phi-4-Multimodal, или коммерческими сервисами, такими как ElevenLabs/Scribe. 2. Aero обучается в течение одного дня на 16 графических процессорах H100 с использованием всего 50 тысяч часов аудиоданных. Наше понимание предполагает, что обучение аудиомодели может быть эффективным с использованием выборки с использованием высококачественных и отфильтрованных данных. 3. Aero может точно выполнять ASR и распознавать звук при непрерывном аудиовходе продолжительностью до 15 минут, что, по нашему мнению, по-прежнему является проблемой для других моделей. — Разработано: [LMMs-Lab] — Тип модели: [LLM + Audio Encoder] — Язык(и) (NLP): [Английский] — Лицензия: [MIT], поскольку это версия трансформеров, которую мы используем при создании этой модели. Модель поддерживает пакетный вывод с помощью трансформаторов. Пример демонстрации такой: Здесь мы представляем вклад нашей смеси данных. Наша база данных SFT включает более 20 общедоступных…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: lmms-lab
Теги: aero, conversational, custom_code, en
Лайков: 91 | Загрузок: 692

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.