typhoon-ai/llama3.1-typhoon2-audio-8b-instruct

Typhoon2-Audio — это комплексная архитектура модели преобразования речи в речь, способная обрабатывать аудио, речевые и текстовые входные данные и одновременно генерировать как текстовые, так и речевые выходные данные. Он оптимизирован специально для тайского языка, но поддерживает и английский язык. — GitHub: https://github.com/scb-10x/typhoon2-audio/ — Документ: https://arxiv.org/abs/2412.13702 — Тип модели: LLM основан на Typhoon2 LLM. — Требование: Python==3.10 и Transformers==4.52.2 и fairseq==0.12.2 и flash-attn — Основной язык(и): тайский 🇹🇭 и английский 🇬🇧 — Лицензия-речевой ввод и LLM: лицензия сообщества Llama 3.1 — Лицензия-речевой вывод: CC-BY-NC *Обратите внимание, что Llama-Omni делает это не генерирует текст/речь на тайском языке, поэтому имеет низкий CER и высокий UTMOS из-за того, что выходные данные являются английскими. Эта модель является экспериментальной и не всегда точно следует инструкциям человека, что делает ее склонной к возникновению галлюцинаций. Кроме того, в модели отсутствуют механизмы модерации, и она может давать вредные или неуместные ответы. Разработчикам следует тщательно оценивать потенциальные риски, исходя из их конкретных приложений. — https://twitter.com/opentyphoon — https://discord.gg/us5gAYmrxw Мы хотели бы поблагодарить команду SALMONN и команду Llama-Omni за…

Модальности:
Генерация текста

Области применения:
Следование инструкциям

Задача: Генерация текста
Автор: typhoon-ai
Теги: typhoon2audio, feature-extraction, custom_code, th, en
Лайков: 13 | Загрузок: 1,261

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

migtissera/Tess-72B-v1.5b

morikomorizz/GRM-2.6-Plus-GGUF

YanweiLi/MGM-34B

DavidAU/Qwen3-The-Xiaolong-Josiefied-Omega-Directive-22B-uncensored-abliterated-GGUF