Мы представляем LongCat-Flash-Omni, современную омнимодальную модель с открытым исходным кодом с 560 миллиардами параметров (с активированными 27B), превосходную в аудиовизуальном взаимодействии в реальном времени, что достигается за счет использования высокопроизводительной архитектуры LongCat-Flash Mixture-of-Experts (MoE) с экспертами без вычислений, дополненной эффективным мультимодальным восприятием и реконструкцией речи. модули. Благодаря эффективной стратегии прогрессивного обучения, основанной на учебной программе, наша модель обеспечивает комплексные мультимодальные возможности, сохраняя при этом сильные одномодальные возможности. Теперь мы открываем исходный код модели, чтобы способствовать будущим исследованиям и разработкам в сообществе. LongCat-Flash-Omni — это омнимодальная модель с открытым исходным кодом, которая обеспечивает современную производительность кросс-модального понимания. Он органично интегрирует мощное мультимодальное понимание в автономном режиме с аудиовизуальным взаимодействием в реальном времени в рамках единой системы «все в одном». Используя эффективную магистраль LLM, тщательно разработанные облегченные модальные кодеры и декодеры, а также механизм чередования фрагментов аудиовизуальных функций, LongCat-Flash-Omni обеспечивает высококачественную аудиовизуальную обработку с малой задержкой и…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: meituan-longcat
Теги: LongCat-Flash-Omni, conversational, custom_code, fp8
Лайков: 15 | Загрузок: 12
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.