YanweiLi/llama-vid-7b-full-224-video-fps-1 - Каталог нейросетей
Генерация текста

YanweiLi/llama-vid-7b-full-224-video-fps-1

Добавлено:
YanweiLi/llama-vid-7b-full-224-video-fps-1

LLaMA-VID расширяет возможности существующих платформ для поддержки часовых видео и расширяет их верхний предел с помощью дополнительного токена контекста. Тип модели: LLaMA-VID — это чат-бот с открытым исходным кодом, обученный путем тонкой настройки LLaMA/Vicuna на мультимодальных данных, генерируемых GPT и следующих инструкциям. LLaMA-VID расширяет возможности существующих платформ для поддержки часовых видео и расширяет их верхний предел с помощью дополнительного токена контекста. Мы создаем этот репозиторий на основе LLaVA. Дата модели: llama-vid-7b-full-224-video-fps-1 была обучена 11/2023. Llama 2 распространяется по лицензии сообщества LLAMA 2, авторские права (c) Meta Platforms, Inc. Все права защищены. Куда отправлять вопросы или комментарии по модели: https://github.com/dvlab-research/LLaMA-VID/issues Основное предполагаемое использование: Основное использование LLaMA-VID — исследование крупных мультимодальных моделей и чат-ботов. Основные предполагаемые пользователи. Основными предполагаемыми пользователями модели являются исследователи и любители компьютерного зрения, обработки естественного языка, машинного обучения и искусственного интеллекта. Эта модель обучена на основе данных изображений из набора данных LLaVA-1.5 и видеоданных из набора данных WebVid и ActivityNet, включая 558 тысяч отфильтрованных пар изображения и текста из LAION/CC/SBU с субтитрами…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: YanweiLi
Теги: llava, vision-language model, llama, video understanding, endpoints_compatible
Лайков: 9  |  Загрузок: 29

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.