YanweiLi/llama-vid-7b-full-224-video-fps-1

LLaMA-VID расширяет возможности существующих платформ для поддержки часовых видео и расширяет их верхний предел с помощью дополнительного токена контекста. Тип модели: LLaMA-VID — это чат-бот с открытым исходным кодом, обученный путем тонкой настройки LLaMA/Vicuna на мультимодальных данных, генерируемых GPT и следующих инструкциям. LLaMA-VID расширяет возможности существующих платформ для поддержки часовых видео и расширяет их верхний предел с помощью дополнительного токена контекста. Мы создаем этот репозиторий на основе LLaVA. Дата модели: llama-vid-7b-full-224-video-fps-1 была обучена 11/2023. Llama 2 распространяется по лицензии сообщества LLAMA 2, авторские права (c) Meta Platforms, Inc. Все права защищены. Куда отправлять вопросы или комментарии по модели: https://github.com/dvlab-research/LLaMA-VID/issues Основное предполагаемое использование: Основное использование LLaMA-VID — исследование крупных мультимодальных моделей и чат-ботов. Основные предполагаемые пользователи. Основными предполагаемыми пользователями модели являются исследователи и любители компьютерного зрения, обработки естественного языка, машинного обучения и искусственного интеллекта. Эта модель обучена на основе данных изображений из набора данных LLaVA-1.5 и видеоданных из набора данных WebVid и ActivityNet, включая 558 тысяч отфильтрованных пар изображения и текста из LAION/CC/SBU с субтитрами…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: YanweiLi
Теги: llava, vision-language model, llama, video understanding, endpoints_compatible
Лайков: 9 | Загрузок: 29

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

UCSB-SURFI/VulnLLM-R-7B

luodian/Flamingo-Llama2-Chat7B-CC3M

bartowski/Qwen2.5-Coder-32B-Instruct-exl2

Goekdeniz-Guelmez/Josiefied-Qwen3-4B-abliterated-v1