LanguageBind/Video-LLaVA-7B

Видео-LLaVA: Изучение единого визуального представления путем выравнивания перед проецированием. Если вам понравился наш проект, поставьте нам звездочку ⭐ на GitHub, чтобы получать последние обновления. [2024.01.27] 👀👀👀 Вышла наша МО-ЛлаВА! Разреженная модель с параметрами 3B превзошла плотную модель с параметрами 7B. [2024.01.17] 🔥🔥🔥 Наш LanguageBind принят на ICLR 2024! [2024.01.16] 🔥🔥🔥 Реорганизуем код и поддерживаем тонкую настройку LoRA, проверяем Finetunelora.sh. [2023.11.30] 🤝 Благодаря щедрому вкладу сообщества демо-версия OpenXLab теперь доступна. [2023.11.23] Мы обучаем новую и мощную модель. [2023.11.21] 🤝 Посмотрите повторную демо-версию, созданную @nateraw, который щедро поддержал наше исследование! [2023.11.20] 🤗 Демоверсия Hugging Face, все коды и наборы данных уже доступны! Добро пожаловать в 👀 этот репозиторий, чтобы быть в курсе последних обновлений. Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных. — Благодаря привязке унифицированных визуальных представлений к пространству языковых функций мы даем возможность LLM выполнять возможности визуального рассуждения как над изображениями, так и над видео одновременно. -…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: LanguageBind
Теги: llava, endpoints_compatible
Лайков: 89 | Загрузок: 9,069

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TheBloke/Octocoder-GGML

WeMake/VX-Unholy-13B

TheBloke/Swallow-70B-instruct-GGUF

Qwen/QwQ-32B-Preview