lmms-lab/LLaVA-Video-72B-Qwen2

1. Краткое описание модели 2. Использование 3. Ограничения 4. Обучение 5. Лицензия 6. Цитирование Модели LLaVA-Video представляют собой модели с параметрами 7/72B, обученные на наборе данных LLaVA-Video-178K и LLaVA-OneVision, на основе языковой модели Qwen2 с контекстным окном из 32 000 токенов. — Страница проекта: Страница проекта. — Бумага: Для более подробной информации, пожалуйста, проверьте наш документ — Репозиторий: LLaVA-VL/LLaVA-NeXT — Контактное лицо: Юаньхан Чжан — Языки: английский, китайский Модель была обучена на LLaVA-Video-178K и наборе данных LLaVA-OneVision, имеющем возможность взаимодействовать с изображениями, несколькими изображениями и видео, но специфичными для видео. Мы предоставляем простой процесс генерации для использования нашей модели. Для получения более подробной информации вы можете обратиться к Github. — Архитектура: SO400M + Qwen2 — Инициализированная модель: lmms-lab/llava-onevision-qwen2-72b-si — Данные: смесь 1,6 млн данных одного изображения/множества изображений/видео, 1 эпоха, полная модель — Точность: bfloat16 — Графические процессоры: 256 Nvidia Tesla A100 (для обучения всей серии моделей) — Оркестровка: Huggingface Trainer — Нейронные сети:** PyTorch @misc{zhang2024videoinstructiontuningsynthetic, title={Настройка видеоинструкций с использованием синтетических данных}, автор={Юаньхан Чжан и Цзиньмин Ву, Вэй Ли, Бо Ли и Зеджун Ма и…

Модальности:
Генерация текста Мультимодальность

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: lmms-lab
Теги: llava, multimodal, conversational, en, model-index, endpoints_compatible
Лайков: 22 | Загрузок: 212

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

h2oai/h2o-danube3-4b-base

Qwen/Qwen3Guard-Gen-4B

zerofata/MS3.2-PaintedFantasy-Visage-v2-33B

ggml-org/stories15M_MOE