lmms-lab/llava-onevision-qwen2-0.5b-si

1. Краткое описание модели 2. Использование 3. Ограничения 4. Обучение 5. Лицензия 6. Цитирование Модели LLaVA-OneVision представляют собой модели с параметрами 0,5/7/72B, обученные на LLaVA-OneVision, на основе языковой модели Qwen2 с контекстным окном из 32 000 токенов. — Репозиторий: LLaVA-VL/LLaVA-NeXT — Веб-сайт проекта: llava-onevision.lmms-lab.com — Документ: LLaVA-OneVision — Контактное лицо: Бо Ли — Языки: английский, китайский Модель прошла обучение на наборе данных LLaVA-OneVision и имеет возможность взаимодействовать с изображениями, несколькими изображениями и видео. Мы предоставляем простой процесс генерации для использования нашей модели. Для получения более подробной информации вы можете обратиться к Github. — Архитектура: SO400M + Qwen2 — Этап предварительной подготовки: LCS-558K, 1 эпоха, проектор — Средний этап: смесь 4,7 млн высококачественных синтетических данных, 1 эпоха, полная модель — Этап окончательного изображения: смесь 3,6 млн данных одного изображения, 1 эпоха, полная модель — Этап OneVision: смесь 1,6 млн одноизображений, нескольких изображений и видеоданных, 1 эпоха, полная модель — Точность: bfloat16 — Графические процессоры: 256 Nvidia Tesla A100 (для обучения всей серии моделей) — Оркестровка: Huggingface Trainer — Нейронные сети:** PyTorch

Модальности:
Генерация текста Мультимодальность

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: lmms-lab
Теги: llava, multimodal, conversational, en, zh, model-index, endpoints_compatible
Лайков: 15 | Загрузок: 262

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TheBloke/orca_mini_v3_13B-GPTQ

enstazao/Qalb-1.0-8B-Instruct

EldritchLabs/Cthulhu-8B-v1.4

allura-org/Q3-30B-A3B-Designant