Модели Insight-V представляют собой модели с 7B параметрами, основанные на языковой модели Qwen2.5 с контекстным окном из 32 000 токенов. Insight-V предлагает 1) масштабируемый конвейер генерации данных для длинных цепочек высококачественных данных для рассуждений, 2) многоагентную систему, которая разлагает задачи визуального рассуждения на рассуждение и обобщение, и 3) двухэтапный конвейер обучения для расширения возможностей визуального рассуждения. Вместе эти материалы решают ключевые проблемы визуального мышления, обеспечивая прочную основу для будущих исследований в области рассуждений MLLM. — Репозиторий: https://github.com/dongyh20/Insight-V — Языки: английский, китайский — Бумага: https://arxiv.org/abs/2411.14432 — Архитектура: предварительно обученный Oryx-ViT + Qwen2.5-7B — Данные: смесь 200 тысяч аналитических данных — Точность: BFloat16 — Аппаратное обеспечение: 64 NVIDIA Tesla A100 — Оркестровка: HuggingFace Trainer — Код:** Pytorch
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: THUdyh
Теги: llava_qwen2, conversational, en, zh
Лайков: 10 | Загрузок: 21
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.