Тип модели: ASMv2 — это чат-бот с открытым исходным кодом, обученный путем тонкой настройки LLaMA/Vicuna на мультимодальных данных, следующих инструкциям. Он объединяет способность Relation Conversation (ReC), сохраняя при этом мощные общие возможности. Эта модель также наделена возможностями заземления и ссылки, демонстрируя современную производительность при решении задач на уровне региона, и может быть естественным образом адаптирована к задаче создания графа сцены в открытом виде. Бумага или ресурсы для получения дополнительной информации: https://github.com/OpenGVLab/all-seeing Куда отправлять вопросы или комментарии по модели: https://github.com/OpenGVLab/all-seeing/issues Основное предполагаемое использование: Основное использование ASMv2 — исследование крупных мультимодальных моделей и чат-ботов. Основные предполагаемые пользователи. Основными предполагаемыми пользователями модели являются исследователи и любители компьютерного зрения, обработки естественного языка, машинного обучения и искусственного интеллекта. На этапе предварительной обработки используются 5 миллионов отфильтрованных выборок из CC12M, 10 миллионов отфильтрованных выборок из AS-1B и 15 миллионов отфильтрованных выборок из GRiT. На этапе настройки инструкций используются 4 миллиона образцов, собранных из различных источников, включая наборы данных на уровне изображения. Коллекция из 20 тестов,…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: OpenGVLab
Теги: llava, endpoints_compatible
Лайков: 17 | Загрузок: 260
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.