XiaoduoAILab/Xmodel_VLM

Мы представляем Xmodel-VLM, передовую языковую модель мультимодального машинного зрения. Он предназначен для эффективного развертывания на потребительских серверах с графическим процессором. Наша работа напрямую связана с ключевой проблемой отрасли, поскольку мы боремся с непомерно высокими затратами на обслуживание, которые препятствуют широкому внедрению крупномасштабных мультимодальных систем. Чтобы использовать XmodelVLM для вывода, все, что вам нужно сделать, это ввести несколько строк кода, как показано ниже. Однако убедитесь, что вы используете новейший код и соответствующие виртуальные среды.** Подсказка: кто автор этой книги?nОтветьте на вопрос, используя одно слово или фразу. !Обложка книги Автор: Сьюзен Уайз Бауэр Мы оцениваем мультимодальную производительность на различных наборах данных: VizWiz, SQAI, VQAT, POPE, GQA, MMB, MMBCN, MM-Vet и MME. Наш анализ показан в следующей таблице.

Модальности:
Генерация текста

Задача: Генерация текста
Автор: XiaoduoAILab
Теги: xmodelvlm, custom_code, endpoints_compatible
Лайков: 13 | Загрузок: 175

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.