Vi-VLM/Vistral-V-7B

Мы разработали и выпустили семейство Vista 7B, которое включает в себя как предварительно обученный проектор, так и доработанную версию вьетнамской языковой модели видения (VLM). Эта модель оптимизирована для задач описания изображений. Мы продолжаем расширять возможности машинного зрения Vistral 7B, используя подход Llava, используя наш собственный набор данных Vista с Siglip в качестве кодировщика изображений. > Отказ от ответственности: модель не была обучена задачам оптического распознавания символов и может плохо работать при оптическом распознавании текста и анализе графиков. Используйте с осторожностью, поскольку мы не сосредоточились на исправлении фактических знаний модели. Варианты предполагаемого использования Vista в первую очередь предназначена для исследовательских приложений во Вьетнаме. Эта версия направлена на дальнейшее улучшение возможностей вьетнамской языковой модели Vision. За пределами области применения. Использование Vista каким-либо образом, нарушающим применимые законы и правила, строго запрещено. Чтобы выполнить вывод с использованием модели, выполните действия, описанные в нашем блокноте вывода Kaggle. Изображение показателей обучения: ниже представлен снимок визуализируемых показателей обучения. Веса и предвзятости: следите за ходом обучения и получайте доступ к дополнительной аналитике на странице нашего проекта WandB. Предварительно обученная модель: — Набор данных:…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Vi-VLM
Теги: llava_vistral, vision language model, conversational, vi, en, endpoints_compatible
Лайков: 17 | Загрузок: 2

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

IlyaGusev/saiga_gemma2_9b

MayaPH/GodziLLa-30B

lmstudio-community/Mistral-Nemo-Instruct-2407-GGUF

TheBloke/Yi-34B-200K-Llamafied-GPTQ