Efficient-Large-Model/VILA1.5-3b - Каталог нейросетей
Генерация текста

Efficient-Large-Model/VILA1.5-3b

Добавлено:
Efficient-Large-Model/VILA1.5-3b

Тип модели: VILA — это модель визуального языка (VLM), предварительно обученная с помощью чередующихся данных изображения и текста в масштабе, позволяющая использовать VLM с несколькими изображениями. VILA можно развернуть на периферии, включая Jetson Orin и ноутбук, с помощью 4-битного квантования AWQ через платформу TinyChat. Мы обнаруживаем: (1) пар изображение-текст недостаточно, необходимо чередование изображения-текста; (2) размораживание LLM во время предварительного обучения чередующегося изображения и текста обеспечивает контекстное обучение; (3) повторное смешивание данных инструкций, состоящих только из текста, имеет решающее значение для повышения производительности как VLM, так и только текстовых инструкций. VILA представляет привлекательные возможности, в том числе: рассуждение с использованием нескольких образов, контекстное обучение, визуальную цепочку мыслей и лучшее знание мира. Бумага или ресурсы для получения дополнительной информации: https://github.com/NVLabs/VILA. Код выпущен под лицензией Apache 2.0, как указано в файле ЛИЦЕНЗИИ. — Предварительно обученные веса выпускаются по лицензии CC-BY-NC-SA-4.0. — Служба представляет собой исследовательскую предварительную версию, предназначенную только для некоммерческого использования, и на нее распространяются следующие лицензии и условия: — Типовая лицензия LLaMA — Условия использования данных, сгенерированных OpenAI — Лицензии на наборы данных для каждого из них, используемых во время обучения. Куда отправлять вопросы или комментарии по модели:…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: Efficient-Large-Model
Теги: llava_llama, VILA, VLM, endpoints_compatible
Лайков: 34  |  Загрузок: 4,348

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.