openbmb/RLHF-V

[2024.05.28] 📃 Наша статья о RLAIF-V теперь доступна на arxiv! [2024.05.20] 🎉 Мы представляем RLAIF-V, нашу новую систему согласования, которая использует модели с открытым исходным кодом для генерации обратной связи и обеспечивает надежность Super GPT-4V. Вы можете скачать соответствующий набор данных и модели (7B, 12B) прямо сейчас! [2024.04.11] 🔥 Наши данные используются в MiniCPM-V 2.0, конечной мультимодальной модели большого языка, которая демонстрирует сопоставимую надежность с GPT-4V**! RLHF-V — это мультимодальная модель большого языка с открытым исходным кодом и самой низкой частотой галлюцинаций как при написании длинных инструкций, так и при составлении кратких вопросов. RLHF-V обучен на наборе данных RLHF-V, который содержит детальные человеческие поправки на уровне сегментов по различным инструкциям. Базовая модель обучена на UniMM-Chat, который представляет собой высококачественный наукоемкий набор данных SFT. Мы представляем новый метод Dense Direct Preference Optimization (DDPO), который позволяет лучше использовать детальные аннотации. — Обучение на модели: Vicuna-13B — Обучение на данных: RLHF-V-Dataset — Страница проекта: https://rlhf-v.github.io — Репозиторий GitHub: https://github.com/RLHF-V/RLHF-V — Демонстрация: http://120.92.209.146:8081 — Бумага: https://arxiv.org/abs/2312.00849 Более устойчив к…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: openbmb
Теги: beit3_llava, en, endpoints_compatible
Лайков: 18 | Загрузок: 51

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

inclusionAI/Ring-mini-sparse-2.0-exp

unsloth/codellama-7b-bnb-4bit

jondurbin/airoboros-c34b-3.1.2

maximalists/BRAG-Qwen2-7b-v0.1