Bunny — семейство легких, но мощных мультимодальных моделей. Он предлагает несколько готовых к использованию видеокодеров, таких как EVA-CLIP, SigLIP, а также языковые магистрали, включая Phi-1.5, StableLM-2, Qwen1.5 и Phi-2. Чтобы компенсировать уменьшение размера модели, мы строим более информативные обучающие данные путем тщательного отбора из более широкого источника данных. Примечательно, что наша модель Bunny-3B, построенная на SigLIP и Phi-2, превосходит современные MLLM не только по сравнению с моделями аналогичного размера, но и по сравнению с более крупными MLLM-структурами (7B), и даже достигает производительности на уровне моделей 13B. Модель предварительно обучена на ЛАИОН-2М и доработана на Зайке-695К. Более подробную информацию об этой модели можно найти на GitHub. Объединенные веса можно найти в Bunny-v1_0-3B. Чтобы использовать модель с трансформаторами, используйте объединенные веса вместо весов LoRA. Перед запуском фрагмента необходимо установить следующие зависимости: В этом проекте используются определенные наборы данных и контрольные точки, на которые распространяются соответствующие исходные лицензии. Пользователи должны соблюдать все положения и условия этих оригинальных лицензий. Сам контент этого проекта лицензируется по лицензии Apache 2.0.
Модальности:
Генерация текста
Задача: Генерация текста
Автор: BAAI
Теги: bunny-phi, custom_code
Лайков: 48 | Загрузок: 60
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.