abideen/phi2-pro - Каталог нейросетей
Генерация текста

abideen/phi2-pro

Добавлено:
abideen/phi2-pro

phi2-pro — это доработанная версия microsoft/phi-2 на наборе данных предпочтений argilla/dpo-mix-7k с использованием оптимизации предпочтений соотношения шансов (ORPO). Модель обучалась 1 эпоху. Эта модель была обучена с помощью LazyORPO. Блокнот Colab, который значительно упрощает процесс обучения. На основе статьи ORPO Оптимизация предпочтений отношения шансов (ORPO) предлагает новый метод обучения LLM путем объединения SFT и выравнивания в новую цель (функцию потерь), достигая современных результатов. Некоторые особенности этого метода: 🧠 Не требует эталонной модели → безопасен для памяти 🔄 Заменяет SFT+DPO/PPO на один единственный метод (ORPO) 🏆 ORPO превосходит SFT, SFT+DPO на PHI-2, Llama 2 и Mistral 📊 Mistral ORPO достигает 12,20% на AlpacaEval2.0, 66,19% на IFEval и 7.32 на MT-Bench вне бета-версии Hugging Face Zephyr

Модальности:
Генерация текста


Задача: Генерация текста
Автор: abideen
Теги: phi, custom_code, en, text-generation-inference, endpoints_compatible
Лайков: 7  |  Загрузок: 94

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.