Syed-Hasan-8503/phi-2-ORPO

Phi-2-ORPO — это доработанная версия microsoft/phi-2 на наборе данных предпочтений argilla/dpo-mix-7k с использованием оптимизации предпочтений соотношения шансов (ORPO). Модель обучалась 1 эпоху. Эта модель была обучена с помощью LazyORPO. Блокнот Colab, который значительно упрощает процесс обучения. На основе статьи ОРПО. Этот блокнот был создан Зейном Уль Абидином. Оптимизация предпочтений соотношения шансов (ORPO) предлагает новый метод обучения LLM путем объединения SFT и выравнивания в новую цель (функцию потерь), достигая современных результатов. Некоторые особенности этого метода: 🧠 Не требует эталонной модели → безопасен для памяти 🔄 Заменяет SFT+DPO/PPO на один единственный метод (ORPO) 🏆 ORPO превосходит SFT, SFT+DPO на PHI-2, Llama 2 и Mistral 📊 Mistral ORPO достигает 12,20% на AlpacaEval2.0, 66,19% на IFEval и 7.32 на MT-Bench вне бета-версии Hugging Face Zephyr

Модальности:
Генерация текста

Задача: Генерация текста
Автор: Syed-Hasan-8503
Теги: phi, custom_code, text-generation-inference, endpoints_compatible
Лайков: 6 | Загрузок: 6

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

unsloth/llama-3-70b-bnb-4bit

AXCXEPT/phi-4-open-R1-Distill-EZOv1

rinna/japanese-gpt-neox-small

ibm-granite/granite-3.3-8b-math-prm-v2