abideen/phi2-pro

phi2-pro — это доработанная версия microsoft/phi-2 на наборе данных предпочтений argilla/dpo-mix-7k с использованием оптимизации предпочтений соотношения шансов (ORPO). Модель обучалась 1 эпоху. Эта модель была обучена с помощью LazyORPO. Блокнот Colab, который значительно упрощает процесс обучения. На основе статьи ORPO Оптимизация предпочтений отношения шансов (ORPO) предлагает новый метод обучения LLM путем объединения SFT и выравнивания в новую цель (функцию потерь), достигая современных результатов. Некоторые особенности этого метода: 🧠 Не требует эталонной модели → безопасен для памяти 🔄 Заменяет SFT+DPO/PPO на один единственный метод (ORPO) 🏆 ORPO превосходит SFT, SFT+DPO на PHI-2, Llama 2 и Mistral 📊 Mistral ORPO достигает 12,20% на AlpacaEval2.0, 66,19% на IFEval и 7.32 на MT-Bench вне бета-версии Hugging Face Zephyr

Модальности:
Генерация текста

Задача: Генерация текста
Автор: abideen
Теги: phi, custom_code, en, text-generation-inference, endpoints_compatible
Лайков: 7 | Загрузок: 94

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

TheBloke/CodeLlama-70B-Python-GPTQ

bartowski/nvidia_Llama-3.1-Nemotron-Nano-4B-v1.1-GGUF

LGAI-EXAONE/EXAONE-3.5-32B-Instruct-GGUF

ewald1976/G4-12B-Station-Keeper