alvarobartt/Mistral-7B-v0.1-ORPO

> Stable Diffusion XL «Капибара, косатка и робот по имени Ультра дружат» Это доработанная версия Mistralai/Mistral-7B-v0.1 с использованием alvarobartt/dpo-mix-7k-simplified. ⚠️ Обратите внимание, что код все еще является экспериментальным, так как PR ORPOTrainer еще не объединен, следите за его развитием на 🤗trl — PR ORPOTrainer. Для тонкой настройки Mistralai/Mistral-7B-v0.1 с помощью ORPO была использована ветка orpo от 🤗trl, благодаря неоценимому и быстрому вкладу @kashif. ORPO означает оптимизацию предпочтений отношения шансов и определяет новую парадигму тонкой настройки LLM, «объединяя» как SFT, так и этап PPO/DPO в один этап, благодаря предлагаемой функции потерь, начиная с набора данных предпочтений, т.е. выбранных-отклоненных пар. Некоторые ключевые особенности ORPO: — ⚡️ Быстрее обучение, поскольку теперь тонкая настройка осуществляется в один этап — 👨🏻‍🏫 Требуются данные о предпочтениях, т. е. наборы данных (запрос, выбор, отказ) — ⬇️ Меньше памяти, чем у PPO/DPO, поскольку не требуется эталонная модель — 🏆 Результаты SOTA для Phi-2 (2.7B), Llama-2 (7B) и Mistral (7B) при точной настройке с помощью одновиткового UltraFeedback. Некоторые примечания к экспериментам, упомянутым в статье: — 📌 Была проведена тонкая настройка LLM до параметра 7B,…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: alvarobartt
Теги: tensorboard, mistral, orpo, qlora, trl, conversational, en, text-generation-inference
Лайков: 14 | Загрузок: 7

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

QuantFactory/Peach-9B-8k-Roleplay-GGUF

GeneZC/MiniChat-2-3B

HeyLucasLeao/gpt-neo-small-portuguese