«Мистраль-ОРПО» — это усовершенствованная версия «Мистралай/Мистраль-7Б-v0.1», использующая оптимизацию предпочтений отношения шансов (ОРПО). При использовании ORPO модель напрямую изучает предпочтения без контролируемой фазы прогрева. Mistral-ORPO-β настроен исключительно на 61 тысячах экземпляров очищенной версии UltraFeedback, argilla/ultrafeedback-binarized-preferences-cleaned, от Argilla.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: kaist-ai
Теги: mistral, conversational, en, model-index, text-generation-inference, endpoints_compatible
Лайков: 37 | Загрузок: 97
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.