Тренажер DPO с набором данных Intel/orcadpopairs для улучшения [yunconglong/TruthfulDPOtomGrcFusionNet7Bx2MoE_13B]
Модальности:
Генерация текста
Задача: Генерация текста
Автор: yunconglong
Теги: mixtral, moe, DPO, RL-TUNED, text-generation-inference, endpoints_compatible
Лайков: 6 | Загрузок: 7,975
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.