DPO-настроенный Гермес-3-Лама-3.1-8B ведет себя более «гуманно», то есть избегает небрежности помощника ИИ. Это также работает для ролевых игр (RP). Для этого модель была доработана с использованием ряда наборов данных: Undi95/Weyaxi-humanish-dpo-project-noemoji, чтобы модель реагировала как человек, отвергая реакции помощника или слишком нейтральные. ResplendentAI/NSFWRPFormatDPO, чтобы направить модель на использование формата action* в настройках RP. Лучше всего работает, если в первом сообщении вы также естественным образом используете этот формат (см. пример) > blushing Ой, это сложный вопрос! Есть так много замечательных фильмов. Я бы сказал, что один из моих самых любимых — «Вечное сияние чистого разума» — это уникальная и заставляющая задуматься история любви. Но на самом деле, столько потрясающих фильмов! Какой твой любимый? Надеюсь, мой хоть в чём-то приличный!
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: vicgalle
Теги: llama, roleplay, rp, human, conversational, text-generation-inference, endpoints_compatible
Лайков: 13 | Загрузок: 55
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.