Данная модель представляет собой RLHF-версию HuggingFaceH4/mistral-7b-sft-beta без каких-либо внешних откликов. Мы выполняем алгоритм GSHF на базовой линии SFT. Внешние сигналы включают в себя (1) модель вознаграждения; (2) Подсказки, созданные ИИ. Мы получаем винрейт 35,95% (винрейт LC 34,79%) на Alpaca Eval v2. Процент выигрыша базовой модели составляет всего 4,63%. Для МТ-бенча получилось около 7,5, тогда как у базовой модели всего 5,3. Мы продемонстрировали значительный потенциал итеративного алгоритма RLHF для LLM для предоставления соответствующих и хорошо структурированных ответов даже без каких-либо внешних ответов. Мы выполняем 3 итерации алгоритма GSHF на HuggingFaceH4/mistral-7b-sft-beta, помеченных моделью вознаграждения, где подсказки генерируются ChatGPT с расширением подсказок типа самоинструкции. Формат использования и шаблона чата соответствует модели SFT HuggingFaceH4/mistral-7b-sft-beta. Если вы нашли эту информацию полезной, пожалуйста, процитируйте следующие статьи.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: sfairXC
Теги: mistral, conversational, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 10
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.