sfairXC/FsfairX-Zephyr-Chat-v0.1 - Каталог нейросетей
Генерация текста

sfairXC/FsfairX-Zephyr-Chat-v0.1

Добавлено:
sfairXC/FsfairX-Zephyr-Chat-v0.1

Данная модель представляет собой RLHF-версию HuggingFaceH4/mistral-7b-sft-beta без каких-либо внешних откликов. Мы выполняем алгоритм GSHF на базовой линии SFT. Внешние сигналы включают в себя (1) модель вознаграждения; (2) Подсказки, созданные ИИ. Мы получаем винрейт 35,95% (винрейт LC 34,79%) на Alpaca Eval v2. Процент выигрыша базовой модели составляет всего 4,63%. Для МТ-бенча получилось около 7,5, тогда как у базовой модели всего 5,3. Мы продемонстрировали значительный потенциал итеративного алгоритма RLHF для LLM для предоставления соответствующих и хорошо структурированных ответов даже без каких-либо внешних ответов. Мы выполняем 3 итерации алгоритма GSHF на HuggingFaceH4/mistral-7b-sft-beta, помеченных моделью вознаграждения, где подсказки генерируются ChatGPT с расширением подсказок типа самоинструкции. Формат использования и шаблона чата соответствует модели SFT HuggingFaceH4/mistral-7b-sft-beta. Если вы нашли эту информацию полезной, пожалуйста, процитируйте следующие статьи.

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: sfairXC
Теги: mistral, conversational, text-generation-inference, endpoints_compatible
Лайков: 8  |  Загрузок: 10

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.