sfairXC/FsfairX-Zephyr-Chat-v0.1

Данная модель представляет собой RLHF-версию HuggingFaceH4/mistral-7b-sft-beta без каких-либо внешних откликов. Мы выполняем алгоритм GSHF на базовой линии SFT. Внешние сигналы включают в себя (1) модель вознаграждения; (2) Подсказки, созданные ИИ. Мы получаем винрейт 35,95% (винрейт LC 34,79%) на Alpaca Eval v2. Процент выигрыша базовой модели составляет всего 4,63%. Для МТ-бенча получилось около 7,5, тогда как у базовой модели всего 5,3. Мы продемонстрировали значительный потенциал итеративного алгоритма RLHF для LLM для предоставления соответствующих и хорошо структурированных ответов даже без каких-либо внешних ответов. Мы выполняем 3 итерации алгоритма GSHF на HuggingFaceH4/mistral-7b-sft-beta, помеченных моделью вознаграждения, где подсказки генерируются ChatGPT с расширением подсказок типа самоинструкции. Формат использования и шаблона чата соответствует модели SFT HuggingFaceH4/mistral-7b-sft-beta. Если вы нашли эту информацию полезной, пожалуйста, процитируйте следующие статьи.

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: sfairXC
Теги: mistral, conversational, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 10

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

LiquidAI/LFM2-2.6B

yasserrmd/GLM4.7-Distill-LFM2.5-1.2B

uukuguy/speechless-codellama-dolphin-orca-platypus-34b

unsloth/codellama-7b-bnb-4bit