snorkelai/Snorkel-Mistral-PairRM-DPO

Вы можете опробовать наши модели на игровой площадке Together AI: https://api.together.xyz/playground/chat/snorkelai/Snorkel-Mistral-PairRM-DPO. Эта модель оптимизирована для чата. Веселиться! Наша модель также доступна через API Together AI со следующей строкой API модели: snorkelai/Snorkel-Mistral-PairRM-DPO. Особая благодарность команде Together AI за добавление нашей модели в их конечные точки. Мы также предоставляем конечную точку вывода HF, чтобы каждый мог протестировать модель. Первоначально активация может занять несколько минут, но в конечном итоге она будет работать со стандартной скоростью конечной точки вывода текста модели HF 7B. Скорость вывода зависит от производительности конечной точки HF и не связана с предложениями Snorkel. Эта конечная точка предназначена для первоначальных испытаний, а не для постоянного производственного использования. Набор обучающих данных: snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset Мы используем ТОЛЬКО подсказки от UltraFeedback; внешние ответы LLM не используются. 1. Сгенерируйте пять вариантов ответа для каждого запроса из подмножества из 20 000 с помощью LLM — для начала мы использовали Mistral-7B-Instruct-v0.2. 2. Примените PairRM для изменения рейтинга ответов. 3. Обновите LLM, применив оптимизацию прямых предпочтений (DPO) вверху (выбрано) и…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: snorkelai
Теги: mistral, conversational, text-generation-inference, endpoints_compatible
Лайков: 108 | Загрузок: 685

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

GraySwanAI/Llama-3-8B-Instruct-RR

Bllossom/llama-3.2-Korean-Bllossom-3B

rinna/nekomata-7b

usail-hkust/LLMLight-LightGPT