— Разработано: командой Nexusflow (Бангхуа Чжу, Эван Фрик, Тяньхао Ву, Ханлинь Чжу, Картик Ганесан, Вэй-Линь Чан, Цзянь Чжан и Цзяньтао Цзяо). — Тип модели: языковая модель, настроенная с помощью RLHF / RLAIF. — Лицензия: лицензия Apache-2.0 при условии, что модель не используется для конкуренции с OpenAI. — Точная настройка на основе модели: ** Openchat-3.5-0106 (на основе Mistral-7B-v0.1). Мы представляем Starling-LM-7B-beta, открытую модель большого языка (LLM), обученную с помощью обучения с подкреплением на основе обратной связи AI (RLAIF). Starling-LM-7B-beta обучен на Openchat-3.5-0106 с использованием нашей новой модели вознаграждения Nexusflow/Starling-RM-34B и метода оптимизации политики Fine-Tuning Language Models from Human Preferences (PPO). Используя возможности набора рейтинговых данных berkeley-nest/Nectar, обновленную модель вознаграждения Starling-RM-34B, а также новый конвейер обучения и настройки политики вознаграждения, Starling-LM-7B-beta получает улучшенный балл 8,12 в MT Bench с GPT-4 в качестве судьи. Важно: Пожалуйста, используйте именно тот шаблон чата, который представлен ниже для этой модели. В противном случае произойдет ухудшение производительности. В редких случаях выходные данные модели могут быть многословными. Пожалуйста, рассмотрите возможность установки температуры = 0, чтобы это произошло…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Nexusflow
Теги: mistral, reward model, RLHF, RLAIF, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 343 | Загрузок: 2,772
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.