— 📜 Бумага — 🤗 Коллекция Eurus — 🤗 UltraInteract — SFT — Обучение предпочтениям — Репозиторий GitHub Eurus-7B-KTO — это KTO, доработанный на основе Eurus-7B-SFT на всех парах многооборотных траекторий в UltraInteract и на всех парах в UltraFeedback. Он обеспечивает лучшую общую производительность среди моделей с открытым исходным кодом аналогичного размера и во многих случаях даже превосходит специализированные модели в соответствующих областях. Примечательно, что Eurus-7B-KTO превосходит базовые модели, которые в 5 раз больше. Мы применяем специальные подсказки для кодирования и математических вычислений, соответствующие форматам данных UltraInteract: — Eurus, как варианты 7B, так и 70B, достигают наилучшей общей производительности среди моделей с открытым исходным кодом аналогичного размера. Eurus во многих случаях даже превосходит специализированные модели в соответствующих областях. Примечательно, что Eurus-7B превосходит базовые модели, которые в 5 раз больше, а Eurus-70B обеспечивает лучшую производительность, чем GPT-3.5 Turbo. — Обучение предпочтениям с помощью UltraInteract может еще больше улучшить производительность, особенно в математике и многоходовой способности.
Модальности:
Генерация текста
Области применения:
Логика и рассуждение Диалог / чат
Задача: Генерация текста
Автор: openbmb
Теги: mistral, reasoning, preference_learning, kto, conversational, text-generation-inference, endpoints_compatible
Лайков: 13 | Загрузок: 57
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.