openbmb/Eurus-7b-kto

— 📜 Бумага — 🤗 Коллекция Eurus — 🤗 UltraInteract — SFT — Обучение предпочтениям — Репозиторий GitHub Eurus-7B-KTO — это KTO, доработанный на основе Eurus-7B-SFT на всех парах многооборотных траекторий в UltraInteract и на всех парах в UltraFeedback. Он обеспечивает лучшую общую производительность среди моделей с открытым исходным кодом аналогичного размера и во многих случаях даже превосходит специализированные модели в соответствующих областях. Примечательно, что Eurus-7B-KTO превосходит базовые модели, которые в 5 раз больше. Мы применяем специальные подсказки для кодирования и математических вычислений, соответствующие форматам данных UltraInteract: — Eurus, как варианты 7B, так и 70B, достигают наилучшей общей производительности среди моделей с открытым исходным кодом аналогичного размера. Eurus во многих случаях даже превосходит специализированные модели в соответствующих областях. Примечательно, что Eurus-7B превосходит базовые модели, которые в 5 раз больше, а Eurus-70B обеспечивает лучшую производительность, чем GPT-3.5 Turbo. — Обучение предпочтениям с помощью UltraInteract может еще больше улучшить производительность, особенно в математике и многоходовой способности.

Модальности:
Генерация текста

Области применения:
Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: openbmb
Теги: mistral, reasoning, preference_learning, kto, conversational, text-generation-inference, endpoints_compatible
Лайков: 13 | Загрузок: 57

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

cahya/gpt2-large-indonesian-522M

deepcogito/cogito-v1-preview-qwen-14B

dphn/dolphin-2.9.2-Phi-3-Medium

deepseek-ai/DeepSeek-V2-Lite