Nous Hermes 2 Mixtral 8x7B DPO — это новая флагманская модель Nous Research, обученная на Mixtral 8x7B MoE LLM. Модель была обучена на более чем 1 000 000 записей, в основном данных, сгенерированных GPT-4, а также других высококачественных данных из открытых наборов данных в среде ИИ, что позволило достичь высочайшего уровня производительности при выполнении различных задач. Это версия Mixtral Hermes 2 SFT + DPO. Мы также выпустили версию только SFT, чтобы люди могли найти ту, которая лучше всего подходит для них. Ее можно найти здесь: https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-SFT 1. Примеры выходных данных 2. Результаты тестов – GPT4All – AGIEval – BigBench – сравнение с Mixtral-Instruct 3. Формат подсказки 4. Пример кода вывода 5. Квантованные модели Nous-Hermes 2 на Mixtral 8x7B представляет собой значительное улучшение по всем показателям в приведенных ниже тестах по сравнению с базовой моделью Mixtral и является первой моделью, превзошедшей флагманскую модель Mixtral Finetune от MistralAI. Наши тесты показывают выигрыш во многих тестах по сравнению с Mixtral Instruct v0.1, в среднем превосходя флагманскую модель Mixtral. Nous Hermes 2 использует ChatML в качестве формата подсказок, открывая гораздо более структурированную систему для вовлечения LLM в многоходовой чат…
Модальности:
Генерация текста
Области применения:
Следование инструкциям Диалог / чат
Задача: Генерация текста
Автор: NousResearch
Теги: mixtral, Mixtral, instruct, finetune, chatml, DPO, RLHF, gpt4
Лайков: 453 | Загрузок: 9,093
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.