Хиггс-Лама-3-70B прошел обучение на мета-ламе/Мета-Ламе-3-70B, специально настроенном для ролевых игр и в то же время конкурентоспособном в выполнении инструкций и рассуждениях в общей области. Мы выполняем контролируемую точную настройку с помощью наших собственных наборов данных для выполнения инструкций и чата. После этого мы создаем пары предпочтений с помощью полуавтоматического конвейера, который опирается как на людей, занимающихся маркировкой, так и на наших частных LLM. Мы проводим итеративную оптимизацию предпочтений для согласования модели. Во время согласования мы приняли специальную стратегию, позволяющую привести поведение модели в соответствие с системным сообщением. По сравнению с другими моделями инструкций, модели Хиггса более точно следуют своим ролям. Все тесты в конечном итоге приводят к переоснащению, в том числе и для LLM. Обучение на данных, особенно полезное для тестов, обычно не улучшает (или даже не ухудшает) производительность ролевых игр. Мы работали над тем, чтобы исключить контрольные данные, включая их обучающие примеры, из наших данных тонкой настройки. Мы подчеркиваем наши результаты в двух новых и сложных тестах: MMLU-Pro и Arena-Hard. MMLU-Pro расширяет популярный тест MMLU. Мы считаем, что он меньше переоснащается другими выпущенными моделями, поскольку был выпущен только…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: bosonai
Теги: llama, conversational, text-generation-inference, endpoints_compatible
Лайков: 229 | Загрузок: 7,996
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.