Использование этой модели регулируется Лицензионным соглашением сообщества Llama 2. Llama2-13B-SteerLM-RM — это языковая модель с 13 миллиардами параметров (с контекстом до 4096 токенов), используемая в качестве модели прогнозирования атрибутов при обучении. Модель прогнозирования атрибутов Llama2-70B-SteerLM-Chat — это многоаспектная модель вознаграждения, которая оценивает ответы модели по различным аспектам, что делает ответ желательным, а не единичным. балл в традиционной модели вознаграждения. Учитывая разговор с несколькими поворотами между пользователем и помощником, он оценивает следующие атрибуты (от 0 до 4) за каждый ход помощника. 1. Качество: воспринимаемая доброта ответа. 2. Токсичность: нежелательные элементы, такие как вульгарный, вредный или потенциально предвзятый ответ. 3. Юмор: чувство юмора в ответе. 4. Креативность: готовность генерировать нетрадиционный ответ. 5. Полезность: общая полезность ответа на подсказку. 6. Корректность: Включение всех соответствующих фактов без ошибок. 7. Последовательность: последовательность и ясность выражения. 8. Сложность: интеллектуальная глубина, необходимая для написания ответа (т. е. может ли ответ написать любой, кто владеет базовыми языковыми навыками, или требует глубоких знаний в предметной области).…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: nvidia
Теги: nemo, nvidia, steerlm, llama2, reward model, en
Лайков: 9 | Загрузок: 47
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.