— Github: https://github.com/yuchenlin/LLM-Blender — Документ: https://arxiv.org/abs/2306.02561 — Космическая демонстрация: https://huggingface.co/spaces/llm-blender/LLM-Blender — Посмотрите наши результаты в таблице лидеров AlpacaEval: модель парного вознаграждения в таблице лидеров Twitter (PairRM) принимает инструкцию и пару выходных кандидатов в качестве входных данных, и выведите оценку для каждого кандидата, чтобы измерить его относительное качество. PairRM можно использовать для (повторного) ранжирования списка возможных результатов и, таким образом, использовать в качестве оценщика LLM для эффективной оценки качества LLM в местной среде. PairRM также можно использовать для улучшения декодирования за счет выборки по принципу «лучший из n» (т. е. переранжирования N выходных выборок). Кроме того, можно также использовать PairRM для дальнейшего согласования настроенных инструкций LLM с методами RLHF. В отличие от других RM, которые кодируют и оценивают каждого кандидата соответственно, PairRM берет пару кандидатов и сравнивает их, чтобы выявить тонкие различия между ними. Кроме того, PairRM основан на microsoft/deberta-v3-large и поэтому очень эффективен: 0,4B. Мы обучили PairRM на разнообразной коллекции из шести наборов данных о человеческих предпочтениях (подробнее см. здесь). PairRM является частью проекта LLM-Blender (ACL 2023).…
Модальности:
Генерация текста
Области применения:
Следование инструкциям
Задача: Генерация текста
Автор: llm-blender
Теги: deberta, reward_model, reward-model, RLHF, evaluation, llm, instruction, reranking
Лайков: 205 | Загрузок: 635
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.