LMUnit — это современная языковая модель, оптимизированная для оценки модульных тестов естественного языка. Он принимает три входных данных: приглашение, ответ и модульный тест. Затем он выдает непрерывную оценку от 1 до 5, где более высокие оценки указывают на то, что ответ лучше соответствует критериям модульного теста. Модель LMUnit обеспечивает лучшую усредненную производительность при выполнении задач по предпочтениям, прямой оценке и детальной оценке модульных тестов, согласно измерениям FLASK и BiGGen Bench, и работает на одном уровне с граничными моделями для грубой оценки развернутых ответов (по LFQA). Модель также демонстрирует исключительное соответствие человеческим предпочтениям, входя в пятерку лучших в тесте RewardBench с точностью 93,5% и в топ-2 рейтинга RewardBench2 с точностью 82,1%. Для получения более подробной информации, пожалуйста, ознакомьтесь с публикацией в блоге или статьей. LMUnit отличается высокой производительностью и универсальностью благодаря ключевым методологиям своего подхода к обучению: — Многоцелевое обучение: модель одновременно обучается на основе нескольких сигналов оценки, включая парное сравнение ответов, прямые оценки качества и суждения на основе специализированных критериев. — Генерация синтетических данных: мы разработали…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: ContextualAI
Теги: qwen2, evaluation, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 7 | Загрузок: 18
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.