snap-stanford/humanlm-opinion

HumanLM — это симулятор пользователя, который генерирует ответы, отражающие основные состояния реальных пользователей (убеждения, эмоции, позиция, ценности, цели, стиль общения). Эта контрольная точка обучена на тесте Humanual-Opinion, который содержит самоуверенные ответы пользователей Reddit в темах обсуждения личных проблем. 📄 Документ: [HumanLM: Моделирование пользователей с выравниванием состояния лучше имитации ответа]() 🌐 Страница проекта: humanlm.stanford.edu — Базовая модель: Qwen3-8B — Метод обучения: GRPO (оптимизация групповой относительной политики) с выравниванием состояния — Данные обучения: Человеческое мнение (4,6 тыс. пользователей Reddit, 46 тыс. ответов в 1 тыс. тем) В отличие от стандарта Благодаря тонкой настройке, имитирующей язык поверхностного уровня, HumanLM явно выравнивает шесть психологически обоснованных измерений состояния: во время генерации модель рассуждает об этих скрытых состояниях в блоке, прежде чем синтезировать окончательный ответ. По мнению Humanual-Opinion, HumanLM достигает относительного улучшения оценки выравнивания на 7,6% по оценке судьи LLM по сравнению с лучшим базовым уровнем (по мнению GRPO). — 41,4% побед по общему сходству (по сравнению с 30,6% по мнению Qwen3-8B, 27,9% по мнению GRPO) — 76,6% ответов оценены как «вполне естественные» или «неотличимые от человеческих» -…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: snap-stanford
Теги: qwen3, user-simulation, persona, grpo, reinforcement-learning, state-alignment, humanlm, conversational
Лайков: 10 | Загрузок: 880

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

LoneStriker/Silicon-Maid-7B-8.0bpw-h8-exl2

apple/OpenELM-450M-Instruct

garage-bAInd/Platypus2-13B

bartowski/Kwaipilot_KAT-Dev-72B-Exp-GGUF