[ACL 2026] Репозитории для нашей статьи: Psyche-r1: На пути к надежным психологическим фильмам посредством единой эмпатии, опыта и рассуждений. Мы предлагаем первую китайскую LLM по психологическому рассуждению, которая объединяет эмпатию, опыт и рассуждение. Эта модель представляет собой доработанную версию Qwen/Qwen2.5-7B-Instruct для предлагаемого нами набора данных, включающую психологические вопросы в сочетании с подробными обоснованиями и чуткими одноходовыми диалогами. Мы проводим гибридную стратегию обучения, включая обучение SFT и GRPO. Подробные гиперпараметры обучения мы представим позже. Он достигает производительности, сравнимой с DeepSeek-R1, по нескольким психологическим тестам, включая тест на экзамен для консультантов по психологии (PCEB), предложенный Ху и др. (2024) и набор тестов CPsyExam, предложенный Zhao et al. (2024). Он также демонстрирует лучшие показатели эмпатии на тестовом наборе SoulChat2.0 (Xie et al., 2025). Во время обучения использовались следующие гиперпараметры: — скорость обучения: 1e-05 — начальное число: 42 — распределенный тип: multi-GPU — numdevices: 8 -gradientaccumulationsteps: 16 — totaltrainbatchsize: 256 — totalevalbatchsize: 8 — оптимизатор: используйте adamwtorch с betas=(0,9,0,999) и epsilon=1e-08 и оптимизиргс=Нет…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: MindIntLab
Теги: qwen2, llama-factory, verl, grpo-training, conversational, zh, text-generation-inference, endpoints_compatible
Лайков: 9 | Загрузок: 426
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.