Это копия DeepSeek R1 для задач преобразования текста в график. Он основан на модели Qwen-2.5-0.5B и обучен с использованием как обучения с подкреплением (GRPO), так и обучения с учителем. Модель была обучена с использованием оптимизации групповой относительной политики (GRPO) с одной итерацией GRPO, состоящей более чем из 1 тыс. шагов. Были использованы следующие функции вознаграждения: Вознаграждение формата JSON конкретно проверяет правильность формирования, машиночитаемого представления JSON и соответствие его структуры желаемому формату. Награда за согласованность JSON специально подтверждает, что модель возвращает выходные данные JSON. Награда F1** оценивает точность извлеченных объектов и отношений путем сравнения их с графиками достоверности. Ниже вы можете увидеть изменения в различных вознаграждениях с течением времени: вы можете видеть, что вознаграждение F1 постоянно растет, в то время как вознаграждение JSON быстро насыщается из-за контролируемого предварительного обучения.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Ihor
Теги: qwen2, text2graph, relation_extraction, named_entity_recognition, GRPO, RL, conversational, zho
Лайков: 24 | Загрузок: 82
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.