Ihor/Text2Graph-R1-Qwen2.5-0.5b

Это копия DeepSeek R1 для задач преобразования текста в график. Он основан на модели Qwen-2.5-0.5B и обучен с использованием как обучения с подкреплением (GRPO), так и обучения с учителем. Модель была обучена с использованием оптимизации групповой относительной политики (GRPO) с одной итерацией GRPO, состоящей более чем из 1 тыс. шагов. Были использованы следующие функции вознаграждения: Вознаграждение формата JSON конкретно проверяет правильность формирования, машиночитаемого представления JSON и соответствие его структуры желаемому формату. Награда за согласованность JSON специально подтверждает, что модель возвращает выходные данные JSON. Награда F1** оценивает точность извлеченных объектов и отношений путем сравнения их с графиками достоверности. Ниже вы можете увидеть изменения в различных вознаграждениях с течением времени: вы можете видеть, что вознаграждение F1 постоянно растет, в то время как вознаграждение JSON быстро насыщается из-за контролируемого предварительного обучения.

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Ihor
Теги: qwen2, text2graph, relation_extraction, named_entity_recognition, GRPO, RL, conversational, zho
Лайков: 24 | Загрузок: 82

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF

Qwen/Qwen3-8B-MLX-4bit

Azure99/blossom-v5-9b

NousResearch/Redmond-Hermes-Coder