SciJudge-Qwen3-30B — это усовершенствованная языковая модель для оценки научных статей. Учитывая метаданные двух научных статей (название, аннотация, дата публикации), он предсказывает, какая статья имеет более высокий показатель цитирования, что служит показателем для оценки влияния исследования и «научного вкуса». Эта модель является частью статьи «ИИ может научиться научному вкусу». — Базовая модель: Qwen3-30B-A3B-Instruct-2507 (MoE, всего 30B / активные 3B) — Метод обучения: GRPO (генеративная оптимизация политики вознаграждения) с потерей DAPO — Данные обучения: 720 341 пара предпочтений из статей arXiv — Скорость обучения: 8e-7 (косинусный график, 5% прогрева) — Размер микропакета: 8, глобальный размер пакета: 1024 — Оптимизатор: Адам (с разгрузкой ЦП) — Точность: bfloat16 — Коэффициент KL (β): 0,03
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: OpenMOSS-Team
Теги: qwen3_moe, scientific-evaluation, citation-prediction, preference-learning, GRPO, moe, conversational, en
Лайков: 12 | Загрузок: 423
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.