nvidia/Qwen3-Nemotron-235B-A22B-GenRM-2603 - Каталог нейросетей
Генерация текста

nvidia/Qwen3-Nemotron-235B-A22B-GenRM-2603

Добавлено:
nvidia/Qwen3-Nemotron-235B-A22B-GenRM-2603

Qwen3-Nemotron-235B-A22B-GenRM-2603 — это генеративная модель вознаграждения (GenRM), которая использует Qwen3-235B-A22B-Thinking-2507 в качестве основы и настроена для оценки качества ответов помощника. Учитывая историю разговоров, новый запрос пользователя и два ответа кандидата в помощники, он вычисляет индивидуальную оценку полезности для каждого ответа и рейтинговую оценку. Этот GenRM используется в обучении с подкреплением на основе обратной связи с человеком NVIDIA-Nemotron-3-Super-120B-A12B-BF16. Подробности обучения см. в техническом отчете Nemotron 3 Super (скоро). HuggingFace 11 марта 2026 г. через https://huggingface.co/nvidia/Qwen3-Nemotron-235B-A22B-GenRM-2603 Супертехнический отчет Nemotron 3 (скоро) HelpSteer3-Preference: открытые аннотированные человеком данные о предпочтениях для различных задач и языков * RLBFF: двоичная гибкая обратная связь для моста между обратной связью от человека и проверяемыми вознаграждениями Мы разработала эту модель, взяв за основу Qwen/Qwen3-235B-A22B-Thinking-2507. Эта модель содержит 235 миллиардов параметров. Тип(ы) ввода: Текст Формат ввода: Строка Параметры ввода: Одномерный (1D) Другие свойства, связанные с вводом: Максимум 128 тыс. токенов Тип(ы) вывода: Текстовый вывод…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: nvidia
Теги: qwen3_moe, nvidia, qwen3, conversational, en
Лайков: 24  |  Загрузок: 1,419

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.