Метка: grpo - Страница 2 - Каталог нейросетей

Метка: grpo

Генерация текста

OpenMOSS-Team/SciJudge-30B

SciJudge-Qwen3-30B — это усовершенствованная языковая модель для оценки научных статей. Учитывая метаданные двух научных статей (название, аннотация, дата...

Генерация текста

Intel/deepmath-v1

DeepMath — это математическая модель рассуждения с 4B параметрами, которая сочетает в себе точно настроенный LLM с изолированным...

Генерация текста

hooman650/MedQwen3B-Reasoner

MedQwen3B-Reasoner — это специализированный вариант Qwen2.5-3B-Instruct, настроенный с использованием GRPO для достижения успеха в рассуждениях в медицинской области,...

Генерация текста

Locutusque/Thespis-Llama-3.1-8B

Описание: Семейство языковых моделей Thespis предназначено для повышения эффективности ролевых игр посредством рассуждений, вдохновленных Теорией разума. Thespis-Llama-3.1-8B —...

Генерация текста

Nitral-AI/Captain-Eris_Violet-GRPO-v0.420

Модель генерации текста Модальности:Генерация текста Области применения:Диалог / чат Задача: Генерация текста Автор: Nitral-AI Теги: mistral, merge, finetune,...

Генерация текста

Chun121/Qwen3-4B-RPG-Roleplay-V2

Новая версия, обученная с помощью GRPO, для более последовательной, качественной и выверенной ролевой игры персонажей. > Добро пожаловать...