[ Каталог нейросетей ]

Метка: grpo

Автор: Сортировка:

Генерация текста

DataPilot/ArrowCanaria-Llama-8B-RL-v0.1

ArrowCanaria-Llama-8B-RL-v0.1 は、ArrowCanaria-Llama-8B-SFT-v0.1 に対して RLHF（Обучение с подкреплением у человека Обратная связь) SFTモデルは高品質なデータで学習されていますが、モデルの応答が「データに含まれる平Награда Модель)品質や知識応答の正確性・分かりやすさを、SFTの水準からさらに引き上げています。強化学習アルゴリズムには GRPO (Оптимизация относительной политики группы)を採用し、DAPO損失関数による安定した最適化を実現しています。相談応答と知識応答の2フェーズで段階的にRLHFを行うことで、SFTで獲得した雑談・RP・キャラクター対話能力を保持しつつ、応答の質を選択的に向上させています。 —...

Генерация текста

srallabandi0225/inframind-0.5b-grpo

InfraMind — это языковая модель с параметрами 0,5 млрд, настроенная для генерации инфраструктуры как кода (IaC) с использованием...

Генерация текста

openmed-community/granite-4.0-micro-OpenMed

Granite 4.0 Micro (≈3B) предназначен для медицинского образования и обучения. Рецепт: JEPA-LLM SFT на medmcqa-hard + увеличение персон...

Генерация текста

rachpradhan/Qwen3.5-35B-A3B-Turbo-SWE-v0.0.1

Точная настройка Qwen3.5-35B-A3B, ориентированная на кодирование, с использованием SFT + GRPO на смеси реальных траекторий агента кодирования из...

Генерация текста

eth-nlped/TutorRL-7B

TutorRL-7B — это усовершенствованный вариант Qwen/Qwen2.5-7B-Instruct, обученный действовать как репетитор по математике, а не как решатель. Он соответствует...

Генерация текста

philschmid/qwen-2.5-3b-r1-countdown

Эта модель представляет собой доработанную версию Qwen/Qwen2.5-3B-Instruct. Он был обучен с использованием TRL и GRPO в игре Countdown....

Генерация текста

prithivMLmods/SmolLM2_135M_Grpo_Gsm8k

SmolLM2135MGrpo_Gsm8k доработан на базе SmolLM2-135M-Instruct. SmolLM2 демонстрирует значительные преимущества по сравнению со своим предшественником SmolLM1, особенно в следовании...

Генерация текста

ytu-ce-cosmos/Turkish-Gemma-4b-T1-Scout

Turkish-Gemma-4b-T1-Scout — это турецкая модель агента веб-поиска, предназначенная для многоэтапного поиска информации, генерации обоснованных ответов и рассуждений, дополненных...

Генерация текста

snap-stanford/humanlm-opinion

HumanLM — это симулятор пользователя, который генерирует ответы, отражающие основные состояния реальных пользователей (убеждения, эмоции, позиция, ценности, цели,...

Генерация текста

Melikshah/dc_ops_grpo_lora

Полный отчет о создании основанного на физике конвейера обучения RL для операций центра обработки данных — от индивидуальной...