Метка: reinforcement-learning

Генерация текста

cyberandy/SEOcrate-4B_grpo_new_01

SEOcrate 01 на базе SEOcrate-4Bgrponew_01: Проверка концепции Улучшение SEO-рассуждений в Gemma 3 с помощью обучения...

Генерация текста

mit-oasys/rlm-qwen3-30b-a3b-v0.1

> Это адаптер LoRA, а не отдельная модель. Для его использования вам понадобится базовая модель Qwen/Qwen3-30B-A3B-Instruct-2507. ~51 МБ...

Генерация текста

LightningRodLabs/foresight-32B

Foresight V1 32B — это модель прогнозирования, доработанная на основе Qwen3-32B с помощью RL на основе результатов. Несмотря...

Генерация текста

MuXodious/HER-32B-absolute-heresy

Это доработанная версия HER-32B, созданная с помощью механизма аблитерации Heretic (v1.2.0) компании P-E-W с включенной ортогональной абляцией с...

Генерация текста

Emperorizzis/ASTRA-14B-Thinking-v1

Модель ASTRA-14B-Thinking-v1 создана на основе Qwen3-14B и специально оптимизирована для многоэтапных задач, дополненных инструментами, с расширенными агентными возможностями...

Генерация текста

fangwu97/DeepSearch-1.5B

DeepSearch-1.5B🌟 — это модель рассуждения с параметрами 1,5 млрд, обученная с помощью обучения с подкреплением с проверяемыми вознаграждениями...

Генерация текста

ytu-ce-cosmos/Turkish-Gemma-4b-T1-Scout

Turkish-Gemma-4b-T1-Scout — это турецкая модель агента веб-поиска, предназначенная для многоэтапного поиска информации, генерации обоснованных ответов и рассуждений, дополненных...

Генерация текста

snap-stanford/humanlm-opinion

HumanLM — это симулятор пользователя, который генерирует ответы, отражающие основные состояния реальных пользователей (убеждения, эмоции, позиция, ценности, цели,...

Генерация текста

bartowski/nvidia_AceReason-Nemotron-14B-GGUF

Исходная модель: https://huggingface.co/nvidia/AceReason-Nemotron-14B. Запускайте их напрямую с помощью llama.cpp или любого другого проекта на основе llama.cpp. Некоторые из...

Генерация текста

PRIME-RL/P1-30B-A3B

P1-30B-A3B — это средний вариант серии P1, высокопроизводительной языковой модели с открытым исходным кодом, специализирующейся на физических рассуждениях....