SEOcrate-4B_grpo_new_01
SEOcrate 01 на базе SEOcrate-4Bgrponew_01: Проверка концепции Улучшение SEO-рассуждений в Gemma 3 с помощью обучения...
SEOcrate 01 на базе SEOcrate-4Bgrponew_01: Проверка концепции Улучшение SEO-рассуждений в Gemma 3 с помощью обучения...
> Это адаптер LoRA, а не отдельная модель. Для его использования вам понадобится базовая модель Qwen/Qwen3-30B-A3B-Instruct-2507. ~51 МБ...
Foresight V1 32B — это модель прогнозирования, доработанная на основе Qwen3-32B с помощью RL на основе результатов. Несмотря...
Это доработанная версия HER-32B, созданная с помощью механизма аблитерации Heretic (v1.2.0) компании P-E-W с включенной ортогональной абляцией с...
Модель ASTRA-14B-Thinking-v1 создана на основе Qwen3-14B и специально оптимизирована для многоэтапных задач, дополненных инструментами, с расширенными агентными возможностями...
DeepSearch-1.5B🌟 — это модель рассуждения с параметрами 1,5 млрд, обученная с помощью обучения с подкреплением с проверяемыми вознаграждениями...
Turkish-Gemma-4b-T1-Scout — это турецкая модель агента веб-поиска, предназначенная для многоэтапного поиска информации, генерации обоснованных ответов и рассуждений, дополненных...
HumanLM — это симулятор пользователя, который генерирует ответы, отражающие основные состояния реальных пользователей (убеждения, эмоции, позиция, ценности, цели,...
Исходная модель: https://huggingface.co/nvidia/AceReason-Nemotron-14B. Запускайте их напрямую с помощью llama.cpp или любого другого проекта на основе llama.cpp. Некоторые из...
P1-30B-A3B — это средний вариант серии P1, высокопроизводительной языковой модели с открытым исходным кодом, специализирующейся на физических рассуждениях....