hooman650/MedQwen3B-Reasoner

MedQwen3B-Reasoner — это специализированный вариант Qwen2.5-3B-Instruct, настроенный с использованием GRPO для достижения успеха в рассуждениях в медицинской области, сохраняя при этом сильные возможности решения математических задач. Модель демонстрирует расширенные способности к рассуждению и может выражать неопределенность, когда это необходимо. Если вы используете ollama, llama-cpp, vllm или любую другую систему вывода, вам необходимо настроить системную подсказку, как показано ниже, поскольку модель работает лучше всего со следующей подсказкой: — Опыт медицинской области в сочетании с возможностями математического рассуждения — Возможность выражать неопределенность с помощью ответов «может быть» — Структурированные результаты рассуждений с четкими пошаговыми объяснениями — Компактный размер (параметры 3B) при сохранении высокой производительности — Обучение с использованием GRPO (оптимизация групповой относительной политики) для 483 шага Модель была обучена с использованием тщательно подобранного набора наборов данных: — 70% Медицинская область: PubMedQA — 30% Смешанное рассуждение: — GSM8K (математическое рассуждение) — Контрольные показатели здоровья Вот несколько примеров возможностей рассуждения модели в различных областях: — Базовая модель: unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit — Этапы обучения: 483 — Библиотека: Unsloth — Лицензия: Apache 2.0

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: hooman650
Теги: gguf, qwen2, text-generation-inference, reinforcement-learning, unsloth, trl, grpo, conversational
Лайков: 13 | Загрузок: 195

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

llmfan46/Omega-Darker-Gaslight_The-Final-Forgotten-Fever-Dream-24B-ultra-uncensored-heretic-v2-GGUF

MaziyarPanahi/Bioxtral-4x7B-v0.1

internlm/internlm2_5-7b

starmpcc/Asclepius-Llama2-13B