yasserrmd/Coder-GRPO-3B

Разработчик: yasserrmd Базовая модель: Qwen/Qwen2.5-3B-Instruct Цель: Анализ и генерация кода с помощью коротких, правильных программ и кратких объяснений. Лицензия: Apache-2.0 Набор данных: glaiveai/glaive-code-assistant Эта модель была доработана с помощью GRPO (оптимизация групповой относительной политики) с использованием Unsloth + TRL и ориентирована на задачи кода с высоким уровнем сигнала (написание, рефакторинг, объяснение, исправление). В обучении использовались краткосрочные вознаграждения за компиляцию, тесты, стиль и полезность. Unsloth обеспечил более быстрое и эффективное обучение с использованием потребительских графических процессоров. Метод: GRPO через TRL (политика улучшается по сравнению с базовым уровнем группы) Платформы: Unsloth + TRL + Hugging Face Transformers Данные: glaiveai/glaive-code-assistant (задачи кода, пошаговые цели) Потери/награды (примеры): ✅ Компилирует/проходит простые проверки модулей ✅ Минимальные, правильные различия ✅ Никаких секретов/небезопасных шаблонов кода ✅ Краткие, практические объяснения > Этот README суммирует настройку; адаптируйте гиперпараметры под ваше оборудование и целевые задачи. a/rangesum.py +++ b/rangesum.py @@ -def rangesum(n): — return sum(range(n)) +def rangesum(n): + return sum(range(1, n+1)) Пользователь Напишите тесты pytest для rangesum(n). Покрытие n=1,10,0 и отрицательный случай. @misc{codergrpo3b,…

Модальности:
Генерация текста

Области применения:
Диалог / чат Генерация кода

Задача: Генерация текста
Автор: yasserrmd
Теги: gguf, qwen2, text-generation-inference, unsloth, llama, trl, conversational, zho
Лайков: 7 | Загрузок: 639

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

maywell/PiVoT-0.1-Evil-a

ytu-ce-cosmos/Turkish-Gemma-4b-T1-Scout

bavest/fin-llama-33b-merged

TheBloke/guanaco-65B-GPTQ