Точная настройка Qwen3.5-35B-A3B, ориентированная на кодирование, с использованием SFT + GRPO на смеси реальных траекторий агента кодирования из сеансов Codex, Claude Code и OpenCode. Qwen3.5-35B-A3B — это модель MoE с 35 миллиардами параметров, в которой на каждый токен приходится только 3 миллиарда активных параметров. Эта тонкая настройка улучшает возможности кодирования за счет обучения реальным траекториям разработки программного обеспечения. 1. Извлечение данных: 4551 обучающая пара, извлеченная из 4756 сеансов агента кодирования (Codex, Claude Code, OpenCode). 2. Маркировка: 3580 пар, помеченных Claude Opus 4.6 для оценки качества (среднее вознаграждение 0,477). 3. Фаза SFT: bf16 LoRA (ранг 64) на 2674 парах высокого качества. Потеря: 1,438 -> 0,509 (-65%) 4. Фаза GRPO: Оптимизация групповой относительной политики с выборкой G = 8, 200 подсказок x 8 завершений = 1600 оцененных выборок. Функция вознаграждения на основе выполнения (компиляция + запуск). 5. Обновление веса GRPO: RFT за 161 лучшее завершение (награда >= 0,5). Убыток приблизился к 1,97. — Аппаратное обеспечение: RTX PRO 6000 Blackwell (96 ГБ видеопамяти) — Данные обучения: сочетание реальных траекторий кодирования агентов из сеансов Codex, Claude Code и OpenCode (кодирование, отладка, рефакторинг) — Продолжительность SFT: ~3 часа (670 шагов) — Выборка GRPO: ~2 часа (1600 завершений) — GRPO…
Модальности:
Генерация текста
Области применения:
Генерация кода Диалог / чат
Задача: Генерация текста
Автор: rachpradhan
Теги: gguf, qwen3.5, moe, grpo, coding, fine-tuned, swe, en
Лайков: 8 | Загрузок: 49
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.