Модель Qwen3.5-27B, идеально настроенная для высококачественного творческого письма и ролевых игр, с применением DPO для уменьшения повторов, подавления ИИ-измов и улучшения стиля письма. Комбинированный DPO с тремя целями, обучаемыми одновременно за один проход: Маскирование мышления: потеря DPO рассчитывается только по содержимому ответа после , а не по самим следам мышления. Это предотвращает случайное обучение сигналом DPO способности модели мыслить. — Бета-версия DPO: 0,1 — Тип потерь: сигмоид — Скорость обучения: 5e-6 (косинусный график, разминка 10%) — LoRA: r=32, альфа=16, RSLoRA, без отсева — Квантование: QLoRA (NF4) — Точность: bf16 — Размер пакета: 1 × 4 града, накопление = эффективно 4 — Эпохи: 1 — Время обучения: ~68 минут включено 2 × RTX 3090 — Потеря поезда: в среднем 0,117 — Точность вознаграждения: 100 % — Граница вознаграждения: 6–8 (сильное разделение выбранных и отклоненных) Нулевое повторение на уровне предложений на протяжении 8 раундов разговора по сравнению со значительным повторением в базовой модели на шестом ходу. — Температура: 0,8 — Top-p: 0,9 — Формат: «Кавычки» для речи, простой текст для повествования, курсив для внутреннего текста мысли — Эфиопский Иргачефф появляется непропорционально, когда модель обсуждает кофе (включенный в базовое обучение модели…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: ToastyPigeon
Теги: qwen3_5, image-text-to-text, dpo, creative-writing, roleplay, qwen3.5, 27b, conversational
Лайков: 11 | Загрузок: 7
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.