Изображение, созданное с помощью Arli AI Image Generation https://www.arliai.com/image-generation v3, представляет собой переработку v2, но без проблем, возникающих при запуске с базой, обработанной QwQ. Это оказалось не очень хорошим ходом, поскольку он явно еще больше лоботомизирует модель и даже был виден из значений потерь при более высоком обучении и оценке. Было приложено много усилий, чтобы полностью перезапустить генерацию набора данных RpR, чтобы убедиться, что сгенерированные токены мышления теперь всегда соответствуют ответам модели. Предыдущий набор данных RpR v1 был сгенерирован с помощью ванильного QwQ, что вызвало некоторые отказы как в примерах мышления, так и в примерах ответов, а в RpR v3 генерация набора данных теперь выполняется с использованием QwQ-abliterated, что предотвращает возникновение любых отказов. Предположительно, в открытых наборах данных, используемых для наборов данных RPMax/RpR, было обнаружено множество попыток цензуры, и эти неуместные слова/фразы теперь исправлены, чтобы модель не копировала такое поведение. v3 обучается с использованием более нового и улучшенного планировщика Rex вместо обычного косинусного планировщика, чтобы улучшить нюансы обучения модели на основе большего количества наборов данных, поскольку этот планировщик дольше поддерживает более высокую скорость обучения…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: ArliAI
Теги: qwen2, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 39 | Загрузок: 25
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.