ArliAI/QwQ-32B-ArliAI-RpR-v3

Изображение, созданное с помощью Arli AI Image Generation https://www.arliai.com/image-generation v3, представляет собой переработку v2, но без проблем, возникающих при запуске с базой, обработанной QwQ. Это оказалось не очень хорошим ходом, поскольку он явно еще больше лоботомизирует модель и даже был виден из значений потерь при более высоком обучении и оценке. Было приложено много усилий, чтобы полностью перезапустить генерацию набора данных RpR, чтобы убедиться, что сгенерированные токены мышления теперь всегда соответствуют ответам модели. Предыдущий набор данных RpR v1 был сгенерирован с помощью ванильного QwQ, что вызвало некоторые отказы как в примерах мышления, так и в примерах ответов, а в RpR v3 генерация набора данных теперь выполняется с использованием QwQ-abliterated, что предотвращает возникновение любых отказов. Предположительно, в открытых наборах данных, используемых для наборов данных RPMax/RpR, было обнаружено множество попыток цензуры, и эти неуместные слова/фразы теперь исправлены, чтобы модель не копировала такое поведение. v3 обучается с использованием более нового и улучшенного планировщика Rex вместо обычного косинусного планировщика, чтобы улучшить нюансы обучения модели на основе большего количества наборов данных, поскольку этот планировщик дольше поддерживает более высокую скорость обучения…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: ArliAI
Теги: qwen2, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 39 | Загрузок: 25

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

nisten/deepseek-r1-qwen32b-mlx-6bit

tiiuae/Falcon-H1-1.5B-Instruct-GGUF

amd/Instella-3B-Stage1

inclusionAI/Ling-flash-base-2.0