lukey03/Qwen3.5-9B-abliterated

Это полностью не прошедшая цензуру версия Qwen/Qwen3.5-9B, в которой все поведение отказа удалено с использованием двухэтапного подхода: 1. Удаление ортогональных проекций (3 прохода) — удаляет направление отказа из весовых матриц (Arditi et al., 2024). 2. Тонкая настройка LoRA — устраняет 5 оставшихся категорий упорного отказа, которые пережили удаление. Результат: ответы на 18/18 тестовых запросов (по сравнению с 0/18 базовой модели). Процесс удаления работает следующим образом: 1. Сбор скрытых активаций состояний для вредных и безвредных подсказок. 2. Вычисление «направления отказа» — нормализованная разница между средними вредными и безвредными активациями на каждом уровне. 3. Ортогонализация весовых матриц, записывающих в остаточный поток, удаление направления отказа: Wnew = W — d @ (d^T @ W)` — Техника: Ортогональная проекция (аблитерация весового пространства) — Проходит: 3 итерационных прохода (каждый проход определяет и удаляет остаточное направление отказа) — Вредные подсказки: 170 по 12 категориям (хакерство/киберпреступность, оружие/взрывчатые вещества/насилие, наркотики, мошенничество/финансовые преступления, нарушения конфиденциальности/преследование, кража/B&E, разжигание ненависти/дискриминация, членовредительство/самоубийство, сексуальное/явное/CSAM, политическое Манипуляция/Дезинформация,…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: lukey03
Теги: qwen3_5_text, abliterated, uncensored, qwen3.5, qwen, conversational, en, endpoints_compatible
Лайков: 42 | Загрузок: 10,725

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

QuantFactory/finance-Llama3-8B-GGUF

cyberagent/open-calm-1b

01-ai/Yi-1.5-9B-32K

lucianosb/open-cabrita3b-GGUF