Версия google/gemma-4-26B-A4B-it без цензуры с удаленным поведением отказа. Протестировано на четырех независимых наборах данных подсказок для проверки обобщения: каждый помеченный отказ проверялся вручную. Большинство из них представляют собой ложные срабатывания по принципу «отказ, затем соблюдение», когда модель добавляет заявление об отказе от ответственности за ИИ, а затем все равно отвечает на вопрос. Сохраняющая норму двухпроекционная аблитерация на плотном пути (oproj + общий mlp.downproj), плюс экспертная гранулярная аблитерация (EGA) на всех 128 срезах MoE Expert down_proj на слой. EGA (OBLITERATUS) подключает маршрутизаторы MoE во время зондирования для расчета весов маршрутизации для каждого эксперта для вредных и безобидных подсказок, а затем применяет проекцию, сохраняющую норму (гримджим), к каждому эксперту индивидуально. Только плотная аблитерация оставляет 29/100 отказов; добавление EGA снижает его до 3/100. 1. Загрузите модель в bf16 с адаптерами LoRA на oproj и mlp.downproj. 2. Соберите остаточные активации для 400 вредоносных + 400 безвредных подсказок (наборы данных mlabonne). 3. Winsorize активации на 99,5-м процентиле (фиксирует выбросы GeGLU в семействе Gemma). 4. Вычислите направление отказа для каждого уровня: нормализовать (среднее (вредное) — среднее (безвредное)) 5. Ортогонализировать каждое направление относительно безвредного среднего (двойной проход…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: TrevorJS
Теги: gemma4, image-text-to-text, abliteration, uncensored, gemma-4, conversational, en, endpoints_compatible
Лайков: 22 | Загрузок: 6,021
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.