TrevorJS/gemma-4-E2B-it-uncensored - Каталог нейросетей
Генерация текста

TrevorJS/gemma-4-E2B-it-uncensored

Добавлено:
TrevorJS/gemma-4-E2B-it-uncensored

Версия google/gemma-4-E2B-it без цензуры с удаленным поведением отказа. Протестировано на четырех независимых наборах данных подсказок для проверки обобщения: каждый помеченный отказ проверялся вручную. Большинство из них представляют собой ложные срабатывания по принципу «отказ, затем соблюдение», когда модель добавляет заявление об отказе от ответственности за ИИ, а затем все равно отвечает на вопрос. Нормосохраняющая двухпроекционная аблитерация (гримджим, ноябрь 2025 г.). Каждая строка весов разлагается на величину + направление, направление отказа проецируется только из компонента направления, а затем повторно объединяется с исходной величиной — гарантируя ||Wnew|| = ||Вориг||. 1. Загрузите модель в bf16 с адаптерами LoRA на oproj и mlp.downproj. 2. Соберите остаточные активации для 400 вредоносных + 400 безвредных подсказок (наборы данных mlabonne). 3. Winsorize активации на 99,5-м процентиле (фиксирует выбросы GeGLU в семействе Gemma). 4. Вычислите направление отказа для каждого уровня: нормализовать (среднее (вредное) — среднее (безвредное)) 5. Ортогонализировать каждое направление относительно безвредного среднего (двойной проход Грама-Шмидта). 6. Применить модификацию веса, сохраняющую норму, к oproj и downproj во всех слоях. 9. Объединить адаптеры LoRA с базовыми весами для чистых имен тензоров. Бипроекция, сохраняющая норму, вместо…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: TrevorJS
Теги: gemma4, image-text-to-text, abliteration, uncensored, gemma-4, conversational, en, endpoints_compatible
Лайков: 14  |  Загрузок: 4,750

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.