mlabonne/Qwen3-4B-abliterated - Каталог нейросетей
Генерация текста

mlabonne/Qwen3-4B-abliterated

Добавлено:
mlabonne/Qwen3-4B-abliterated

Это версия Qwen/Qwen3-4B без цензуры, созданная с использованием новой техники аблитерации. Прочтите эту статью, чтобы узнать больше об аблитерации. Это исследовательский проект, призванный понять, как отказы и скрытая точная настройка работают в LLM. Я поигрался с Qwen3 разных размеров и заметил, что не существует универсальной стратегии уничтожения. Кроме того, режим рассуждения мешал необоснованным отказам, что усложняло задачу. Это заставило меня перебирать разные рецепты и существенно консолидировать свои сценарии за счет накопления и улучшения оценок. Обратите внимание, что это довольно экспериментальный вариант, поэтому может оказаться не так хорошо, как ожидалось. Рекомендую использовать такие параметры генерации: температура=0,6, топк=20, топп=0,95, минп=0`. Направление отказа рассчитывается путем сравнения остаточных потоков между целевыми (вредными) и базовыми (безвредными) образцами. Скрытые состояния целевых модулей (например, o_proj) ортогонализуются, чтобы вычесть это направление отказа с заданным весовым коэффициентом. Эти весовые коэффициенты имеют нормальное распределение с определенным разбросом и пиковым слоем. Модули можно итеративно ортогонализировать партиями, а направление отказа можно аккумулировать, чтобы сэкономить…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: mlabonne
Теги: qwen3, abliteration, abliterated, conversational, text-generation-inference, endpoints_compatible
Лайков: 17  |  Загрузок: 1,398

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.