mlabonne/Qwen3-4B-abliterated

Это версия Qwen/Qwen3-4B без цензуры, созданная с использованием новой техники аблитерации. Прочтите эту статью, чтобы узнать больше об аблитерации. Это исследовательский проект, призванный понять, как отказы и скрытая точная настройка работают в LLM. Я поигрался с Qwen3 разных размеров и заметил, что не существует универсальной стратегии уничтожения. Кроме того, режим рассуждения мешал необоснованным отказам, что усложняло задачу. Это заставило меня перебирать разные рецепты и существенно консолидировать свои сценарии за счет накопления и улучшения оценок. Обратите внимание, что это довольно экспериментальный вариант, поэтому может оказаться не так хорошо, как ожидалось. Рекомендую использовать такие параметры генерации: температура=0,6, топк=20, топп=0,95, минп=0`. Направление отказа рассчитывается путем сравнения остаточных потоков между целевыми (вредными) и базовыми (безвредными) образцами. Скрытые состояния целевых модулей (например, o_proj) ортогонализуются, чтобы вычесть это направление отказа с заданным весовым коэффициентом. Эти весовые коэффициенты имеют нормальное распределение с определенным разбросом и пиковым слоем. Модули можно итеративно ортогонализировать партиями, а направление отказа можно аккумулировать, чтобы сэкономить…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: mlabonne
Теги: qwen3, abliteration, abliterated, conversational, text-generation-inference, endpoints_compatible
Лайков: 17 | Загрузок: 1,398

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

M4-ai/TinyMistral-6x248M

TinyMistral-6x248M — это смесь экспертов (MoE), созданная с использованием следующих моделей с использованием LazyMergekit: Locutusque/TinyMistral-248M-v2 Locutusque/TinyMistral-248M-v2.5 Locutusque/TinyMistral-248M-v2.5-Instruct jtatman/tinymistral-v2-pycoder-instruct-248m...

Генерация текста

meta-llama/Llama-3.1-405B-Instruct-FP8

Коллекция многоязычных моделей больших языков (LLM) Meta Llama 3.1 представляет собой коллекцию предварительно обученных и настроенных на инструкции...

Генерация текста

DataPilot/ArrowIdeative-13b-NeoBase-ZERO-llm-jp-v0.1

ArrowIdeative-13b-NeoBase-ZERO-llm-jp は、ベースモデルからGRPO（RL）だけで事後学習を行うことを主軸に設計された、日本語向けLLMです。狙いとしては、典型的な「強い指示追従(Instruct)」に寄せ切らず、ベースモデル寄りの“出力の自由度”を残しつつ、チャット運用に最低限必要な形式順守と、回答品質の底上げを同時に実現することです。 — 「ある程度プロンプトエンジニアリングが効くベースモデル」 — ただし完全なInstructモデルではない(過剰な同調・過剰な定型化を狙っていない) — Набор данных: TeamDelta/bare-ja-v0.1 の質問（プロンプト）部分のみを一部利用 https://huggingface.co/datasets/TeamDelta/bare-ja-v0.1 1.ベースモデル(Сарашина2-70b)）で質問/回答のたたき台を生成 2. Microsoft Фи-4-миниで品質キュレーション（選別・整形) 3. Многоязычный...

Генерация текста

mattshumer/Reflection-Llama-3.1-70B-ep2-working

Эпоха 2, все еще завершается эпоха 3. Она должна быть немного менее мощной, но все же довольно близкой...