После первоначального успеха GLM-4.5-Air-Derestricted мы подумали, что было бы интересно попробовать снять ограничения с одной из самых известных ограничительных моделей — gpt-oss-120b. gpt-oss-120b-Derestricted — это версия openai/gpt-oss-120b с ограниченными ограничениями, созданная Arli AI. Наша цель в этом выпуске — предоставить версию модели, в которой устранено поведение отказа, сохраняя при этом высокопроизводительные рассуждения оригинального gpt-oss-120b. Это отличается от обычной аблитерации, которая часто непреднамеренно «лоботомизирует» модель. Чтобы добиться этого, Arli AI использовала сохраняющую норму двухпроекционную аблитерацию, усовершенствованную технику, впервые разработанную Джимом Лаем (grimjim). Полную техническую информацию вы можете прочитать в этой статье. Стандартная аблитерация работает путем простого вычитания «вектора отказа» из весов модели. Хотя это позволяет снять цензуру с модели, с математической точки зрения это беспринципно. Он изменяет величину (или «громкость») нейронов, разрушая тонкие нормы функций, которые модель усвоила во время обучения. Именно из-за этого ущерба многие модели без цензуры страдают от ухудшенной логики или галлюцинаций. Эта модель была модифицирована с использованием трехэтапного подхода, который устраняет отказы, не нарушая…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: ArliAI
Теги: gpt_oss, abliterated, derestricted, gpt-oss-120b, openai, unlimited, uncensored, conversational
Лайков: 79 | Загрузок: 2,315
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.