LoganResearch/ARC-Base-8B

Поведенческое вмешательство во время декодирования с помощью контрастного мышления (CF-HoT) > Мы наблюдаем, что языковые модели, ориентированные на RLHF, часто тратят значительную часть своего токенового бюджета на изученные поведенческие модели (хеджирование, подхалимство, многословие, повторение). Эти шаблоны можно обнаружить в скрытых состояниях, прежде чем они проявятся в виде токенов. ARC перехватывает и подавляет их во время декодирования с помощью головки обнаружения повторений, обеспечивающей разделение классов в 125 раз, что указывает на высокую предсказуемость состояний, склонных к повторению, на основе внутренних представлений. Наш ключевой вывод: режимы поведенческих отказов линейно разделимы в 16-мерной проекции скрытых состояний трансформатора, что позволяет осуществлять вмешательство в режиме реального времени с минимальными вычислительными затратами. — Снижение количества повторений на 91 % — Улучшение плотности информации на 38 % (эвристическая оценка) — Мы наблюдаем несколько закономерностей, в которых используются токены без пропорционального получения информации: — Декларации идентичности — Расплывчатые заявления о возможностях — Фразы, требующие одобрения — Избыточные приглашения Это поведенческий паттерн RLHF: заученные ответы, которые хорошо оцениваются в моделях вознаграждения, но могут снизить плотность информации. Основная идея: поведенческие…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: LoganResearch
Теги: llama, hermes, cognitive-control, decode-time-intervention, repetition-suppression, behavioral-control, contrastive-learning, interpretability
Лайков: 7 | Загрузок: 32

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

prism-ml/Bonsai-1.7B-mlx-1bit

ibm-granite/granite-3.3-8b-base

bartowski/OLMo-2-1124-13B-Instruct-GGUF

RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a16