SimPO (Simple Preference Optimization) — это автономный алгоритм оптимизации предпочтений, предназначенный для улучшения обучения больших языковых моделей (LLM) с помощью наборов данных оптимизации предпочтений. SimPO согласовывает функцию вознаграждения с вероятностью генерации, устраняя необходимость в эталонной модели и включая целевую маржу вознаграждения для повышения производительности. Более подробную информацию можно найти в нашем препринте и репозитории GitHub. Мы доработали google/gemma-2-9b-it на Princeton-nlp/gemma2-ultrafeedback-armorm с целью SimPO. — Разработано: Юй Мэн, Мэнчжоу Ся, Даньци Чен — Тип модели: причинно-языковая модель — Лицензия: gemma — Точная настройка на основе модели: google/gemma-2-9b-it — Репозиторий: https://github.com/princeton-nlp/SimPO — Бумага: https://arxiv.org/pdf/2405.14734 Мы используем Princeton-nlp/gemma2-ultrafeedback-armorm в качестве набора данных для оптимизации предпочтений. Используемые гиперпараметры можно найти в сценарии обучения. Точная настройка google/gemma-2-9b-it на Princeton-nlp/gemma2-ultrafeedback-armorm занимает около 100 минут на графических процессорах 8xH100. Архитектура модели основана на google/gemma-2-9b-it. Мы используем цель обучения SimPO, предложенную в нашем препринте.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: princeton-nlp
Теги: gemma2, alignment-handbook, generated_from_trainer, conversational, text-generation-inference, endpoints_compatible
Лайков: 172 | Загрузок: 401
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.