princeton-nlp/gemma-2-9b-it-DPO

Эта модель была обучена на той же установке, что и gemma-2-9b-it-SimPO, с целью DPO. SimPO (Simple Preference Optimization) — это автономный алгоритм оптимизации предпочтений, предназначенный для улучшения обучения больших языковых моделей (LLM) с помощью наборов данных оптимизации предпочтений. SimPO согласовывает функцию вознаграждения с вероятностью генерации, устраняя необходимость в эталонной модели и включая целевую маржу вознаграждения для повышения производительности. Более подробную информацию можно найти в нашем препринте и репозитории GitHub. Мы доработали google/gemma-2-9b-it на Princeton-nlp/gemma2-ultrafeedback-armorm с целью DPO. — Разработано: Юй Мэн, Мэнчжоу Ся, Даньци Чен — Тип модели: причинно-языковая модель — Лицензия: gemma — Точная настройка на основе модели: google/gemma-2-9b-it — Репозиторий: https://github.com/princeton-nlp/SimPO — Бумага: https://arxiv.org/pdf/2405.14734 Мы используем Princeton-nlp/gemma2-ultrafeedback-armorm в качестве набора данных для оптимизации предпочтений. Мы использовали следующие гиперпараметры: — скорость обучения: 5e-7 — размер пакета: 128 — бета: 0,01. Остальные гиперпараметры в нашем рецепте SimPO остались прежними. Точная настройка google/gemma-2-9b-it на Princeton-nlp/gemma2-ultrafeedback-armorm занимает…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: princeton-nlp
Теги: gemma2, alignment-handbook, generated_from_trainer, conversational, text-generation-inference, endpoints_compatible
Лайков: 9 | Загрузок: 21

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

anikifoss/DeepSeek-R1-0528-DQ4_K_R4

ibm-granite/granite-3.1-8b-base

alibidaran/Gemma2_Farsi

codellama/CodeLlama-70b-Instruct-hf