princeton-nlp/gemma-2-9b-it-SimPO

SimPO (Simple Preference Optimization) — это автономный алгоритм оптимизации предпочтений, предназначенный для улучшения обучения больших языковых моделей (LLM) с помощью наборов данных оптимизации предпочтений. SimPO согласовывает функцию вознаграждения с вероятностью генерации, устраняя необходимость в эталонной модели и включая целевую маржу вознаграждения для повышения производительности. Более подробную информацию можно найти в нашем препринте и репозитории GitHub. Мы доработали google/gemma-2-9b-it на Princeton-nlp/gemma2-ultrafeedback-armorm с целью SimPO. — Разработано: Юй Мэн, Мэнчжоу Ся, Даньци Чен — Тип модели: причинно-языковая модель — Лицензия: gemma — Точная настройка на основе модели: google/gemma-2-9b-it — Репозиторий: https://github.com/princeton-nlp/SimPO — Бумага: https://arxiv.org/pdf/2405.14734 Мы используем Princeton-nlp/gemma2-ultrafeedback-armorm в качестве набора данных для оптимизации предпочтений. Используемые гиперпараметры можно найти в сценарии обучения. Точная настройка google/gemma-2-9b-it на Princeton-nlp/gemma2-ultrafeedback-armorm занимает около 100 минут на графических процессорах 8xH100. Архитектура модели основана на google/gemma-2-9b-it. Мы используем цель обучения SimPO, предложенную в нашем препринте.

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: princeton-nlp
Теги: gemma2, alignment-handbook, generated_from_trainer, conversational, text-generation-inference, endpoints_compatible
Лайков: 172 | Загрузок: 401

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Qwen/Qwen2-57B-A14B-Instruct-GPTQ-Int4

mhenrichsen/danskgpt-tiny-chat

TheBloke/airoboros-13B-GPTQ

mykor/Midm-2.0-Mini-Instruct-gguf