AALF/gemma-2-27b-it-SimPO-37K - Каталог нейросетей
Генерация текста

AALF/gemma-2-27b-it-SimPO-37K

Добавлено:
AALF/gemma-2-27b-it-SimPO-37K

Сначала мы следовали платформе SimPO, чтобы применить генерацию данных о предпочтениях в соответствии с политикой к набору данных HuggingFaceH4/ultrafeedback_binarized, используя модель google/gemma-2-27b-it, используя RLHFlow/ArmoRM-Llama3-8B-v0.1 в качестве модели вознаграждения для аннотирования ответов. Затем мы выбрали подсказки, в которых выбранное вознаграждение было как минимум на 0,01 выше, чем отклоненное вознаграждение, в результате чего было получено 37 040 точек обучающих данных. Обучение модели проводилось с использованием графических процессоров 8x80G A800 с использованием SimPO и библиотеки справочников по выравниванию. Мы использовали deepspeedzerostage3 с разгрузкой оптимизатора на процессор. Конфигурации обучения были следующими:

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: AALF
Теги: gemma2, alignment-handbook, generated_from_trainer, conversational, text-generation-inference, endpoints_compatible
Лайков: 18  |  Загрузок: 31

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.