Сначала мы следовали платформе SimPO, чтобы применить генерацию данных о предпочтениях в соответствии с политикой к набору данных HuggingFaceH4/ultrafeedback_binarized, используя модель google/gemma-2-27b-it, используя RLHFlow/ArmoRM-Llama3-8B-v0.1 в качестве модели вознаграждения для аннотирования ответов. Затем мы выбрали подсказки, в которых выбранное вознаграждение было как минимум на 0,01 выше, чем отклоненное вознаграждение, в результате чего было получено 37 040 точек обучающих данных. Обучение модели проводилось с использованием графических процессоров 8x80G A800 с использованием SimPO и библиотеки справочников по выравниванию. Мы использовали deepspeedzerostage3 с разгрузкой оптимизатора на процессор. Конфигурации обучения были следующими:
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: AALF
Теги: gemma2, alignment-handbook, generated_from_trainer, conversational, text-generation-inference, endpoints_compatible
Лайков: 18 | Загрузок: 31
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.