AALF/gemma-2-27b-it-SimPO-37K

Сначала мы следовали платформе SimPO, чтобы применить генерацию данных о предпочтениях в соответствии с политикой к набору данных HuggingFaceH4/ultrafeedback_binarized, используя модель google/gemma-2-27b-it, используя RLHFlow/ArmoRM-Llama3-8B-v0.1 в качестве модели вознаграждения для аннотирования ответов. Затем мы выбрали подсказки, в которых выбранное вознаграждение было как минимум на 0,01 выше, чем отклоненное вознаграждение, в результате чего было получено 37 040 точек обучающих данных. Обучение модели проводилось с использованием графических процессоров 8x80G A800 с использованием SimPO и библиотеки справочников по выравниванию. Мы использовали deepspeedzerostage3 с разгрузкой оптимизатора на процессор. Конфигурации обучения были следующими:

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: AALF
Теги: gemma2, alignment-handbook, generated_from_trainer, conversational, text-generation-inference, endpoints_compatible
Лайков: 18 | Загрузок: 31

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

minosu/godot_dodo_4x_60k_llama_13b

clibrain/Llama-2-ft-instruct-es

openaccess-ai-collective/mistral-7b-llava-1_5-pretrained-projector

unsloth/phi-4-GGUF