Amu/spin-phi2

Эта модель представляет собой доработанную версию microsoft/phi-2 с использованием SPIN в наборе данных ultrachat_200k. Я думаю, что SPIN можно использовать не только в модели SFT, но и в предварительно обученной модели. Поэтому я использую SPIN на предварительно обученной модели microsoft/phi-2. И я получаю более высокий балл, чем исходная предварительно обученная модель. Вы можете проверить открытую таблицу лидеров llm. Но набор данных ultrachat_200k представляет собой набор данных выравнивания для модели sft. Я думаю, что для предварительно обученной модели следует использовать набор данных выравнивания. Я считаю, что лучшая парадигма для обучения диалоговой модели большого языка (LLM): pretrain -> dpo(spin) -> sft -> dpo(spin). Во время обучения использовались следующие гиперпараметры: — скорость обучения: 5e-07 — trainbatchsize: 1 — evalbatchsize: 1 — начальное число: 42 — распределенный тип: multi-GPU — numdevices: 8 -gradientaccumulationsteps: 8 — totaltrainbatchsize: 64 — totalevalbatchsize: 8 — оптимизатор: Адам с betas=(0,9,0,999) и epsilon=1e-08 — lrschedulertype: линейный — lrschedulerwarmupratio: 0,1 — num_epochs: 1 — Transformers 4.37.0 — Pytorch 2.1.2+cu121 — Наборы данных 2.14.6 — Токенизаторы 0.15.2

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Amu
Теги: phi, alignment-handbook, generated_from_trainer, conversational, custom_code, en, model-index, text-generation-inference
Лайков: 10 | Загрузок: 59

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

deepseek-ai/DeepSeek-V2-Chat

lightonai/alfred-40b-1023

openthaigpt/openthaigpt-1.0.0-beta-7b-chat-ckpt-hf

IDEA-CCNL/Ziya-Writing-LLaMa-13B-v1