在完成了Llama2-chat 7B Китайский 和 Llama2-chat 13B Китайский 的训练后,我非常好奇能否直接基于Llama2-base系列直接进行SFT训练。这也是本模型仓库的初衷。但是在实际操作中,在用了原先chat模型的LoRA训练框架后,我发现基于Llama2 base的 LoRA Используйте DeepSpeed для уменьшения масштаба.操作,最终scale太小越界导致训练崩溃。我遍历了LR 1e-5 — 2e-4,ранг LoRA [4, 8, 64],LoRA Alpha [1,4,8,16,32],LoRA Выпадение [0.05, 0.1] ,Коэффициент прогрева [0.01, 0.03, 0.05]等超参数,均无法稳定训练。因此,本模型重新回归了全参数SFT 训练。其难以进行LoRA 训练的原因还待分析。 Основание LoRA и SFT 数据集上基于Llama2-base进行SFT训练成功的样例,因此我怀疑难以训练的原因可能是扩中文词表embedding导致训练难度大幅度提升。 После завершения обучения китайцев Llama2-chat 7B и Llama2-chat 13B я глубоко заинтригован возможностью проведения обучения SFT (Style-Fine-Tuning) непосредственно на базе серии Llama2-base. Это основная цель данного репозитория моделей. Однако на реальной практике я заметил, что проведение обучения LoRA на основе базовой модели Llama2 в рамках предыдущего проекта SFT Llama2-chat представляет значительные проблемы в достижении конвергенции. Взрыв градиента происходит на каждом этапе обучения и приводит к уменьшению масштаба операций в Deepspeed. В конце концов, масштаб оказывается слишком маленьким и выходит за пределы, что приводит к сбою обучения. У меня есть…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: RicardoLee
Теги: llama, llama2, llama2-base, llama2-base-7B, zh, en, text-generation-inference, endpoints_compatible
Лайков: 11 | Загрузок: 21
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.