RicardoLee/Llama2-base-7B-Chinese-50W-Full2LoRA

在完成了Llama2-chat 7B Китайский 和 Llama2-chat 13B Китайский 的训练后,我非常好奇能否直接基于Llama2-base系列直接进行SFT训练。这也是本模型仓库的初衷。但是在实际操作中，在用了原先chat模型的LoRA训练框架后,我发现基于Llama2 base的 LoRA Используйте DeepSpeed для уменьшения масштаба.操作，最终scale太小越界导致训练崩溃。我遍历了LR 1e-5 — 2e-4，ранг LoRA [4, 8, 64]，LoRA Alpha [1,4,8,16,32]，LoRA Dropout [0.05, 0.1] ，Коэффициент прогрева [0.01, 0.03, 0.05] epoch的全量训练Llama2-base-7B-Chinese-50W-pre_release，然后在其上进行LoRA训练得到本模型仓库的模型. Основание LoRA и SFT 数据集上基于Llama2-base进行SFT训练成功的样例,因此我怀疑难以训练的原因可能是扩中文词表embedding导致训练难度大幅度提升。 После завершения обучения китайцев Llama2-chat 7B и Llama2-chat 13B я глубоко заинтригован возможностью проведения обучения SFT (Style-Fine-Tuning) непосредственно на базе серии Llama2-base. Это основная цель данного репозитория моделей. Однако на реальной практике я заметил, что проведение обучения LoRA на основе базовой модели Llama2 в рамках предыдущего проекта SFT Llama2-chat представляет значительные проблемы в достижении конвергенции. Взрыв градиента происходит на каждом этапе обучения и приводит к уменьшению масштаба операций в Deepspeed. В конце концов, масштаб слишком мал и выходит за рамки…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: RicardoLee
Теги: llama, llama2, llama2-base, llama2-base-7B, zh, en, text-generation-inference, endpoints_compatible
Лайков: 9 | Загрузок: 14

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

MuXodious/GLM-4.7-Flash-REAP-23B-A3B-absolute-heresy-GGUF

olivierdehaene/optimized-santacoder

YOYO-AI/Qwen3-30B-A3B-YOYO-V3

rombodawg/Rombos-LLM-V2.5-Qwen-72b