ArrowCanaria-Llama-8B-RL-v0.1
ArrowCanaria-Llama-8B-RL-v0.1 は、ArrowCanaria-Llama-8B-SFT-v0.1 に対して RLHF(Обучение с подкреплением у человека Обратная связь) SFTモデルは高品質なデータで学習されていますが、モデルの応答が「データに含まれる平Награда Модель)品質や知識応答の正確性・分かりやすさを、SFTの水準からさらに引き上げています。強化学習アルゴリズムには GRPO (Оптимизация относительной политики группы)を採用し、DAPO損失関数による安定した最適化を実現しています。相談応答と知識応答の2フェーズで段階的にRLHFを行うことで、SFTで獲得した雑談・RP・キャラクター対話能力を保持しつつ、応答の質を選択的に向上させています。 —...