Команда r плюс 모델을 이용하여 자체 구축한 RAG 특화 데이터셋, CoT 데이터셋, 벤치마크 데이터셋으로 Qwen2.5 14B 모델을 Полная тонкая настройка 한 모델입니다. 해당 모델은 일반적인 RAG 서비스의 입력데이터에 대해서 정확한 답변과 답변 출처를 В качестве примера можно привести Json, который может использовать его для того, чтобы сделать это. 출력 키값은 아래와 같습니다. 1. «связанный документ» : 질문과 관련 있는 문서 docid, 제목 (ключ: 문서 번호, значение: 문서 제목) 2. «source»: 질문과 관련있는 문서 docid와 답변에 생성한 인용구 구절 3. «ответ» 의 값 : 출처를 표기하지 않은 3~6 문장 설명형 답변 4. «groundedответ» 의 값 : Answer과 동일하되 와 기호로 인용 출처를 명시한 답변 — 튜닝 환경 — H100 (80 ГБ) 8 — 파라미터 — tokenizermodelmexlength 4500 — useflashattn True — numtrainepochs 3.0 — Weightdecay 0.001 — lrschedulertype «линейный» — perdevicetrainbatchsize 1 — GradientaccumulationSteps 64 — скорость обучения 5e-06 — bf16 True — deepspeed ds_stage2.json – AIhub 16. Добавление новых изображений – AIhub 17. Добавление новых файлов – AIhub 21. 도서자료 기계독해 — AIhub 149 и 150 раз в неделю — AIhub 150 — AIhub 151 금융, 법률 문서 기계독해 데이터 — kyujinpy/KoCoT_2000 — MarkrAI/KoCommercial-Dataset — CarrotAI/ko-instruction-dataset — heegyu/CoT-collection-ko — 써로마인드 — 서울시 관악구 남부순환로 1802, 2층 — 02-872-5127 — contact@surromind.ai
Модальности:
Генерация текста
Области применения:
RAG (поиск + генерация)
Задача: Генерация текста
Автор: Surromind
Теги: RAG, Ko-LLM, QA, ko
Лайков: 14 | Загрузок: 18
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.