DataCanvas/Alaya-7B-Chat

九章云极DataCanvas重磅发布的元识大模型Alaya，在自主整理的高品质多语言数据集上训练了1.5T+ жетоны。首先在Обниматься Face开源了7B-Base и 7B-Chat版本,模型表现业内领先，知识丰富且富有时效性,最新数据覆盖2023年10月的内容。Ала ya-7B-Chat具备多轮对话、自我认知和偏见拒答的能力,能够完成知识问答、代码编写、信息提取、阅读理解、创意写作等多项语言任务。 Alaya-Chat基于Alaya-7B进行有监督微调（SFT）,微调数据量达500k+条,包含多领域的指令和对话数据。经过模型初筛和人工精筛,大幅提高微调数据品质,并且基于偏见语料对模型做了Красный Teaming — это команда, которую можно использовать для работы в команде.而成, 人工精筛可以进一步将其中不符合中文语法或使用习惯的劣质数据剔除。 + HHH(Полезный, Честный, Безвредный):助的、诚实的、无害健康的回答,我们精选了数万条3H对话数据。 +自我认知:模型对于自己的认知需要微调时提供相关信息,我们结合了人工编写和самообучение两种方式,生成了3k+条多样的自我认知数据,从各个角度帮助模型学习Алайя的基本信息 (т.е.,她的中文名、英文名…）。 + 偏见拒答:一定比例的Red Team 数据可以减少模型的毒性输出，对于用户的错误引导做出拒答。我们使用了5k+偏见Red Командные команды, команда, команда, команда, команда, команда, команда, команда, команда, команда, команда, команда. 。 +通用知识:我们使用了针对知识内容问答的数据集,增强模型作为知识助手的能力,让模型能够给出有效知识含量更高的回答。 +逻辑推断:CoT可以帮助模型提升推理能力,我们使用了中英双语的C oT 数据数万条, 同时也整理了代码、数学等领域的逻辑推理对话数据集。 +角色扮演:日常使用场景中,角色扮演可以对模型回答的风格、领域等细节进行限制,一定程度上增强问答模型的垂直领域灵活性。科学设计的微调数据能够显著提升模型的问答能力,更加了解用户想要怎样的回答,提供更有效的帮助,并且不会对其在预训练阶段学习到的知识造成明显的负面影响。 Alaya 训练过程中已经采取多种措施进行数据的筛选与过滤, 尽可能保证数据的合法合规, 但由于神经网络的黑盒本质，即使训练数据相对干净,模型还是可能生成一些错误的、不可预见的或难以干预的回答。请谨慎使用！请注意: + 请勿使用Alaya进行任何违反法律法规或是危害国家安全的活动 +请勿恶意引导Alaya生成不合适的回答 + 请勿使用Alaya侵犯他人或团体的权益 + Alaya 生成的文本不代表训练数据一定包含该信息，且不代表九章云极的立场…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: DataCanvas
Теги: mpt, custom_code, zh, en, text-generation-inference, endpoints_compatible
Лайков: 9 | Загрузок: 27

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TinyLlama/TinyLlama_v1.1_math_code

lmms-lab/llava-next-interleave-qwen-0.5b

TFMC/Japanese-Starling-ChatV-7B-GGUF

r1r21nb/qwen2.5-3b-instruct.Q4_K_M.gguf