Производитель Mistral и компания Mixtral-8x7B, производитель оборудования扩词表增量预训练,希望进一步促进中文自然语言处理社区对MoE模型的研究。我们扩充后的词表显著提高了模型对中文的编解码效率,并通过大规模开源语料对扩词表模型进行增量预训练, 使模型具备了强大的中文生成和理解能力。 >请注意,Chinese-Mixtral-8x7B仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容,请谨慎鉴别和使用生成的内容,请勿将生成的有害内容传播至互联网。 Китайский-Mixtral-8x7B支持完整的Mixtral-8x7B模型生态,包括使用vLLM、Flash Attention 2 进行加速,使用bitsandbytes进行模型量化等。以下是使用Chinese-Mixtral-8x7B进行推理的代码示例.请注意,Chinese-Mixtral-8x7B为基座模型,没有经过指令微调,因此指令遵循能力有限。您可以参考微调一节对模型进行微调。 — C-Eval: 一个全面的中文基础模型评估套件。它包含了13 948个多项选择题,涵盖了52个不同的学科和四个难度级别。 — CMMLU: 一个综合性的中文评估基准, 专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题。 — MMLU: 一个包含57个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集之一。 — HellaSwag: 一个极具挑战的英文NLI评测数据集,每一个问题都需要对上下文进行深入理解,而不能基于常识进行回答。根据Mistral发布的技术报告,Mixtral-8x7B在推理时将激活13B参数。下表为Китай se-Mixtral-8x7B в корпусе 13B, в котором используется 5-кадровая камера, которая работает в режиме 5-shot:在中文知识和理解方面,我们的Chinese-Mixtral-8x7B与TigerBot-13B-Ba se-v3性能相当。由于Chinese-Mixtral-8x7B的训练数据量仅为TigerBot-1 3B-Base-v3: 8%, китайская версия, китайская версия, Mixtral-8x. 7B 模型强大的性能,我们的Chinese-Mixtral-8x7B达到了各个扩词表模型的最强英文水平. >由于不同版本的评测脚本实现细节有细微差异,为了保证评测结果的一致性和公平性,我们的评测脚本统一使用EleutherAI发布的lm-evaluation-harness,commit хэш为28ec7fa。下表为各个扩词表模型的生成效果。由于部分模型的预训练语料未使用eostoken进行分隔, 我们采用了maxtokens =…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: HIT-SCIR
Теги: mixtral, model-index, text-generation-inference, endpoints_compatible
Лайков: 45 | Загрузок: 8,489
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.