Tele-AI/TeleChat-12B

🤗 Hugging Face • 🏔 MindSpore️ • 🦉 github️ • 🐾 gitee️ • 💬 WeChat — 2024.3.20 开源12B版本chat模型及量化版本 — 2024.1.11开源1T中文数据集 — 2024.1.10 开源7B版本chat模型及其量化版本 -星辰语义大模型TeleChat是由中电信人工智能科技有限Автомобильный двигатель с двигателем 7B, двигатель с двигателем 1,5 дюйма Tokens中英文高质量语料进行训练，12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。 -我们开源了对话模型TeleChat-7B-bot 与TeleChat-12B-bot,以及其обнять gingface 格式的权重文件。此外，我们还开源了7B、12B 模型的int8 и int4 量化版本。 — TeleChat-12B-bot может быть использован в качестве защитного устройства, защитного кожуха, защитного кожуха, защитного кожуха.用问答和知识类、代码类、数学类榜单上相比TeleChat-7B-bot均有大幅提升。 -在模型结构方面,我们使用小规模的模型尝试多种模型结构的组合，选择最优结构。相比TeleChat-7B- бот-бот,TeleChat-12B-бот-бот-бот-бот,————————————————————————————————————————————————————————————————TeleChat-12B head层参数分开，有助于增强训练稳定性和收敛性。 -在训练数据方面,我们收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据；通过优化数据清洗策略大幅提升数据的文本干净度、观点无偏性、内容有效性、格式规范性。 -在训练方法方面,我们使用科学数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合，得到对各个数据集难度的先验估计；训练过程中每隔一段时间自动化评估当前模型在所有数据集上的loss, 以及在评测集上的生成效果，动态提升较难学习的数据集权重, 保证模型在各个数据集上都有较佳的拟合效果。 — 位置编码:我们使用 Rotary Embedding 的位置编码方法，该方法将相对位置信息依赖集成到 самообслуживание Flash-Attention v2.配合使用，将模型的训练速度提升约20%。 — 激活函数:我们使用 SwiGLU激活函数来替代GELU激活函数 ,为了减少计算量，将ffnhiddensize设置为小于原始SwiGLU中的4倍隐藏层大小。 — 层标准化: 基于 RMSNorm 的Предварительная нормализация. голова层参数分开，有助于增强训练稳定性和收敛性。…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Tele-AI
Теги: telechat, custom_code
Лайков: 11 | Загрузок: 795

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.