Qwen1.5 — это бета-версия Qwen2, языковой модели только для декодера на основе преобразователя, предварительно обученной на большом объеме данных. По сравнению с предыдущим выпущенным Qwen, улучшения включают: 8 размеров модели, включая плотные модели 0,5B, 1,8B, 4B, 7B, 14B, 32B и 72B, а также модель MoE 14B с активированным 2,7B; Значительное улучшение производительности при выборе людьми моделей чата; Многоязычная поддержка как базовой модели, так и модели чата; Стабильная поддержка длины контекста 32 КБ для моделей всех размеров. Нет необходимости в TrustRemotecode`. Более подробную информацию можно найти в нашем блоге и репозитории GitHub. Qwen1.5 — это серия языковых моделей, включающая языковые модели декодеров разных размеров. Для каждого размера мы выпускаем модель базового языка и согласованную модель чата. Он основан на архитектуре Transformer с активацией SwiGLU, смещением внимания QKV, вниманием к групповым запросам, сочетанием внимания скользящего окна и полного внимания и т. д. Кроме того, у нас есть улучшенный токенизатор, адаптивный к множеству естественных языков и кодов. Для бета-версии мы временно не включали GQA (кроме 32B) и смесь SWA и полного внимания. Мы предварительно обучили модели с большим…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Qwen
Теги: qwen2, chat, conversational, en, text-generation-inference, endpoints_compatible, 4-bit, gptq
Лайков: 7 | Загрузок: 145
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.