Кими Линейный: выразительная и эффективная архитектура внимания > [!ВАЖНО] > В настоящее время я ищу открытые вакансии! 🤗 > Если вы считаете эту модель полезной или ищете талантливого инженера AI/LLM, свяжитесь со мной в LinkedIn: Аарьян Капур. > [!ВНИМАНИЕ] > Требуется экспериментальная сборка 🚧 > В этой модели используется архитектура Kimi Delta Attention (KDA), которая еще не поддерживается в основной ветке llama.cpp. > > Чтобы запустить этот GGUF, вам необходимо скомпилировать llama.cpp из PR #17592. > Попытка запустить это в стандартной сборке приведет к ошибкам. Этот репозиторий содержит экспериментальные файлы моделей формата GGUF для Kimi Linear 48B от Moonshot AI. Kimi Linear — это гибридная архитектура линейного внимания, разработанная для того, чтобы превосходить традиционные методы полного внимания в режимах длительного контекста и масштабирования. Он использует Kimi Delta Attention (KDA) и гибридную архитектуру (соотношение KDA к MLA 3:1) для сокращения использования памяти и повышения пропускной способности до 6 раз при работе с длинными последовательностями. Производительность и архитектура. Эта модель в настоящее время квантована до Q2K** (и других), чтобы соответствовать потребительскому оборудованию при тестировании правильности архитектуры. Несмотря на агрессивное квантование, первоначальные тесты показывают логику и…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: AaryanK
Теги: gguf, text-generation-inference, linear-attention, rnn, chat, experimental, conversational, en
Лайков: 10 | Загрузок: 259
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.