Квантование GGUF meituan-longcat/LongCat-Flash-Lite для использования со специальной вилкой llama.cpp. > Требуется специальная вилка. В этой модели используется новая архитектура (MLA + MoE с экспертами по идентификации + внедрения N-грамм), которая не поддерживается исходным кодом llama.cpp. Вы должны выполнить сборку из ветки longcat-flash-ngram связанной вилки. LongCat-Flash-Lite — это языковая модель Mixture-of-Experts от Meituan с 68,5 млрд параметров, при этом на каждый токен активируется только 3–4,5 млрд параметров. Он сочетает в себе три архитектурные инновации, которые делают его необычайно эффективным: — Встраивание N-грамм дополняет стандартное встраивание токена контекстом соседних токенов — Многоголовое скрытое внимание (MLA) сжимает кэш KV для эффективного вывода длинного контекста — Эксперты по идентификации на уровне MoE позволяют токенам обходить экспертные вычисления через изученные остаточные пути. Два вышестоящих PR-заявителя на llama.cpp попытались добавить эту архитектуру: — PR #19167 (ngxson) — поддержка встраивания N-грамм, заблокирована из-за того, что базовая модель еще не поддерживается — PR #19182 (ngxson) — базовая архитектура LongCat-Flash, от которой отказались после того, как специалисты по сопровождению сочли экспертов по идентификации слишком сложными. Эта вилка реализует полную архитектуру в одном автономном дополнении…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: InquiringMinds-AI
Теги: gguf, llama-cpp, moe, mla, longcat, endpoints_compatible, conversational
Лайков: 7 | Загрузок: 1,284
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.