bartowski/Kwaipilot_KAT-Dev-72B-Exp-GGUF

Исходная модель: https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp Все кванты, созданные с использованием опции imatrix с набором данных отсюда, в сочетании с подмножеством complexallsmall.parquet от Эда Аддарио здесь. Запускайте их напрямую с помощью llama.cpp или любого другого проекта на основе llama.cpp. Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) являются стандартным методом квантования с встраиваниями и выводом. веса квантуются до Q8_0 вместо того, который обычно используется по умолчанию. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Вы можете либо указать новый локальный каталог (KwaipilotKAT-Dev-72B-Exp-Q80), либо загрузить их все на месте (./). Раньше вы загружали Q4044/48/8_8, и их веса чередовались в памяти, чтобы повысить производительность на машинах ARM и AVX за счет загрузки большего количества данных за один проход. Однако сейчас существует так называемая «онлайн-переупаковка» весов. подробности в этом PR. Если вы используете Q4_0 и ваше оборудование выиграет от переупаковки весов, оно сделает это автоматически на лету. Начиная с сборки llama.cpp b4282, вы не сможете запускать файлы Q40XX, и вместо этого вам придется использовать Q40.…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: bartowski
Теги: gguf
Лайков: 10 | Загрузок: 126

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Jackrong/Qwen3.5-27B-Gemini-3.1-Pro-Reasoning-Distill-GGUF

lmstudio-community/aya-expanse-32b-GGUF

meta-llama/Llama-2-13b

LiquidAI/LFM2.5-1.2B-Instruct-MLX-bf16