bartowski/zai-org_GLM-4.7-Flash-GGUF

Исходная модель: https://huggingface.co/zai-org/GLM-4.7-Flash — llama.cpp — LM Studio — koboldcpp — Jan AI — Веб-интерфейс создания текста — LoLLMs Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) являются стандартным методом квантования с встраиванием и выходными весами, квантованными до Q8_0 вместо того, что обычно используется по умолчанию. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Вы можете либо указать новый локальный каталог (zai-orgGLM-4.7-Flash-Q80), либо загрузить их все на месте (./). Раньше вы загружали Q4044/48/8_8, и их веса чередовались в памяти, чтобы улучшить производительность на машинах ARM и AVX за счет загрузки большего количества данных за один проход. Однако сейчас существует так называемая «онлайн-переупаковка» весов. подробности в этом PR. Если вы используете Q4_0 и ваше оборудование выиграет от переупаковки весов, оно сделает это автоматически на лету. Начиная с сборки llama.cpp b4282, вы не сможете запускать файлы Q40XX, и вместо этого вам придется использовать Q40. Кроме того, если вы хотите получить немного лучшее качество для , вы можете использовать IQ4NL благодаря этому PR, который также переупаковает веса для…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: bartowski
Теги: gguf, en, zh, endpoints_compatible, imatrix, conversational
Лайков: 49 | Загрузок: 14,817

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

elyza/ELYZA-japanese-CodeLlama-7b-instruct

M4-ai/Hercules-Mini-1.8B

adalbertojunior/Llama-3-8B-Dolphin-Portuguese-v0.3

sophosympatheia/Strawberrylemonade-L3-70B-v1.2