Исходная модель: bosonai/Higgs-Llama-3-70B Исходный тип dtype: FP32 (float32) Квантизация: llama.cpp b3091 Набор данных IMatrix: здесь — Файлы — IMatrix — Общие кванты — Все кванты — Загрузка с помощью Huggingface-cli — Вывод — Простой шаблон чата — Шаблон чата с системным приглашением — Llama.cpp — Часто задаваемые вопросы — Почему IMatrix не применяется везде? — Как мне объединить разделенный GGUF? —— | ———- | ——— | —— | ———— | ——— | Если файл модели большой, он разделен на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Согласно этому исследованию, оказывается, что низкие квантования — единственные, которые получают выгоду от входных данных imatrix (согласно результатам hellaswag). 1. Убедитесь, что у вас есть gguf-split — Чтобы получить gguf-split, перейдите по адресу https://github.com/ggerganov/llama.cpp/releases — Загрузите соответствующий zip-архив для вашей системы из последней версии — Разархивируйте архив, и вы сможете найти gguf-split 2. Найдите папку фрагментов GGUF (например: Higgs-Llama-3-70B.Q80) 3. Запустите gguf-split —merge Higgs-Llama-3-70B.Q80/Higgs-Llama-3-70B.Q80-00001-of-XXXXX.gguf Higgs-Llama-3-70B.Q80.gguf — Обязательно укажите gguf-split на первый…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: legraphista
Теги: gguf, quantized, GGUF, imatrix, quantization, imat, static, 16bit
Лайков: 8 | Загрузок: 349
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.