legraphista/Higgs-Llama-3-70B-IMat-GGUF

Исходная модель: bosonai/Higgs-Llama-3-70B Исходный тип dtype: FP32 (float32) Квантизация: llama.cpp b3091 Набор данных IMatrix: здесь — Файлы — IMatrix — Общие кванты — Все кванты — Загрузка с помощью Huggingface-cli — Вывод — Простой шаблон чата — Шаблон чата с системным приглашением — Llama.cpp — Часто задаваемые вопросы — Почему IMatrix не применяется везде? — Как мне объединить разделенный GGUF? —— | ———- | ——— | —— | ———— | ——— | Если файл модели большой, он разделен на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Согласно этому исследованию, оказывается, что низкие квантования — единственные, которые получают выгоду от входных данных imatrix (согласно результатам hellaswag). 1. Убедитесь, что у вас есть gguf-split — Чтобы получить gguf-split, перейдите по адресу https://github.com/ggerganov/llama.cpp/releases — Загрузите соответствующий zip-архив для вашей системы из последней версии — Разархивируйте архив, и вы сможете найти gguf-split 2. Найдите папку фрагментов GGUF (например: Higgs-Llama-3-70B.Q80) 3. Запустите gguf-split —merge Higgs-Llama-3-70B.Q80/Higgs-Llama-3-70B.Q80-00001-of-XXXXX.gguf Higgs-Llama-3-70B.Q80.gguf — Обязательно укажите gguf-split на первый…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: legraphista
Теги: gguf, quantized, GGUF, imatrix, quantization, imat, static, 16bit
Лайков: 8 | Загрузок: 349

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Trelis/Llama-2-7b-chat-hf-sharded-bf16

unsloth/MiniMax-M2.1-GGUF

PygmalionAI/pygmalion-7b

Qwen/Qwen1.5-0.5B-Chat-GGUF