bartowski/Marco-o1-GGUF

Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) представляют собой стандартный метод квантования, в котором вложения и выходные веса квантуются до Q8_0 вместо того, что обычно используется по умолчанию. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Вы можете либо указать новый локальный каталог (Marco-o1-Q8_0), либо загрузить их все на месте (./). Щелкните, чтобы просмотреть информацию о Q40XX. Это НЕ* для разгрузки Metal (Apple) или GPU (nvidia/AMD/intel), только чипов ARM (и некоторых процессоров AVX2/AVX512). Если вы используете чип ARM, кванты Q40XX будут иметь существенное ускорение. Ознакомьтесь со сравнением скорости Q4044 в исходном запросе на включение. Чтобы проверить, какой из них лучше всего подойдет для вашего чипа ARM, вы можете проверить функции AArch64 SoC (спасибо EloyOn!). Если вы используете процессор с поддержкой AVX2 или AVX512 (обычно это серверные процессоры и новейшие процессоры AMD Zen5) и не выполняете разгрузку на графический процессор, Q408_8 также может предложить хорошую скорость: Q408_8 предлагает хороший прирост для оперативной обработки и небольшой прирост для генерации текста. Отличная статья с диаграммами, показывающими различные производительности, предоставлена Artefact2 здесь. Первое, что нужно выяснить, это насколько велик…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: bartowski
Теги: gguf, endpoints_compatible, conversational
Лайков: 46 | Загрузок: 561

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.