bartowski/Apollo-2.0-Llama-3.1-8B-GGUF

Исходная модель: https://huggingface.co/Locutusque/Apollo-2.0-Llama-3.1-8B Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) представляют собой стандартный метод квантования, в котором вложения и выходные веса квантуются до Q8_0 вместо того, что обычно используется по умолчанию. Некоторые говорят, что это улучшает качество, другие не замечают никакой разницы. Если вы используете эти модели, ПОЖАЛУЙСТА, КОММЕНТИРУЙТЕ свои выводы. Мне бы хотелось узнать, что они действительно используются и полезны, поэтому я не буду продолжать загружать количественные данные, которые никто не использует. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, выполните: Вы можете либо указать новый локальный каталог (Apollo-2.0-Llama-3.1-8B-Q8_0), либо загрузить их все на месте (./). Если вы используете чип ARM, кванты Q40XX будут иметь существенное ускорение. Ознакомьтесь со сравнением скорости Q4044 в исходном запросе на включение. Чтобы проверить, какой из них лучше всего подойдет для вашего чипа ARM, вы можете проверить функции AArch64 SoC (спасибо EloyOn!). Отличная статья с диаграммами, показывающими различные характеристики, предоставлена Artefact2 здесь. Первое, что нужно выяснить, это насколько большую модель вы можете запустить. Для этого вам нужно выяснить, сколько оперативной памяти и/или…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: bartowski
Теги: gguf, not-for-all-audiences, en, endpoints_compatible
Лайков: 7 | Загрузок: 990

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

facebook/MobileLLM-R1-360M-base

mlx-community/Qwen3-Coder-Next-8bit

QuixiAI/samantha-33b

LangAGI-Lab/DOCTOR