Исходная модель: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) представляют собой стандартный метод квантования, в котором вложения и выходные веса квантуются до Q8_0 вместо того, что обычно используется по умолчанию. Некоторые говорят, что это улучшает качество, другие не замечают никакой разницы. Если вы используете эти модели, ПОЖАЛУЙСТА, КОММЕНТИРУЙТЕ свои выводы. Мне бы хотелось узнать, что они действительно используются и полезны, поэтому я не буду продолжать загружать количественные данные, которые никто не использует. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, выполните: Вы можете либо указать новый локальный каталог (Llama-3.2-3B-Instruct-Q8_0), либо загрузить их все на месте (./). Если вы используете чип ARM, кванты Q40XX будут иметь существенное ускорение. Ознакомьтесь со сравнением скорости Q4044 в исходном запросе на включение. Чтобы проверить, какой из них лучше всего подойдет для вашего чипа ARM, вы можете проверить функции AArch64 SoC (спасибо EloyOn!). Отличная статья с диаграммами, показывающими различные характеристики, предоставлена Artefact2 здесь. Первое, что нужно выяснить, это насколько большую модель вы можете запустить. Для этого вам нужно выяснить, сколько оперативной памяти и/или видеопамяти…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: bartowski
Теги: gguf, facebook, meta, llama, llama-3, en, de, fr
Лайков: 190 | Загрузок: 364,483
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.