bartowski/Qwen2.5-Coder-1.5B-Instruct-GGUF

Исходная модель: https://huggingface.co/Qwen/Qwen2.5-Coder-1.5B-Instruct Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) представляют собой стандартный метод квантования, в котором вложения и выходные веса квантуются до Q8_0 вместо того, что обычно используется по умолчанию. Некоторые говорят, что это улучшает качество, другие не замечают никакой разницы. Если вы используете эти модели, ПОЖАЛУЙСТА, КОММЕНТИРУЙТЕ свои выводы. Я хотел бы получить отзывы о том, что они действительно используются и полезны, поэтому я не буду продолжать загружать количественные данные, которые никто не использует. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, выполните: Вы можете либо указать новый локальный каталог (Qwen2.5-Coder-1.5B-Instruct-Q8_0), либо загрузить их все на месте (./). Если вы используете чип ARM, кванты Q40XX будут иметь существенное ускорение. Ознакомьтесь со сравнением скорости Q4044 в исходном запросе на извлечение. Чтобы проверить, какой из них лучше всего подойдет для вашего чипа ARM, вы можете проверить функции AArch64 SoC (спасибо EloyOn!). Отличная статья с диаграммами, показывающими различные характеристики, предоставлена Artefact2 здесь. Первое, что нужно выяснить, это насколько большую модель вы можете запустить. Для этого вам нужно выяснить, сколько оперативной памяти и/или…

Модальности:
Генерация текста

Области применения:
Генерация кода Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: bartowski
Теги: gguf, code, codeqwen, chat, qwen, qwen-coder, en, endpoints_compatible
Лайков: 13 | Загрузок: 9,783

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

layoric/llama-2-13b-code-alpaca

lmstudio-community/Qwen3-32B-GGUF

cais/HarmBench-Mistral-7b-val-cls

MaziyarPanahi/Qwen2-1.5B-Instruct-GGUF