Исходная модель: https://huggingface.co/microsoft/WizardLM-2-7B Все количественные расчеты выполнены с использованием опции imatrix с набором данных, предоставленным Kalomaze здесь. Отличная статья с диаграммами, показывающими различные характеристики, предоставлена Artefact2 здесь. Первое, что нужно выяснить, это насколько большую модель вы можете запустить. Для этого вам нужно выяснить, сколько у вас оперативной и/или видеопамяти. Если вы хотите, чтобы ваша модель работала как можно БЫСТРО, вам нужно поместить все это в видеопамять вашего графического процессора. Стремитесь к квантованию с размером файла на 1–2 ГБ меньше, чем общий объем видеопамяти вашего графического процессора. Если вам нужно абсолютно максимальное качество, сложите вместе оперативную память вашей системы и видеопамять вашего графического процессора, а затем аналогичным образом возьмите квант с размером файла на 1–2 ГБ меньше, чем эта общая сумма. Далее вам нужно будет решить, хотите ли вы использовать «I-квант» или «K-квант». Если не хотите слишком много думать, возьмите один из К-квантов. Они имеют формат QXKX, например Q5KM. Если вы хотите больше узнать о сорняках, вы можете ознакомиться с этой чрезвычайно полезной функциональной таблицей: Но, по сути, если вы стремитесь к результату ниже четвертого квартала и используете cuBLAS (Nvidia) или rocBLAS (AMD), вам следует обратить внимание на I-quants. Они имеют формат IQXX, например IQ3M. Они новее и предлагают лучшее…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: bartowski
Теги: gguf, endpoints_compatible
Лайков: 27 | Загрузок: 204
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.