Исходная модель: https://huggingface.co/Nitral-AI/LyraGutenbergs-TwilightMagnum-12B Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) представляют собой стандартный метод квантования, в котором вложения и выходные веса квантуются до Q8_0 вместо того, что обычно используется по умолчанию. Некоторые говорят, что это улучшает качество, другие не замечают никакой разницы. Если вы используете эти модели, ПОЖАЛУЙСТА, КОММЕНТИРУЙТЕ свои выводы. Мне бы хотелось узнать, что они действительно используются и полезны, поэтому я не буду продолжать загружать количественные данные, которые никто не использует. Спасибо kalomaze и Dampf за помощь в создании набора калибровочных данных imatrix. Спасибо ZeroWw за вдохновение поэкспериментировать с внедрением/выводом. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Вы можете либо указать новый локальный каталог (LyraGutenbergs-TwilightMagnum-12B-Q8_0), либо загрузить их все на месте (./). Здесь Artefact2 предоставляет отличную статью с диаграммами, показывающими различные характеристики. Первое, что нужно выяснить, это насколько большую модель вы можете запустить. Для этого вам нужно выяснить, сколько у вас оперативной и/или видеопамяти. Если вы хотите, чтобы ваша модель работала как можно БЫСТРО, вам…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: bartowski
Теги: gguf, en, endpoints_compatible, conversational
Лайков: 7 | Загрузок: 666
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.