bartowski/LongWriter-llama3.1-8b-GGUF

Исходная модель: https://huggingface.co/THUDM/LongWriter-llama3.1-8b Шаблон чата не указан, используйте следующее, указанное в карточке модели: Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) являются стандартным методом квантования с встраиваниями и выходными весами, квантованными до Q8_0 вместо того, что обычно используется по умолчанию. Некоторые говорят, что это улучшает качество, другие не замечают никакой разницы. Если вы используете эти модели, ПОЖАЛУЙСТА, КОММЕНТИРУЙТЕ свои выводы. Мне бы хотелось узнать, что они действительно используются и полезны, поэтому я не буду продолжать загружать количественные данные, которые никто не использует. Спасибо kalomaze и Dampf за помощь в создании набора калибровочных данных imatrix. Спасибо ZeroWw за вдохновение поэкспериментировать с внедрением/выводом. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Вы можете либо указать новый локальный каталог (LongWriter-llama3.1-8b-Q8_0), либо загрузить их все на месте (./). Artefact2 предоставляет отличную статью с диаграммами, показывающими различные характеристики. Первое, что нужно выяснить, это насколько большую модель вы можете запустить. Для этого вам нужно выяснить, сколько у вас оперативной и/или видеопамяти. Если ты хочешь…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: bartowski
Теги: gguf, Long Context, chatglm, llama, en, zh, endpoints_compatible
Лайков: 29 | Загрузок: 1,505

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

pankajmathur/orca_mini_3b

Vikhrmodels/Vikhr-Qwen-2.5-1.5B-Instruct-MLX_8bit

Qwen/Qwen2.5-Coder-7B-Instruct-GPTQ-Int4

Qwen/CodeQwen1.5-7B-Chat-AWQ