Исходная модель: https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-8B https://aitorrent.zerroug.de/bartowski-hermes-3-llama-3-1-8b-gguf/ Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) представляют собой стандартный метод квантования с вложениями и выходными весами, квантованными до Q8_0 вместо того, как обычно по умолчанию. Некоторые говорят, что это улучшает качество, другие не замечают никакой разницы. Если вы используете эти модели, ПОЖАЛУЙСТА, КОММЕНТИРУЙТЕ свои выводы. Мне бы хотелось узнать, что они действительно используются и полезны, поэтому я не буду продолжать загружать количественные данные, которые никто не использует. Спасибо kalomaze и Dampf за помощь в создании набора калибровочных данных imatrix. Спасибо ZeroWw за вдохновение поэкспериментировать с внедрением/выводом. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Вы можете либо указать новый локальный каталог (Hermes-3-Llama-3.1-8B-Q8_0), либо загрузить их все на месте (./). Artefact2 предоставляет отличную статью с диаграммами, показывающими различные характеристики. Первое, что нужно выяснить, это насколько большую модель вы можете запустить. Для этого вам нужно выяснить, сколько у вас оперативной и/или видеопамяти. Если ты хочешь…
Модальности:
Генерация текста
Области применения:
Следование инструкциям Диалог / чат
Задача: Генерация текста
Автор: bartowski
Теги: gguf, Llama-3, instruct, finetune, chatml, gpt4, synthetic data, distillation
Лайков: 15 | Загрузок: 5,050
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.