Исходная модель: https://huggingface.co/allenai/OLMo-2-1124-13B-Instruct Они были созданы путем исправления pre_processor tokenizer.json с использованием процессора базовой модели. Некоторые из этих квантов (Q3KXL, Q4KL и т. д.) представляют собой стандартный метод квантования, в котором вложения и выходные веса квантуются до Q8_0 вместо того, что обычно используется по умолчанию. Если модель больше 50 ГБ, она будет разделена на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Вы можете либо указать новый локальный каталог (OLMo-2-1124-13B-Instruct-Q8_0), либо загрузить их все на месте (./). Щелкните, чтобы просмотреть информацию Q40XX. Это НЕ* для разгрузки Metal (Apple) или GPU (nvidia/AMD/intel), только чипов ARM (и некоторых процессоров AVX2/AVX512). Если вы используете чип ARM, кванты Q40XX будут иметь существенное ускорение. Ознакомьтесь со сравнением скорости Q4044 в исходном запросе на включение. Чтобы проверить, какой из них лучше всего подойдет для вашего чипа ARM, вы можете проверить функции AArch64 SoC (спасибо EloyOn!). Если вы используете процессор с поддержкой AVX2 или AVX512 (обычно это серверные процессоры и новейшие процессоры AMD Zen5) и не выполняете разгрузку на графический процессор, Q408_8 также может предложить хорошую скорость: Q408_8 предлагает приятный бонус для подсказки…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: bartowski
Теги: gguf, en, endpoints_compatible, conversational
Лайков: 16 | Загрузок: 834
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.