Иматричное квантование Llama.cpp Writer/Palmyra-Fin-70B-32K Исходная модель: Writer/Palmyra-Fin-70B-32K Исходный тип dtype: BF16 (bfloat16) Квантование: llama.cpp b3504 Набор данных IMatrix: здесь — Файлы — IMatrix — Общие кванты — Все кванты — Загрузка с помощью Huggingface-cli — Вывод — Простой шаблон чата — Шаблон чата с системной подсказкой — Llama.cpp — Часто задаваемые вопросы — Почему IMatrix не применяется везде? — Как мне объединить разделенный GGUF? —— | ———- | ——— | —— | ———— | ——— | Если файл модели большой, он разделен на несколько файлов. Чтобы загрузить их все в локальную папку, запустите: Согласно этому исследованию, оказывается, что низкие квантования — единственные, которые получают выгоду от входных данных imatrix (согласно результатам hellaswag). 1. Убедитесь, что у вас есть gguf-split — Чтобы получить gguf-split, перейдите по адресу https://github.com/ggerganov/llama.cpp/releases — Загрузите соответствующий zip-архив для вашей системы из последней версии — Разархивируйте архив, и вы сможете найти gguf-split 2. Найдите папку фрагментов GGUF (например: Palmyra-Fin-70B-32K.Q80) 3. Запустите gguf-split —merge Palmyra-Fin-70B-32K.Q80/Palmyra-Fin-70B-32K.Q80-00001-of-XXXXX.gguf…
Модальности:
Генерация текста
Области применения:
Следование инструкциям Диалог / чат Финансы
Задача: Генерация текста
Автор: legraphista
Теги: gguf, instruct, finance, stock market, candlesticks, FinGPT, option trading, future stock prediction
Лайков: 10 | Загрузок: 939
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.