Эти файлы представляют собой файлы моделей формата GGUF для PermanentMind-v1.0 от UniversityOfTehran. Файлы GGUF предназначены для вывода CPU + GPU с использованием llama.cpp, а также библиотек и пользовательских интерфейсов, которые поддерживают этот формат, например: text-generation-webui KoboldCpp ParisNeo/GPT4All-UI llama-cpp-python * ctransformers Я использую следующую командную строку, настройте ее по своему вкусу и потребностям: Измените -t 2 на количество имеющихся у вас физических ядер ЦП. Например, если ваша система имеет 8 ядер/16 потоков, используйте -t 8. Измените -ngl 32 на количество слоев, которые нужно выгрузить на графический процессор. Удалите его, если у вас нет ускорения графического процессора. Если вы хотите вести разговор в стиле чата, замените аргумент -p на -i -ins, вы можете использовать —interactive-first для запуска в интерактивном режиме. Хотя модель выводит хороший персидский текст среди моделей с открытым исходным кодом, включение выборки или использование значений высокой температуры в llama.cpp приводит к тому, что модель выводит бессмысленный персидский текст, поэтому в настоящее время я использую его с низким значением температуры с шаблоном инструкций альпаки: я загрузил как оригинальные квантовые методы llama.cpp (q40, q41, q50, q51, q80), так и методы k-кванта (q2K, q3KS, q3KM, q3KL, q4KS, q4KM, q5KS, q6K`). Пожалуйста, обратитесь к llama.cpp и…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: asedmammad
Теги: gguf, llama, text-generation-inference, fa, en
Лайков: 7 | Загрузок: 393
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.