LLaMa 65B конвертируется в ggml через LLaMa.cpp, а затем квантуется до 4 бит. Legacy предназначен для настроек llama.cpp старше https://github.com/ggerganov/llama.cpp/pull/1508, обычный вариант быстрее, но не работает в старых версиях. Я рекомендую следующие настройки при запуске в качестве хорошей отправной точки: Имейте в виду, что LLaMa — это модель генерации текста, а не диалоговая модель, и поэтому вам придется запрашивать ее иначе, чем, например, Vicuna или ChatGPT.
Модальности:
Генерация текста
Задача: Генерация текста
Автор: CRD716
Теги: LLaMa, text-generation-inference, ggml, en, bg, ca, cs, da
Лайков: 30 | Загрузок: 0
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.