Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z). Предоставляется несколько перестановок параметров GPTQ; Подробную информацию о предоставляемых опциях, их параметрах и программном обеспечении, использованном для их создания, см. ниже в разделе «Предоставленные файлы». Эти модели были квантованы с использованием оборудования, любезно предоставленного Latitude.sh. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. 2, 3, 4, 5, 6 и 8-битные модели GGML для вывода CPU+GPU * Неквантованная модель fp16 в формате pytorch, для вывода GPU и для дальнейших преобразований Предоставляется несколько параметров квантования, чтобы вы могли выбрать лучший для вашего оборудования и требований. Каждый отдельный квант находится в отдельной ветви. Ниже приведены инструкции по выборке из разных ветвей. — В text-generation-webui вы можете добавить :branch в конец имени загрузки, например TheBloke/vicuna-7B-v1.3-GPTQ:gptq-4bit-32g-actorderTrue` — С помощью Git вы можете клонировать ветку с помощью: — В коде Python Transformers ветка является параметром версии; см. ниже. Пожалуйста, убедитесь, что вы используете последнюю версию…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: TheBloke
Теги: llama, text-generation-inference, 4-bit, gptq
Лайков: 16 | Загрузок: 71
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.