Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: Code Llama — Исходная модель: CodeLlama 70B Python. Этот репозиторий содержит файлы моделей AWQ для CodeLlama 70B Python от Code Llama. Эти файлы были квантованы с использованием оборудования, любезно предоставленного Massed Compute. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ он обеспечивает более быстрый вывод на основе преобразователей с эквивалентным или лучшим качеством по сравнению с наиболее часто используемыми настройками GPTQ. Модели AWQ в настоящее время поддерживаются в Linux и Windows только с графическими процессорами NVidia. Пользователи macOS: вместо этого используйте модели GGUF. — Генерация текста Webui — с использованием загрузчика: AutoAWQ — vLLM — версия 0.2.2 или новее для поддержки всех типов моделей. — Вывод генерации текста обнимающего лица (TGI) — Transformers версии 4.35.0 и более поздних версий из любого кода или клиента, поддерживающего Transformers — AutoAWQ — для использования из моделей AWQ кода Python для вывода GPU. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. 2, 3,…
Модальности:
Генерация текста
Области применения:
Генерация кода
Языки программирования:
Python
Задача: Генерация текста
Автор: TheBloke
Теги: llama, llama-2, code, text-generation-inference, 4-bit, awq
Лайков: 6 | Загрузок: 107
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.