TheBloke/CodeLlama-70B-Python-AWQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: Code Llama — Исходная модель: CodeLlama 70B Python. Этот репозиторий содержит файлы моделей AWQ для CodeLlama 70B Python от Code Llama. Эти файлы были квантованы с использованием оборудования, любезно предоставленного Massed Compute. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ он обеспечивает более быстрый вывод на основе преобразователей с эквивалентным или лучшим качеством по сравнению с наиболее часто используемыми настройками GPTQ. Модели AWQ в настоящее время поддерживаются в Linux и Windows только с графическими процессорами NVidia. Пользователи macOS: вместо этого используйте модели GGUF. — Генерация текста Webui — с использованием загрузчика: AutoAWQ — vLLM — версия 0.2.2 или новее для поддержки всех типов моделей. — Вывод генерации текста обнимающего лица (TGI) — Transformers версии 4.35.0 и более поздних версий из любого кода или клиента, поддерживающего Transformers — AutoAWQ — для использования из моделей AWQ кода Python для вывода GPU. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. 2, 3,…

Модальности:
Генерация текста

Области применения:
Генерация кода

Языки программирования:
Python

Задача: Генерация текста
Автор: TheBloke
Теги: llama, llama-2, code, text-generation-inference, 4-bit, awq
Лайков: 6 | Загрузок: 107

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

OsaurusAI/DeepSeek-V4-Flash-JANGTQ2

stanford-crfm/BioMedLM

chargoddard/mixtralnt-4x7b-test

unsloth/dots.llm1.inst-GGUF