TheBloke/Llama-2-13B-AWQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z). AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, в настоящее время поддерживающий 4-битное квантование. По сравнению с GPTQ, он предлагает более быстрый вывод на основе преобразователей. Теперь он также поддерживается сервером непрерывной пакетной обработки vLLM, что позволяет использовать модели AWQ для высокопроизводительного параллельного вывода в сценариях с многопользовательским сервером. Обратите внимание, что на момент написания общая пропускная способность все еще ниже, чем при использовании vLLM с неквантованными моделями, однако использование AWQ позволяет использовать гораздо меньшие графические процессоры, что может привести к более простому развертыванию и общей экономии затрат. Например, модель 70B может работать на одном графическом процессоре емкостью 48 ГБ вместо двух графических процессоров по 80 ГБ. Модель(и) AWQ для вывода с помощью графического процессора. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. 2, 3, 4, 5, 6 и 8-битные модели GGUF для вывода CPU+GPU. Оригинальная неквантованная модель fp16 Meta в формате pytorch, для вывода GPU и дальнейших преобразований. Для моего первого выпуска моделей AWQ я выпускаю только модели 128g. Я рассмотрю возможность добавления 32 г как…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: TheBloke
Теги: llama, facebook, meta, llama-2, en, text-generation-inference, 4-bit, awq
Лайков: 14 | Загрузок: 940

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Doctor-Shotgun/cat-v1.0-13b

tokyotech-llm/Swallow-13b-hf

bartowski/cognitivecomputations_Dolphin3.0-R1-Mistral-24B-GGUF

DavidCatalano/calme-3.2-instruct-78b-exl2