Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: Эрик Хартфорд — Оригинальная модель: Dolphin 2.1 Mistral 7B. Этот репозиторий содержит файлы моделей AWQ для Dolphin 2.1 Mistral 7B Эрика Хартфорда. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ, он предлагает более быстрый вывод на основе преобразователей. Теперь он также поддерживается сервером непрерывной пакетной обработки vLLM, что позволяет использовать модели Llama AWQ для высокопроизводительного параллельного вывода в сценариях с многопользовательским сервером. С 25 сентября 2023 года в Huggingface Text Generation Inference (TGI) также была добавлена предварительная поддержка AWQ только для Llama. Обратите внимание, что на момент написания общая пропускная способность все еще ниже, чем при использовании vLLM или TGI с неквантованными моделями, однако использование AWQ позволяет использовать гораздо меньшие графические процессоры, что может привести к более простому развертыванию и общей экономии затрат. Например, модель 70B может работать на одном графическом процессоре емкостью 48 ГБ вместо двух графических процессоров по 80 ГБ. Модель(и) AWQ для вывода с помощью графического процессора. Модели GPTQ для вывода графического процессора с несколькими…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: TheBloke
Теги: mistral, conversational, en, text-generation-inference, 4-bit, awq
Лайков: 21 | Загрузок: 59
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.