TheBloke/dolphin-2.1-mistral-7B-AWQ - Каталог нейросетей
Генерация текста

TheBloke/dolphin-2.1-mistral-7B-AWQ

Добавлено:
TheBloke/dolphin-2.1-mistral-7B-AWQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: Эрик Хартфорд — Оригинальная модель: Dolphin 2.1 Mistral 7B. Этот репозиторий содержит файлы моделей AWQ для Dolphin 2.1 Mistral 7B Эрика Хартфорда. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ, он предлагает более быстрый вывод на основе преобразователей. Теперь он также поддерживается сервером непрерывной пакетной обработки vLLM, что позволяет использовать модели Llama AWQ для высокопроизводительного параллельного вывода в сценариях с многопользовательским сервером. С 25 сентября 2023 года в Huggingface Text Generation Inference (TGI) также была добавлена ​​предварительная поддержка AWQ только для Llama. Обратите внимание, что на момент написания общая пропускная способность все еще ниже, чем при использовании vLLM или TGI с неквантованными моделями, однако использование AWQ позволяет использовать гораздо меньшие графические процессоры, что может привести к более простому развертыванию и общей экономии затрат. Например, модель 70B может работать на одном графическом процессоре емкостью 48 ГБ вместо двух графических процессоров по 80 ГБ. Модель(и) AWQ для вывода с помощью графического процессора. Модели GPTQ для вывода графического процессора с несколькими…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: TheBloke
Теги: mistral, conversational, en, text-generation-inference, 4-bit, awq
Лайков: 21  |  Загрузок: 59

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.