TheBloke/zephyr-7B-beta-AWQ - Каталог нейросетей
Генерация текста

TheBloke/zephyr-7B-beta-AWQ

Добавлено:
TheBloke/zephyr-7B-beta-AWQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: Hugging Face H4 — Исходная модель: Zephyr 7B Beta Этот репозиторий содержит файлы моделей AWQ для бета-версии Hugging Face H4 Zephyr 7B. Эти файлы были квантованы с использованием оборудования, любезно предоставленного Massed Compute. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ он обеспечивает более быстрый вывод на основе преобразователей с эквивалентным или лучшим качеством по сравнению с наиболее часто используемыми настройками GPTQ. — Генерация текста Webui — с использованием загрузчика: AutoAWQ — vLLM — Только модели Llama и Mistral — Вывод генерации текста Hugging Face (TGI) — AutoAWQ — для использования из моделей AWQ кода Python для вывода на графическом процессоре. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. 2, 3, 4, 5, 6 и 8-битные модели GGUF для вывода CPU+GPU. Исходная неквантованная модель fp16 Hugging Face H4 в формате pytorch, для вывода GPU и дальнейших преобразований. Для моего первого выпуска моделей AWQ я выпускаю только модели 128g. Я буду…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: TheBloke
Теги: mistral, generated_from_trainer, conversational, en, text-generation-inference, 4-bit, awq
Лайков: 39  |  Загрузок: 3,069

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.