TheBloke/TinyLlama-1.1B-Chat-v1.0-AWQ - Каталог нейросетей
Генерация текста

TheBloke/TinyLlama-1.1B-Chat-v1.0-AWQ

Добавлено:
TheBloke/TinyLlama-1.1B-Chat-v1.0-AWQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: TinyLlama — Исходная модель: Tinyllama 1.1B Chat v1.0 Этот репозиторий содержит файлы моделей AWQ для Tinyllama’s Tinyllama 1.1B Chat v1.0. Эти файлы были квантованы с использованием оборудования, любезно предоставленного Massed Compute. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ он обеспечивает более быстрый вывод на основе преобразователей с эквивалентным или лучшим качеством по сравнению с наиболее часто используемыми настройками GPTQ. Модели AWQ в настоящее время поддерживаются в Linux и Windows только с графическими процессорами NVidia. Пользователи macOS: вместо этого используйте модели GGUF. — Генерация текста Webui — с использованием загрузчика: AutoAWQ — vLLM — версия 0.2.2 или новее для поддержки всех типов моделей. — Вывод генерации текста обнимающего лица (TGI) — Transformers версии 4.35.0 и более поздних версий из любого кода или клиента, поддерживающего Transformers — AutoAWQ — для использования из моделей AWQ кода Python для вывода GPU. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. …

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: TheBloke
Теги: llama, conversational, en, text-generation-inference, 4-bit, awq
Лайков: 6  |  Загрузок: 9,484

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.