Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: TinyLlama — Исходная модель: Tinyllama 1.1B Chat v1.0 Этот репозиторий содержит файлы моделей AWQ для Tinyllama’s Tinyllama 1.1B Chat v1.0. Эти файлы были квантованы с использованием оборудования, любезно предоставленного Massed Compute. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ он обеспечивает более быстрый вывод на основе преобразователей с эквивалентным или лучшим качеством по сравнению с наиболее часто используемыми настройками GPTQ. Модели AWQ в настоящее время поддерживаются в Linux и Windows только с графическими процессорами NVidia. Пользователи macOS: вместо этого используйте модели GGUF. — Генерация текста Webui — с использованием загрузчика: AutoAWQ — vLLM — версия 0.2.2 или новее для поддержки всех типов моделей. — Вывод генерации текста обнимающего лица (TGI) — Transformers версии 4.35.0 и более поздних версий из любого кода или клиента, поддерживающего Transformers — AutoAWQ — для использования из моделей AWQ кода Python для вывода GPU. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. …
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: TheBloke
Теги: llama, conversational, en, text-generation-inference, 4-bit, awq
Лайков: 6 | Загрузок: 9,484
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.