TheBloke/TinyLlama-1.1B-Chat-v1.0-AWQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z) — Создатель модели: TinyLlama — Исходная модель: Tinyllama 1.1B Chat v1.0 Этот репозиторий содержит файлы моделей AWQ для Tinyllama’s Tinyllama 1.1B Chat v1.0. Эти файлы были квантованы с использованием оборудования, любезно предоставленного Massed Compute. AWQ — это эффективный, точный и невероятно быстрый метод квантования с низким весом, который в настоящее время поддерживает 4-битное квантование. По сравнению с GPTQ он обеспечивает более быстрый вывод на основе преобразователей с эквивалентным или лучшим качеством по сравнению с наиболее часто используемыми настройками GPTQ. Модели AWQ в настоящее время поддерживаются в Linux и Windows только с графическими процессорами NVidia. Пользователи macOS: вместо этого используйте модели GGUF. — Генерация текста Webui — с использованием загрузчика: AutoAWQ — vLLM — версия 0.2.2 или новее для поддержки всех типов моделей. — Вывод генерации текста обнимающего лица (TGI) — Transformers версии 4.35.0 и более поздних версий из любого кода или клиента, поддерживающего Transformers — AutoAWQ — для использования из моделей AWQ кода Python для вывода GPU. Модели GPTQ для вывода графического процессора с несколькими вариантами параметров квантования. …

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: TheBloke
Теги: llama, conversational, en, text-generation-inference, 4-bit, awq
Лайков: 6 | Загрузок: 9,484

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

NousResearch/DeepHermes-Financial-Fundamentals-Prediction-Specialist-Atropos

CohereLabs/c4ai-command-a-03-2025

Vikhrmodels/Qwen2.5-7B-Instruct-Tool-Planning-v0.1

UCLA-AGI/Gemma-2-9B-It-SPPO-Iter3