TheBloke/WizardLM-13B-V1-1-SuperHOT-8K-GPTQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z). Эти файлы представляют собой файлы 4-битной модели GPTQ для WizardLM 13B V1.1 от WizardLM, объединенные с SuperHOT 8K Кайо Кена. Это результат квантования до 4 бит с использованием GPTQ-for-LLaMa. Это экспериментальный новый GPTQ, который предлагает размер контекста до 8 КБ. Увеличенный контекст протестирован для работы с ExLlama с помощью последней версии text-generation-webui. Он также был протестирован на коде Python с использованием AutoGPTQ иtrustremotecode=True. Авторы кода: — Оригинальная концепция и код для увеличения длины контекста: kaiokendev — Обновлен код моделирования Llama, который автоматически включает его через TrustRemotecode: emozilla. 4-битные модели GPTQ для вывода графического процессора. 4-, 5- и 8-битные модели GGML для вывода ЦП. Неквантованная модель SuperHOT fp16 в формате pytorch, для вывода графического процессора и дальнейших преобразований. Неквантованная базовая модель fp16 в формате pytorch, для вывода графического процессора и для дальнейших преобразований. Убедитесь, что вы используете последнюю версию text-generation-webui 1. Перейдите на вкладку «Модель». 2. В разделе «Загрузить пользовательскую модель или LoRA» введите…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: TheBloke
Теги: llama, custom_code, text-generation-inference, 4-bit, gptq
Лайков: 46 | Загрузок: 803

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

hpcgroup/hpc-coder-v2-6.7b

Qwen/Qwen3-1.7B-FP8

unsloth/Qwen3-Coder-480B-A35B-Instruct-1M-GGUF

TheBloke/LLaMA-Pro-8B-Instruct-GPTQ