TheBloke/Chronos-Hermes-13B-SuperHOT-8K-GPTQ - Каталог нейросетей
Генерация текста

TheBloke/Chronos-Hermes-13B-SuperHOT-8K-GPTQ

Добавлено:
TheBloke/Chronos-Hermes-13B-SuperHOT-8K-GPTQ

Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z). Эти файлы представляют собой файлы 4-битной модели GPTQ для Chronos Hermes 13B от Austism, объединенные с SuperHOT 8K Кайо Кена. Это результат квантования до 4 бит с использованием GPTQ-for-LLaMa. Это экспериментальный новый GPTQ, который предлагает размер контекста до 8 КБ. Увеличенный контекст протестирован для работы с ExLlama с помощью последней версии text-generation-webui. Он также был протестирован на коде Python с использованием AutoGPTQ иtrustremotecode=True. Авторы кода: — Оригинальная концепция и код для увеличения длины контекста: kaiokendev — Обновлен код моделирования Llama, который автоматически включает его через TrustRemotecode: emozilla. Версии GGML пока не предоставляются, поскольку в llama.cpp еще нет поддержки SuperHOT. Это расследуется и, надеюсь, скоро произойдет. 4-битные модели GPTQ для вывода с помощью графического процессора. 2, 3, 4, 5, 6 и 8-битные модели GGML для вывода с использованием ЦП. Неквантованная модель SuperHOT fp16 в формате pytorch, для вывода с помощью графического процессора и для дальнейших преобразований. Неквантованная базовая модель fp16 в формате pytorch, для вывода с помощью графического процессора и для дальнейшего…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: TheBloke
Теги: llama, custom_code, text-generation-inference, 4-bit, gptq
Лайков: 38  |  Загрузок: 9

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.