JosephusCheung/GuanacoOnConsumerHardware

Этот репозиторий предназначен для модели Гуанако с 4-битными квантованными весами. В модели используются два новых метода, представленных GPTQ: квантование столбцов в порядке уменьшения размера активации и выполнение последовательного квантования в одном блоке Transformer. Эти инновации позволяют компактным многоязычным моделям потребительского уровня эффективно функционировать. Цель модели Гуанако — предоставить минимальную многоязычную разговорную модель, способную обрабатывать простые взаимодействия вопросов и ответов, с полным пониманием грамматики, богатым словарным запасом и стабильностью, аналогичной крупномасштабным языковым моделям, для использования в качестве интерфейса человек-компьютер. Однако из-за ограничений потребительского оборудования модели с уровнем производительности ChatGPT3.5/GPT4 не могут работать независимо. Наша модель с уменьшенным количеством параметров все еще может работать на аппаратном обеспечении старых поколений, требующем менее 6 ГБ памяти после 4-битного квантования. Единственным ограничением является скорость, которая зависит от фактической конфигурации оборудования. Вместо того, чтобы конкурировать с большими моделями, такими как ChatGPT, мы придерживаемся другого подхода: функционально завершенной языковой модели без каких-либо присущих знаний или…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: JosephusCheung
Теги: llama, endpoints_compatible
Лайков: 55 | Загрузок: 13

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

mlabonne/OrcaGemma-2B

lazy-guy12/chess-llama

Qwen/Qwen-1_8B-Chat

bartowski/granite-20b-code-instruct-GGUF