Чат и поддержка: сервер Discord TheBloke Хотите внести свой вклад? Страница TheBloke на Patreon Работа TheBloke в области LLM щедро поддерживается грантом от Андреессена Горовица (a16z). Это 4-битная GPTQ-версия модели Chansung GPT4 Alpaca 30B LoRA. Он был создан путем слияния LoRA, представленного в приведенном выше репозитории, с исходной моделью Llama 30B, в результате чего была получена неквантованная модель GPT4-Alpaca-LoRA-30B-HF. Затем она была квантована до 4 бит, размер группы 128 г, с использованием GPTQ-for-LLaMa. Использование VRAM будет зависеть от возвращаемых токенов. Ниже примерно 1000 возвращенных токенов он будет использовать ОЗУ и использование VRAM в конце ответа 670 токенов в text-generation-webui: 5,2 ГБ ОЗУ, 20,7 ГБ видеопамяти ! Скриншот использования ОЗУ и видеопамяти. Использование ОЗУ и видеопамяти после примерно 1500 токенов: 5,2 ГБ ОЗУ, 30,0 ГБ видеопамяти ! снимок экрана Если вам нужна модель, которая всегда должна оставаться ниже 24 ГБ, вместо этого используйте этот, предоставленный MetalX: GPT4 Alpaca Lora 30B GPTQ 4 бита без размера группы. В настоящее время предоставляется один файл модели — Safetensors. Для этого файла требуется последняя версия кода GPTQ-for-LLaMa для запуска внутри oobaboogas text-generation-webui. Завтра я постараюсь добавить еще один файл, который не использует —act-order и, следовательно, может быть запущен в…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: TheBloke
Теги: llama, alpaca, chat, gpt4, text2text-generation, en, text-generation-inference, 4-bit
Лайков: 20 | Загрузок: 80
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.