Чтобы загрузить 4-битные модели с трансформерами и битсэндбайтами, вам необходимо установить ускорение и трансформеры из исходного кода и убедиться, что у вас установлена последняя версия библиотеки битсандбайтов (0.39.0). Если вы хотите настроить модель на новом экземпляре. Вы можете запустить setup.sh, чтобы установить пакет Python и cuda. Параметры квантования контролируются из BitsandbytesConfig. — Загрузка 4 бит активируется через loadin4bit. — Тип данных, используемый для вычислений линейного слоя, с помощью bnb4bitcomputedtype. — Вложенное квантование активируется через bnb4bitusedoublequant. — Тип данных, используемый для квантования, указывается с помощью bnb4bitquanttype. Обратите внимание, что существует два поддерживаемых типа данных квантования: fp4 (четырехбитный с плавающей запятой) и nf4 (обычный четырехбитный с плавающей запятой). Последний теоретически оптимален для нормально распределенных весов, и мы рекомендуем использовать nf4. Набор данных выпущен под подпиской bigscience-openrail-m. Вы можете найти набор данных, используемый для обучения моделей FIN-LLAMA на ВЧ, по адресу bavest/fin-llama-dataset. Здесь список известных проблем и ошибок. Если о вашей проблеме здесь не сообщается, откройте новую проблему и опишите проблему. См. QLORA для получения информации о любых других ограничениях. 1. 4-битный вывод медленный.…
Модальности:
Генерация текста
Области применения:
Финансы
Задача: Генерация текста
Автор: bavest
Теги: llama, finance, llm, trading, text-generation-inference, endpoints_compatible
Лайков: 23 | Загрузок: 1,303
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.