 Llama 2 — это семейство программ LLM. «Чат» в конце указывает на то, что модель оптимизирована для диалога, подобного чат-боту. Модель квантуется до w4a16 (4-битные веса и 16-битные активации), а часть модели квантуется до w8a16 (8-битные веса и 16-битные активации), что делает ее подходящей для развертывания на устройстве. Для длины запроса и вывода, указанной ниже, время появления первого токена — это задержка Llama-PromptProcessor-Quantized, а среднее время на добавление токена — это задержка Llama-TokenGenerator-KVCache-Quantized. Это основано на реализации Llama-v2-7B-Chat, найденной здесь. Этот репозиторий содержит предварительно экспортированные файлы моделей, оптимизированные для устройств Qualcomm®. Вы можете использовать библиотеку моделей Qualcomm® AI Hub для экспорта с пользовательскими конфигурациями. Более подробную информацию о производительности модели на различных устройствах можно найти здесь. Qualcomm AI Hub Models использует Qualcomm AI Hub Workbench для компиляции, профилирования и оценки этой модели. Зарегистрируйтесь, чтобы запускать эти модели на размещенном устройстве Qualcomm®. 1. —prompt «что такое гравитация?» —max-output-tokens 30 ~~~ — Сводка ответов ———…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: qualcomm
Теги: llm, generative_ai, android
Лайков: 25 | Загрузок: 0
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.