qualcomm/Llama-v2-7B-Chat

![](https://qaihub-public-assets.s3.us-west-2.amazonaws.com/qai-hub-models/models/llamav27bchat/web-assets/modeldemo.png) Llama 2 — это семейство программ LLM. «Чат» в конце указывает на то, что модель оптимизирована для диалога, подобного чат-боту. Модель квантуется до w4a16 (4-битные веса и 16-битные активации), а часть модели квантуется до w8a16 (8-битные веса и 16-битные активации), что делает ее подходящей для развертывания на устройстве. Для длины запроса и вывода, указанной ниже, время появления первого токена — это задержка Llama-PromptProcessor-Quantized, а среднее время на добавление токена — это задержка Llama-TokenGenerator-KVCache-Quantized. Это основано на реализации Llama-v2-7B-Chat, найденной здесь. Этот репозиторий содержит предварительно экспортированные файлы моделей, оптимизированные для устройств Qualcomm®. Вы можете использовать библиотеку моделей Qualcomm® AI Hub для экспорта с пользовательскими конфигурациями. Более подробную информацию о производительности модели на различных устройствах можно найти здесь. Qualcomm AI Hub Models использует Qualcomm AI Hub Workbench для компиляции, профилирования и оценки этой модели. Зарегистрируйтесь, чтобы запускать эти модели на размещенном устройстве Qualcomm®. 1. —prompt «что такое гравитация?» —max-output-tokens 30 ~~~ — Сводка ответов ———…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: qualcomm
Теги: llm, generative_ai, android
Лайков: 25 | Загрузок: 0

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

beomi/Llama-3-KoEn-8B

nvidia/NFT-32B

ChaoticNeutrals/Kunocchini-7b-128k-test

CohereLabs/tiny-aya-water