onnx-community/Llama-3.2-3B-Instruct-GENAI-ONNX - Каталог нейросетей
Генерация текста

onnx-community/Llama-3.2-3B-Instruct-GENAI-ONNX

Добавлено:
onnx-community/Llama-3.2-3B-Instruct-GENAI-ONNX

В этом репозитории размещены оптимизированные версии Llama-3.2-3B-Instruct для ускорения вывода с помощью ONNX Runtime. Здесь публикуются оптимизированные модели в формате ONNX для работы с ONNX Runtime на ЦП и ГП на всех устройствах, включая серверные платформы, настольные компьютеры Windows, Linux и Mac, а также мобильные ЦП, с точностью, наиболее подходящей для каждой из этих целей. Чтобы легко приступить к работе с моделью, вы можете использовать наш недавно представленный API ONNX Runtime Generate(). Здесь вы найдете инструкции о том, как его запустить. Вот некоторые из добавленных нами оптимизированных конфигураций: 1. Модель ONNX для процессоров int4 и мобильных устройств: модель ONNX для процессоров и мобильных устройств с использованием квантования int4 через RTN. 2. Модель ONNX для графического процессора int4 с использованием квантования через RTN. — Артикул графического процессора: 1 графический процессор A100 80 ГБ, артикул: StandardND96amsrA100v4 (CUDA) — Артикул ЦП: Standard D16s v6 (16 виртуальных процессоров, 64 ГиБ памяти) — ЦП AMD: InternalD64as_v5 Минимальная необходимая конфигурация: — Windows: графический процессор с поддержкой DirectX 12 и минимум 4 ГБ объединенной оперативной памяти — CUDA: графический процессор NVIDIA с вычислительными ресурсами Возможности >= 7.0 — Разработано: ONNX Runtime, Microsoft — Тип модели: ONNX — Язык(и) (NLP): Python, C, C++ — Лицензия: MIT — Лицензия: Использование Llama 3.2 регулируется лицензией сообщества Llama 3.2…

Модальности:
Генерация текста

Области применения:
Следование инструкциям


Задача: Генерация текста
Автор: onnx-community
Теги: onnx, llama, facebook, meta, llama-3, ONNX, ONNXRuntime, en
Лайков: 20  |  Загрузок: 17

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.