— Архитектура модели: Meta-Llama-3.1 — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Весовое квантование: FP8 — Квантование активации: FP8 — Варианты предполагаемого использования: Предназначено для коммерческого и исследовательского использования на нескольких языках. Как и Meta-Llama-3.1-8B-Instruct, эта модель предназначена для общения в режиме помощника. — За пределами области применения: использование любым способом, нарушающим применимые законы и правила (включая законы о торговом регулировании). Используйте на языках, отличных от английского. — Дата выпуска: 23 июля 2024 г. — Версия: 1.0 — Лицензия(и): llama3.1 — Разработчики модели: Neural Magic Квантованная версия Meta-Llama-3.1-8B-Instruct. Он достигает среднего балла 73,44 в тесте OpenLLM (версия 1), тогда как неквантованная модель достигает 73,79. Эта модель была получена путем квантования весов и активаций Meta-Llama-3.1-8B-Instruct в тип данных FP8, готовый для вывода с помощью vLLM, созданного из исходного кода. Эта оптимизация уменьшает количество бит на параметр с 16 до 8, уменьшая размер диска и требования к памяти графического процессора примерно на 50%. Квантуются только веса и активации линейных операторов внутри блоков преобразователей. Симметричное потензорное квантование применяется в…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: RedHatAI
Теги: llama, fp8, vllm, conversational, en, de, fr, it
Лайков: 44 | Загрузок: 374,231
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.