RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a16

— Архитектура модели: Meta-Llama-3 — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Весовое квантование: INT8 — Варианты предполагаемого использования: Предназначен для коммерческого и исследовательского использования на нескольких языках. Как и Meta-Llama-3.1-8B-Instruct, эта модель предназначена для общения в режиме помощника. — За пределами области применения: использование любым способом, нарушающим применимые законы и правила (включая законы о торговом регулировании). — Дата выпуска: 23 июля 2024 г. — Версия: 1.0 — Лицензия(и): Llama3.1 — Разработчики модели: Neural Magic Квантованная версия Meta-Llama-3.1-8B-Instruct. Он достигает оценок в пределах 1% от оценок неквантованной модели для MMLU, ARC-Challenge, GSM-8k, Hellaswag, Winogrande и TruthfulQA. Эта модель была получена путем квантования весов Meta-Llama-3.1-8B-Instruct к типу данных INT8. Эта оптимизация уменьшает количество бит на параметр с 16 до 8, уменьшая размер диска и требования к памяти графического процессора примерно на 50%. Квантуются только веса линейных операторов внутри блоков преобразователей. Применяется симметричное поканальное квантование, при котором линейное масштабирование для каждого выходного измерения сопоставляет INT8 и представления с плавающей запятой квантованных весов. GPTQ…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: RedHatAI
Теги: llama, int8, vllm, conversational, en, de, fr, it
Лайков: 12 | Загрузок: 4,052

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.