RedHatAI/Meta-Llama-3-8B-Instruct-FP8-KV

Meta-Llama-3-8B-Instruct квантован до весов и активаций FP8 с использованием потензорного квантования, готов к выводу с vLLM >= 0,5.0. Эта контрольная точка модели также включает в себя потензорные шкалы для квантованного KV-кэша FP8, доступ к которому осуществляется через аргумент —kv-cache-dtype fp8 в vLLM. Сделано с помощью AutoFP8 с калибровочными образцами из ультрачата.

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: RedHatAI
Теги: llama, fp8, vllm, conversational, text-generation-inference, endpoints_compatible
Лайков: 10 | Загрузок: 29,672

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

castorini/rank_zephyr_7b_v1_full

casperhansen/llama-3-8b-instruct-awq

DiscoResearch/Llama3-DiscoLeo-Instruct-8B-v0.1

TheBloke/TigerBot-70B-Chat-GPTQ