Meta-Llama-3-8B-Instruct квантован до весов и активаций FP8 с использованием потензорного квантования, готов к выводу с vLLM >= 0,5.0. Эта контрольная точка модели также включает в себя потензорные шкалы для квантованного KV-кэша FP8, доступ к которому осуществляется через аргумент —kv-cache-dtype fp8 в vLLM. Сделано с помощью AutoFP8 с калибровочными образцами из ультрачата.
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: RedHatAI
Теги: llama, fp8, vllm, conversational, text-generation-inference, endpoints_compatible
Лайков: 10 | Загрузок: 29,672
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.