— Квантование Mistral-7B-Instruct-v0.3 только по весу через GPTQ до 4 бит с group_size=128 — GPTQ оптимизирован для восстановления точности 99,75% относительно неквантованной модели. Эта модель готова для оптимизированного вывода с использованием ядер Marlin смешанной точности в vLLM: https://github.com/vllm-project/vllm
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: RedHatAI
Теги: mistral, conversational, model-index, text-generation-inference, endpoints_compatible, 4-bit, gptq
Лайков: 23 | Загрузок: 6,724
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.