Это версия модели Mixtral-8x7B-Instruct-v0.1, квантованная с помощью смеси 4-битных и 3-битных сигналов с помощью полуквадратичного квантования (HQQ). Точнее, уровни внимания квантуются до 4 бит, а эксперты — до 3 бит. В отличие от модели 2bitgs8, которая была разработана для использования меньшего количества памяти графического процессора, эта использует около 22 ГБ для людей, которые хотят получить лучшее качество и использовать максимальную видеопамять, доступную на графических процессорах с 24 ГБ. Он достигает впечатляющего показателя LLM 71,10, что недалеко от 72,62 у оригинальной модели. Вы можете воспроизвести модель, используя следующие конфигурации квантов:
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: mobiuslabsgmbh
Теги: mixtral, moe, conversational
Лайков: 13 | Загрузок: 15
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.