Результаты тестов в следующей таблице основаны на тесте MMLU. Чтобы ускорить тест, мы не позволяем модели генерировать слишком длинные цепочки мыслей, поэтому оценка может отличаться от оценки при более длинной цепочке мыслей. В нашем эксперименте точность квантованной версии FP8 почти такая же, как и версии BF16, и ее можно использовать для более быстрого вывода. Мы рекомендуем использовать платформу вывода Chitu (https://github.com/thu-pacman/chitu) для запуска этой модели. Здесь представлена простая команда, показывающая, как запустить QwQ-32B-FP8.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: qingcheng-ai
Теги: qwen2, qwq, fp8, conversational, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 4
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.