— Архитектура модели: Qwen2ForCausalLM — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Квантование весов: FP8 — Квантование активации: FP8 — Дата выпуска: 6 марта 2025 г. — Версия: 1.0 — Разработчики модели: Neural Magic Эта модель была получена путем квантования весов и активаций Qwen/QwQ-32B в тип данных FP8. Эта оптимизация уменьшает количество бит на параметр с 16 до 8, уменьшая размер диска и требования к памяти графического процессора примерно на 50%. Квантуются только веса и активации линейных операторов внутри блоков преобразователей. Веса квантуются с использованием симметричной поканальной схемы, тогда как квантования квантоваются с использованием симметричной потоконной схемы. LLM Compressor используется для квантования. Эту модель можно эффективно развернуть с помощью серверной части vLLM, как показано в примере ниже. vLLM также поддерживает обслуживание, совместимое с OpenAI. Более подробную информацию смотрите в документации. Эта модель была создана с помощью llm-compressor путем выполнения приведенного ниже фрагмента кода. Категория Метрика Qwen/QwQ-32B Neuralmagic/QwQ-32B-FP8-динамическое Обоснование восстановления AIME 2024 (пройдено @ 1) 78,66 79,40 100,94% MATH-500 (пройдено @ 1) 97,39 97,44 100,05% GPQA Diamond (пройдено @ 1) 64,72 63,21…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: RedHatAI
Теги: qwen2, qwen, qwq, fp8, vllm, conversational, text-generation-inference, endpoints_compatible
Лайков: 13 | Загрузок: 209
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.