RedHatAI/Qwen3-32B-quantized.w4a16

— Архитектура модели: Qwen3ForCausalLM — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Весовое квантование: INT4 — Варианты предполагаемого использования: — Рассуждение. — Вызов функции. — Эксперты в предметной области посредством тонкой настройки. — Многоязычная инструкция. — Перевод. — За пределами области применения: использование любым способом, нарушающим применимые законы и правила (включая законы о торговом регулировании). — Дата выпуска: 05.05.2025 — Версия: 1.0 — Разработчики модели: RedHat (Neural Magic) Эта модель была получена путем квантования весов Qwen3-32B до типа данных INT4. Эта оптимизация уменьшает количество бит на параметр с 16 до 4, уменьшая размер диска и требования к памяти графического процессора примерно на 75%. Квантуются только веса линейных операторов внутри блоков преобразователей. Веса квантуются с использованием симметричной схемы для каждой группы с размером группы 128. Для квантования применяется алгоритм GPTQ, реализованный в библиотеке llm-compressor. Эту модель можно эффективно развернуть с помощью серверной части vLLM, как показано в примере ниже. vLLM также поддерживает обслуживание, совместимое с OpenAI. Более подробную информацию смотрите в документации. Детали создания Эта модель была создана с помощью llm-compressor…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: RedHatAI
Теги: qwen3, neuralmagic, redhat, llmcompressor, quantized, INT4, conversational, text-generation-inference
Лайков: 12 | Загрузок: 1,184

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

starmpcc/Asclepius-Llama2-13B

bartowski/FuseO1-DeepSeekR1-QwQ-SkyT1-32B-Preview-exl2

taresco/KarantaOCR

CarperAI/stable-vicuna-13b-delta