RedHatAI/DeepSeek-R1-Distill-Qwen-32B-quantized.w8a8

— Архитектура модели: Qwen2ForCausalLM — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Квантование веса: INT8 — Квантование активации: INT8 — Дата выпуска: 05.02.2025 — Версия: 1.0 — Разработчики модели: Neural Magic Эта модель была получена путем квантования весов и активаций DeepSeek-R1-Distill-Qwen-32B в тип данных INT8. Эта оптимизация уменьшает количество бит, используемых для представления весов и активаций, с 16 до 8, уменьшая требования к памяти графического процессора (примерно на 50%) и увеличивая пропускную способность вычислений при умножении матриц (примерно в 2 раза). Весовое квантование также снижает требования к размеру диска примерно на 50%. Квантуются только веса и активации линейных операторов внутри блоков преобразователей. Веса квантуются с использованием симметричной поканальной схемы, тогда как квантования квантоваются с использованием симметричной потоконной схемы. Для квантования применяется алгоритм GPTQ, реализованный в библиотеке llm-compressor. Эту модель можно эффективно развернуть с помощью серверной части vLLM, как показано в примере ниже. vLLM также поддерживает обслуживание, совместимое с OpenAI. Более подробную информацию смотрите в документации. Эта модель была создана с помощью llm-compressor…

Модальности:
Генерация текста

Области применения:
Диалог / чат Логика и рассуждение

Задача: Генерация текста
Автор: RedHatAI
Теги: qwen2, deepseek, int8, vllm, llmcompressor, conversational, text-generation-inference, endpoints_compatible
Лайков: 13 | Загрузок: 3,168

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

YanweiLi/MGM-34B-HD

abacusai/Llama-3-Smaug-8B

apple/OpenELM-1_1B-Instruct

ServiceNow-AI/Apriel-H1-15b-Thinker-SFT