Эта модель была получена с использованием следующей ветки с LLM Compressor: https://github.com/vllm-project/llm-compressor/pull/2647 Эта модель была развернута с использованием следующей ветки с vLLM: https://github.com/vllm-project/vllm/pull/41276 Эта модель имеет заметно более низкую точность восстановления, чем базовая модель, из-за того, что базовая модель выпущена в квантованном формате и различия между mxfp4 и nvfp4. Более продвинутые методы, такие как GPTQ, можно использовать для повышения точности восстановления по сравнению с текущим состоянием этой модели. Для получения более подробной информации о том, как эта модель была создана и запущена в LLM Compressor, свяжитесь с Кайлом Сэйерсом на vLLM Slack: https://communityinviter.com/apps/vllm-dev/join-vllm-developers-slack.
Модальности:
Генерация текста
Задача: Генерация текста
Автор: RedHatAI
Теги: deepseek_v4, compressed-tensors, nvfp4, vllm, endpoints_compatible, 8-bit
Лайков: 14 | Загрузок: 5,229
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.