XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1

Это 4-битное квантование GPTQ-Pro Jackrong/Qwopus3.6-27B-v2, созданное для того, чтобы сделать эту превосходную модель Qwopus/Qwen3.6 практичной для запуска в vLLM с ядрами GPTQ-Marlin и выводом длинного контекста. Цель проста: сохранить как можно больше характера и возможностей исходной модели, сделав ее достаточно эффективной для развертываний vLLM класса RTX 3090 с одним графическим процессором. Это не новая доработка. Это квантованная производная исходной модели Qwopus3.6-27B-v2. Спасибо Jackrong за исходную модель Qwopus3.6, а также Groxaxo за GPTQ-Pro и рецепт Qwen3.6 GPTQ-Pro, с которым это квантование было согласовано. Сохранившиеся модули включают в себя Vision, lmhead`, Ebeddings и Normals. Проверка показала, что этот артефакт сохраняет метаданные конфигурации, связанные с MTP, но не включает фактический mtp. тензоры в model.safetensors.index.json, поэтому этот выпуск следует рассматривать как не-MTP для спекулятивного декодирования vLLM. — Padtokenid=248055 — класс токенизатора исправлен до Qwen2TokenizerFast, когда это необходимо для совместимости с vLLM. Эта контрольная точка предназначена для обслуживания vLLM только с текстом на оборудовании класса RTX 3090. Эта модель сохраняет поведение рассуждений в стиле Qwen3. Приведенная ниже рабочая нагрузка проверки была запущена…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: XReyRobert
Теги: qwen3_5, image-text-to-text, qwen3.6, qwopus, gptq, gptq-pro, marlin, vllm
Лайков: 8 | Загрузок: 4,475

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2

bineric/NorskGPT-Llama-3-70b-adapter

bartowski/MiMo-V2.5-GGUF

Felladrin/onnx-TinyMistral-248M