Это 4-битное квантование GPTQ-Pro Jackrong/Qwopus3.6-27B-v2, созданное для того, чтобы сделать эту превосходную модель Qwopus/Qwen3.6 практичной для запуска в vLLM с ядрами GPTQ-Marlin и выводом длинного контекста. Цель проста: сохранить как можно больше характера и возможностей исходной модели, сделав ее достаточно эффективной для развертываний vLLM класса RTX 3090 с одним графическим процессором. Это не новая доработка. Это квантованная производная исходной модели Qwopus3.6-27B-v2. Спасибо Jackrong за исходную модель Qwopus3.6, а также Groxaxo за GPTQ-Pro и рецепт Qwen3.6 GPTQ-Pro, с которым это квантование было согласовано. Сохранившиеся модули включают в себя Vision, lmhead`, Ebeddings и Normals. Проверка показала, что этот артефакт сохраняет метаданные конфигурации, связанные с MTP, но не включает фактический mtp. тензоры в model.safetensors.index.json, поэтому этот выпуск следует рассматривать как не-MTP для спекулятивного декодирования vLLM. — Padtokenid=248055 — класс токенизатора исправлен до Qwen2TokenizerFast, когда это необходимо для совместимости с vLLM. Эта контрольная точка предназначена для обслуживания vLLM только с текстом на оборудовании класса RTX 3090. Эта модель сохраняет поведение рассуждений в стиле Qwen3. Приведенная ниже рабочая нагрузка проверки была запущена…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: XReyRobert
Теги: qwen3_5, image-text-to-text, qwen3.6, qwopus, gptq, gptq-pro, marlin, vllm
Лайков: 8 | Загрузок: 4,475
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.