Квантованная версия Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 со смешанной точностью. Эта контрольная точка сохраняет ту же гибридную архитектуру Qwen3.5 DeltaNet + softmax и головку Qwen3.5 MTP, что и источник BF16, но применяет тот же смешанный рецепт NVFP4/FP8/BF16, который хорошо работал в более ранней версии v1. Опубликованная папка включает в себя: — model.safetensors — model.safetensors.index.json — model.mtp.safetensors -processorconfig.json — preprocessorconfig.json — videopreprocessorconfig.json Локальный вывод был проверен 26 марта 2026 г. на одной NVIDIA RTX PRO 6000 Blackwell Workstation Edition (96 ГБ) с: — Старым однострочным vllm-патчем v1 для проблемы Blackwell/TMA. может потребоваться, если вы столкнетесь с той же проблемой. — Если ваша локальная сборка vllm еще не включает это исправление, примените однострочное исправление из README v1. — сервер запустился чисто — GET /health вернул 200 — GET /v1/models вернул модель — POST /v1/chat/completions вернул 200 — MTP/спекулятивное декодирование было активным и сообщало о приемочных метриках в журналах сервера Неравномерное квантование смешанной точности с использованием llm-компрессора по тому же рецепту, который работал на более ранней модели v1: -…
Модальности:
Генерация текста
Области применения:
Логика и рассуждение Диалог / чат
Задача: Генерация текста
Автор: mconcat
Теги: qwen3_5, image-text-to-text, qwen3.5, reasoning, quantized, fp8, nvfp4, mixed-precision
Лайков: 15 | Загрузок: 6,936
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.