mconcat/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-NVFP4

Квантованная версия Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 со смешанной точностью. Эта контрольная точка сохраняет ту же гибридную архитектуру Qwen3.5 DeltaNet + softmax и головку Qwen3.5 MTP, что и источник BF16, но применяет тот же смешанный рецепт NVFP4/FP8/BF16, который хорошо работал в более ранней версии v1. Опубликованная папка включает в себя: — model.safetensors — model.safetensors.index.json — model.mtp.safetensors -processorconfig.json — preprocessorconfig.json — videopreprocessorconfig.json Локальный вывод был проверен 26 марта 2026 г. на одной NVIDIA RTX PRO 6000 Blackwell Workstation Edition (96 ГБ) с: — Старым однострочным vllm-патчем v1 для проблемы Blackwell/TMA. может потребоваться, если вы столкнетесь с той же проблемой. — Если ваша локальная сборка vllm еще не включает это исправление, примените однострочное исправление из README v1. — сервер запустился чисто — GET /health вернул 200 — GET /v1/models вернул модель — POST /v1/chat/completions вернул 200 — MTP/спекулятивное декодирование было активным и сообщало о приемочных метриках в журналах сервера Неравномерное квантование смешанной точности с использованием llm-компрессора по тому же рецепту, который работал на более ранней модели v1: -…

Модальности:
Генерация текста

Области применения:
Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: mconcat
Теги: qwen3_5, image-text-to-text, qwen3.5, reasoning, quantized, fp8, nvfp4, mixed-precision
Лайков: 15 | Загрузок: 6,936

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

ibm-granite/granite-3b-code-instruct-2k

RefalMachine/RuadaptQwen2.5-32B-QWQ-Beta

replit/replit-code-v1-3b

lmstudio-community/Qwen2.5-Coder-3B-Instruct-GGUF