Плотный магистральный канал Qwen3.6 27B + встроенная головка NextN-MTP, квантованная для вывода с помощью одного графического процессора. — Магистральный канал: IQ4XS (калибровка по imatrix) — Головка MTP: Q80 (NextN, kvonlynextn=true) — Размер файла: ~14,5 ГБ — Минимальная видеопамять: ~17 ГБ при 8K ctx, ~22 ГБ при 96K+ ctx (KV при Q8/Q8) Головка MTP встроена в GGUF — отдельного файла чертежника нет. Последние сборки llama.cpp активируют его через —spec-type Draft-mtp. Требуется llama.cpp, созданный из мастера после ggml-org/llama.cpp#22673: —spec-type Draft-mtp привязывает встроенную головку NextN MTP в качестве средства разработки через LLAMACONTEXTTYPEMTP. —spec-draft-n-max 4 — максимальная длина цепи тяги за раунд. —spec-draft-p-min 0,75 необходим — без него цепочка создает токены с низкой достоверностью, которые цель отклоняет, что снижает ускорение вдвое. Однопотоковое декодирование на потребительском графическом процессоре объемом 24 ГБ (RTX 3090 Ti), сборка CUDA, полная разгрузка графического процессора, FA включена, N = 512 сгенерированных токенов, среднее значение 5 «теплых запусков». Dense 27B выигрывает от pmin даже в четвертом квартале — стоимость пробоотборника амортизируется в зависимости от прибыли от более глубокого приема. Варианты MoE (35B-A3B) предпочитают pmin=0, поскольку накладные расходы softmax на каждый шаг перевешивают экономию на завершении цепочки. — Вес ствола: IQ4XS откалиброван с помощью матрицы, полученной на основе калибровочного набора для смешанных областей (код +…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: localweights
Теги: gguf, qwen, qwen3.6, 27b, mtp, nextn, speculative-decoding, quantized
Лайков: 7 | Загрузок: 339
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.