RDson/Qwen3.6-27B-MTP-IQ4_KS-GGUF

Это было сделано из Q80, а не напрямую из fp16, из-за этого могла быть потеряна некоторая* точность. Это «гибридное» квантование IQ4KS GGUF Qwen3.6-27B, которое сохраняет слои MTP (многотокенное предсказание)**, что позволяет значительно ускорить генерацию текста посредством спекулятивного декодирования. Стандартные преобразования GGUF часто удаляют тензоры MTP, чтобы сэкономить немного места. Эта модель была тщательно повторно квантована из Radamanthys11/Qwen3.6-27B-MTP-Q80-GGUF с использованием ikllama.cpp, чтобы сохранить головку MTP и одновременно сократить требования к видеопамяти до высокоэффективного объема Q4. Протестировано с использованием llama-server на 3090 для измерения скорости оценки. Включение прогнозирования нескольких токенов с помощью 1 чернового токена дает ускорение примерно на 16 % по сравнению со стандартным логическим выводом. Измерено по wiki.test.raw с nctx=512`, более 580 фрагментов. Тесты подтверждают, что включение декодирования MTP не оказывает негативного влияния на оценку недоумения: Пользовательский набор правил, используемый для переопределения тензоров смешанной точности: Эта модель была повторно квантована непосредственно из промежуточной модели Q80 с использованием —allow-requantize`. 1. Создайте Imatrix из Q80. Примечание. GGMLCUDANOPINNED=1 используется для предотвращения исчерпания системной оперативной памяти в конфигурациях с 24 ГБ видеопамяти. Требуется ikllama.cpp. Быть…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: RDson
Теги: gguf, qwen, qwen3.6, iq4_ks, mtp, llama.cpp, ik_llama.cpp, endpoints_compatible
Лайков: 7 | Загрузок: 555

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

nvidia/Nemotron-Flash-3B

rinna/nekomata-7b-instruction-gguf

TheBloke/dolphin-2.7-mixtral-8x7b-GPTQ

nvidia/Nemotron-H-47B-Reasoning-128K