♥ Модель с ускоренным выводом MTP, оптимизированная для графических процессоров с видеопамятью 16 ГБ. ♥ Эта модель представляет собой собственную версию с поддержкой MTP (многотокенного прогнозирования), извлеченную из Dense магистрали llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-GGUF и квантованную. Он поддерживает более длинные контексты, имеет нецензурированные (удаленные) характеристики и значительно повышает скорость вывода каждого токена. Для случаев использования, требующих более длинных контекстов (например, 128 тыс.+) со скоростью вывода примерно 20 токенов/с, рассмотрите эту модель: https://huggingface.co/lemonyins/Qwen3.6-27B-uncensored-abliterated-i1-IQ4_XS-GGUF-Smaller Эта модель наследует стратегию квантования смешанной точности от Qwen3.6-27B-uncensored-abliterated-i1-IQ4XS-GGUF-Меньший: уровни attnqkv / attnk / attnv / attnoutput / output остаются на уровне IQ4XS, а уровни ffndown / ffnup / ffngate понижены до уровня IQ3S. Вдобавок к этому, основным прорывом является поддержка MTP: базовая модель сохраняет встроенную головку MTP, что позволяет параллельно генерировать несколько черновых токенов во время вывода, которые принимаются в одном пакете после проверки целевой моделью, что значительно сокращает количество шагов последовательного декодирования. — Примечание. После тестирования установка…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: lemonyins
Теги: gguf, Qwen3.6-27B, abliterated, Uncensored, MTP, Multi-Token-Prediction, TurboQuant, Speculative-Decoding
Лайков: 7 | Загрузок: 3,633
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.