Q80 квантовал GGUF kappa20b_131k для использования с llama.cpp и совместимыми механизмами вывода. Часть серии персон — набор экспериментальных тонких настроек, исследующих поколение, обусловленное личностью, на базе 20.9B MoE. Это (каппа) полнопараметрическое SFT в контексте 131 КБ для многоходовых разговоров с вызовом инструментов и 9 отдельными персонажами. Построен на базовой модели OpenAI GPT-OSS 20B. Обучался на 4 десктопных графических процессорах с торчтитаном. Квантование смешанной точности: экспертные веса MLP равны Q80 (8-битное целое число), а веса внимания (проекции Q, K, V, O) сохраняются на уровне BF16** для сохранения качества внимания. Смещения, нормы слоев, веса маршрутизаторов и приемники внимания остаются в f32. Q80 был выбран вместо вариантов k-кванта (Q6K, Q4KM), поскольку 3D-экспертные весовые тензоры [2880, 2880, 32] не соответствуют требованиям к размеру блока k-кванта — 145 из 170 весовых тензоров возвращаются к более высокой точности, что делает Q6K того же размера, что и Q80, без каких-либо преимуществ. Квантуется из весов источника BF16 (не повторно квантовается из предыдущего квантования). Полнопараметрическая контролируемая точная настройка (SFT) в bf16 — все веса 20,9B поддаются обучению, включая каждого эксперта. 4 графических процессора NVIDIA RTX PRO 6000 Blackwell (96 ГиБ каждый) на одной рабочей станции.…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: eousphoros
Теги: gguf, mixture-of-experts, moe, long-context, fine-tuning, sft, persona, multi-turn
Лайков: 7 | Загрузок: 29
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.