> [!NOTE] > Включает исправления шаблона чата Unsloth! Для llama.cpp используйте —jinja > Unsloth Dynamic 2.0 обеспечивает превосходную точность и превосходит другие ведущие количественные показатели. 𓌳 REAP𓌳 Эксперты: почему обрезка преобладает при однократном сжатии MoE Представляем GLM-4.7-REAP-218B-A32B, сжатый вариант GLM-4.7 с эффективным использованием памяти, который сохраняет почти идентичную производительность, будучи на 40% легче. Эта модель была создана с использованием REAP (router-weighted Expert Activation Pruning), нового метода сокращения экспертов, который выборочно удаляет лишних экспертов, сохраняя при этом независимый контроль маршрутизатора над оставшимися экспертами. Ключевые особенности включают в себя: — Производительность почти без потерь: обеспечивает почти такую же точность при генерации кода, агентном кодировании и вызове функций по сравнению с полной моделью 355B. — Сокращение памяти на 40 %: параметры сжаты с 355B до 218B, что значительно снижает затраты на развертывание и требования к памяти. — Сохраненные возможности: сохраняются все основные функции, включая генерацию кода, агентские рабочие процессы, понимание масштаба репозитория и вызов функций. — Совместимость с встраиваемыми модулями: Работает с ванильным vLLM – никаких модификаций исходного кода или пользовательских патчей не требуется – Оптимизировано…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: unsloth
Теги: gguf, glm, MOE, pruning, compression, unsloth, en, endpoints_compatible
Лайков: 42 | Загрузок: 1,711
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.