По состоянию на 21 января 2026 г. убедитесь, что в вашей системе установлен cuda12.8. Затем создайте новую среду Python (например, python3.12 venv) и запустите: 👋 Присоединяйтесь к нашему сообществу Discord. 📖 Ознакомьтесь с техническим блогом GLM-4.7 и техническим отчетом (GLM-4.5). 📍 Используйте сервисы API GLM-4.7-Flash на платформе Z.ai API. 👉 Один клик для GLM-4.7. GLM-4.7-Flash — модель 30B-A3B МЧС. Будучи самой мощной моделью в классе 30B, GLM-4.7-Flash предлагает новый вариант легкого развертывания, сочетающий в себе производительность и эффективность. Для локального развертывания GLM-4.7-Flash поддерживает платформы вывода, включая vLLM и SGLang. Подробные инструкции по развертыванию доступны в официальном репозитории Github. vLLM и SGLang поддерживают GLM-4.7-Flash только в своих основных ветках. + с помощью pip install sglang из исходного кода, затем обновите преобразователи до последней основной ветки. Если наша работа окажется полезной в вашем исследовании, пожалуйста, процитируйте следующую статью: «`bibtex @misc{5team2025glm45agenticreasoningcoding, title={GLM-4.5: Базовые модели агентов, рассуждений и кодирования (ARC)}, автор={GLM Team and Aohan Zeng and Xin Lv and Qinkai Zheng and Zhenyu Hou and Bin Chen and Chengxing Се и Цуньсян Ван, Да Инь и Хао…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: QuantTrio
Теги: glm4_moe_lite, vLLM, AWQ, conversational, en, zh, endpoints_compatible, 4-bit
Лайков: 13 | Загрузок: 32,152
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.