QuantTrio/GLM-4.7-Flash-AWQ

По состоянию на 21 января 2026 г. убедитесь, что в вашей системе установлен cuda12.8. Затем создайте новую среду Python (например, python3.12 venv) и запустите: 👋 Присоединяйтесь к нашему сообществу Discord. 📖 Ознакомьтесь с техническим блогом GLM-4.7 и техническим отчетом (GLM-4.5). 📍 Используйте сервисы API GLM-4.7-Flash на платформе Z.ai API. 👉 Один клик для GLM-4.7. GLM-4.7-Flash — модель 30B-A3B МЧС. Будучи самой мощной моделью в классе 30B, GLM-4.7-Flash предлагает новый вариант легкого развертывания, сочетающий в себе производительность и эффективность. Для локального развертывания GLM-4.7-Flash поддерживает платформы вывода, включая vLLM и SGLang. Подробные инструкции по развертыванию доступны в официальном репозитории Github. vLLM и SGLang поддерживают GLM-4.7-Flash только в своих основных ветках. + с помощью pip install sglang из исходного кода, затем обновите преобразователи до последней основной ветки. Если наша работа окажется полезной в вашем исследовании, пожалуйста, процитируйте следующую статью: «`bibtex @misc{5team2025glm45agenticreasoningcoding, title={GLM-4.5: Базовые модели агентов, рассуждений и кодирования (ARC)}, автор={GLM Team and Aohan Zeng and Xin Lv and Qinkai Zheng and Zhenyu Hou and Bin Chen and Chengxing Се и Цуньсян Ван, Да Инь и Хао…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: QuantTrio
Теги: glm4_moe_lite, vLLM, AWQ, conversational, en, zh, endpoints_compatible, 4-bit
Лайков: 13 | Загрузок: 32,152

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

QuixiAI/Samantha-1.11-70b

LGAI-EXAONE/EXAONE-3.5-32B-Instruct-AWQ

Changgil/google-gemma-3-27b-it-text

baichuan-inc/Baichuan2-7B-Chat-4bits