internlm/internlm2-chat-20b-4bits

LMDeploy использует алгоритм AWQ для 4-битного квантования только по весу. Благодаря разработке высокопроизводительного ядра cuda вывод 4-битной квантовой модели выполняется в 2,4 раза быстрее, чем FP16. LMDeploy поддерживает следующий графический процессор NVIDIA для вывода W4A16: Прежде чем приступить к квантованию и выводу, убедитесь, что lmdeploy установлен. Используя следующие коды, вы можете выполнить пакетный автономный вывод с квантованной моделью: Ознакомьтесь с этим руководством по оценке модели с помощью LMDeploy. API-сервер LMDeploy позволяет легко упаковывать модели в сервисы с помощью одной команды. Предоставленные API-интерфейсы RESTful совместимы с интерфейсами OpenAI. Ниже приведен пример запуска службы: порт API-сервера по умолчанию — 23333. После запуска сервера вы можете взаимодействовать с сервером на терминале через apiclient: вы можете просмотреть и опробовать API-интерфейсы API-сервера онлайн с помощью пользовательского интерфейса swagger по адресу http://0.0.0.0:23333` или вы также можете прочитать спецификацию API здесь.

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: internlm
Теги: internlm, image-feature-extraction, conversational, custom_code, 4-bit, awq
Лайков: 7 | Загрузок: 389

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

cerebras/Llama3-DocChat-1.0-8B

We are excited to announce the release of Cerebras DocChat, our first iteration of models designed for document-based...

Генерация текста

bartowski/NousResearch_DeepHermes-3-Llama-3-8B-Preview-GGUF

Исходная модель: https://huggingface.co/NousResearch/DeepHermes-3-Llama-3-8B-Preview Запускайте их напрямую с помощью llama.cpp или любого другого проекта на основе llama.cpp. Некоторые из...

Генерация текста

taide/TAIDE-LX-7B

TAIDE 計畫致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型,同時建構可信任的人工智慧環境。結合產學研能量,推動可信任生成式人工智慧的發展,提升台灣在國際競爭中的地位, 促進產業發展, 避免對外國技術的依賴。 Мета-код LLaMA2-7b為基礎,導入台灣不同領域可用的文本與訓練素材,提高模型在正體中文回應的能力與特定任務的表現。公開釋出的模型如下: TAIDE-LX-7B: 以 LLaMA2-7b 為基礎，僅使用繁體中文資料預訓練 (непрерывный предварительная подготовка)的模型,適合使用者會對模型進一步微調(хорошо мелодия)的使用情境。因預訓練模型沒有經過微調和偏好對齊, 可能會產生惡意或不安全的輸出, 使用時請小心。 TAIDE-LX-7B-Чат: 以...

Генерация текста

EVA-UNIT-01/EVA-LLaMA-3.33-70B-v0.0

Модель специалиста по RP/сценариям, полнопараметрическая точная настройка Llama-3.3-70B-Instruct на сочетании синтетических и естественных данных. Он использует смесь данных...