internlm/internlm2-chat-20b-4bits - Каталог нейросетей
Генерация текста

internlm/internlm2-chat-20b-4bits

Добавлено:
internlm/internlm2-chat-20b-4bits

LMDeploy использует алгоритм AWQ для 4-битного квантования только по весу. Благодаря разработке высокопроизводительного ядра cuda вывод 4-битной квантовой модели выполняется в 2,4 раза быстрее, чем FP16. LMDeploy поддерживает следующий графический процессор NVIDIA для вывода W4A16: Прежде чем приступить к квантованию и выводу, убедитесь, что lmdeploy установлен. Используя следующие коды, вы можете выполнить пакетный автономный вывод с квантованной моделью: Ознакомьтесь с этим руководством по оценке модели с помощью LMDeploy. API-сервер LMDeploy позволяет легко упаковывать модели в сервисы с помощью одной команды. Предоставленные API-интерфейсы RESTful совместимы с интерфейсами OpenAI. Ниже приведен пример запуска службы: порт API-сервера по умолчанию — 23333. После запуска сервера вы можете взаимодействовать с сервером на терминале через apiclient: вы можете просмотреть и опробовать API-интерфейсы API-сервера онлайн с помощью пользовательского интерфейса swagger по адресу http://0.0.0.0:23333` или вы также можете прочитать спецификацию API здесь.

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: internlm
Теги: internlm, image-feature-extraction, conversational, custom_code, 4-bit, awq
Лайков: 7  |  Загрузок: 389

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.