Модель internlm25-20b-chat в формате GGUF может использоваться llama.cpp, очень популярной платформой с открытым исходным кодом для вывода модели большого языка (LLM), на различных аппаратных платформах, как локально, так и в облаке. Этот репозиторий предлагает модели internlm25-20b-chat в формате GGUF как с половинной точностью, так и с различными низкобитными квантованными версиями, включая q50, q5km, q6k и q80`. В последующих разделах мы сначала представим процедуру установки, а затем объясним процесс загрузки модели. И, наконец, мы проиллюстрируем методы вывода моделей и развертывания сервисов на конкретных примерах. Мы рекомендуем собирать llama.cpp из исходного кода. В следующем фрагменте кода представлен пример платформы Linux CUDA. Инструкции для других платформ можно найти в официальном руководстве. Все созданные цели можно найти в подкаталоге build/bin. В следующих разделах мы предполагаем, что рабочий каталог находится в корневом каталоге llama.cpp. Во введении мы упомянули, что этот репозиторий включает в себя несколько моделей с разным уровнем вычислительной точности. Вы можете скачать подходящую модель на основе вашего…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: internlm
Теги: gguf, chat, en, endpoints_compatible, conversational
Лайков: 39 | Загрузок: 209
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.