hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4

> [!ВАЖНО] > Этот репозиторий представляет собой созданную сообществом квантованную версию исходной модели мета-лама/Meta-Llama-3.1-70B-Instruct, которая представляет собой официальную версию FP16 с половинной точностью, выпущенную Meta AI. Коллекция многоязычных моделей больших языков (LLM) Meta Llama 3.1 представляет собой коллекцию предварительно обученных и настроенных на инструкции генеративных моделей размером 8B, 70B и 405B (ввод/вывод текста). Модели Llama 3.1, настроенные только на текстовые инструкции (8B, 70B, 70B), оптимизированы для сценариев использования многоязычного диалога и превосходят многие доступные модели с открытым исходным кодом и закрытым чатом по общим отраслевым тестам. Этот репозиторий содержит мета-llama/Meta-Llama-3.1-70B-Instruct, квантованный с помощью AutoAWQ от FP16 до INT4 с использованием ядер GEMM, выполняющих квантование с нулевой точкой с размером группы 128. > [!NOTE] > Чтобы выполнить вывод с помощью Llama 3.1 70B Instruct AWQ в INT4, требуется около 35 ГиБ видеопамяти только для загрузки контрольная точка модели, без включения кэша KV или графиков CUDA, а это означает, что доступной VRAM должно быть немного больше этого количества. Чтобы использовать текущую квантованную модель, предлагается поддержка различных решений, таких как трансформаторы, autoawq или…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: hugging-quants
Теги: llama, llama-3.1, meta, autoawq, conversational, en, de, fr
Лайков: 107 | Загрузок: 106,894

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

DavidAU/Qwen3-24B-A4B-Freedom-Thinking-Abliterated-Heretic-NEO-Imatrix-GGUF

LinkSoul/Chinese-LLaVA-Baichuan

ParasiticRogue/RareBit-v2-32B

sambanovasystems/SambaLingo-Arabic-Chat