ibnzterrell/Meta-Llama-3.3-70B-Instruct-AWQ-INT4

> [!ВАЖНО] > Этот репозиторий представляет собой 4-битную квантованную версию AWQ мета-llama/Llama-3.3-70B-Instruct, первоначально выпущенную Meta AI. Эта модель была квантована с помощью AutoAWQ от FP16 до INT4 с использованием ядер GEMM, с квантованием с нулевой точкой и размером группы 128. Аппаратное обеспечение: процессор Intel Xeon E5-2699A v4 с частотой 2,40 ГГц, 256 ГБ ОЗУ и 2x NVIDIA RTX 3090. Информация об использовании модели (вывод) для Transformers, AutoAWQ, интерфейса генерации текста (TGI) и vLLM. , а также подробности воспроизведения квантования приведены ниже. Многоязычная модель большого языка (LLM) Meta Llama 3.3 представляет собой предварительно обученную и настроенную генеративную модель в 70B (ввод/вывод текста). Модель Llama 3.3, настроенная только на текст, оптимизирована для случаев использования многоязычного диалога и превосходит многие доступные модели с открытым исходным кодом и закрытым чатом по общим отраслевым тестам. Для использования этой квантованной модели предлагается поддержка различных решений, таких как преобразователи, autoawq или вывод с генерацией текста. > [!NOTE] > Чтобы выполнить вывод с помощью Llama 3.3 70B Instruct AWQ в INT4, необходимо около 35 ГиБ видеопамяти для загрузки контрольной точки модели, без учета кэша KV или CUDA…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: ibnzterrell
Теги: llama, llama-3.3, meta, autoawq, conversational, en, fr, it
Лайков: 30 | Загрузок: 130,347

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

skt/A.X-3.1

OpenMOSS-Team/moss-moon-003-sft

bartowski/Athene-V2-Agent-GGUF

anthracite-org/magnum-v2-4b