> [!ВАЖНО] > Этот репозиторий представляет собой 4-битную квантованную версию AWQ мета-llama/Llama-3.3-70B-Instruct, первоначально выпущенную Meta AI. Эта модель была квантована с помощью AutoAWQ от FP16 до INT4 с использованием ядер GEMM, с квантованием с нулевой точкой и размером группы 128. Аппаратное обеспечение: процессор Intel Xeon E5-2699A v4 с частотой 2,40 ГГц, 256 ГБ ОЗУ и 2x NVIDIA RTX 3090. Информация об использовании модели (вывод) для Transformers, AutoAWQ, интерфейса генерации текста (TGI) и vLLM. , а также подробности воспроизведения квантования приведены ниже. Многоязычная модель большого языка (LLM) Meta Llama 3.3 представляет собой предварительно обученную и настроенную генеративную модель в 70B (ввод/вывод текста). Модель Llama 3.3, настроенная только на текст, оптимизирована для случаев использования многоязычного диалога и превосходит многие доступные модели с открытым исходным кодом и закрытым чатом по общим отраслевым тестам. Для использования этой квантованной модели предлагается поддержка различных решений, таких как преобразователи, autoawq или вывод с генерацией текста. > [!NOTE] > Чтобы выполнить вывод с помощью Llama 3.3 70B Instruct AWQ в INT4, необходимо около 35 ГиБ видеопамяти для загрузки контрольной точки модели, без учета кэша KV или CUDA…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: ibnzterrell
Теги: llama, llama-3.3, meta, autoawq, conversational, en, fr, it
Лайков: 30 | Загрузок: 130,347
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.