Изображение, нарисованное GPT-4 DALL·E 3 TL;DR: Возможно, эта модель 7B лучше, чем все существующие модели. Используйте библиотеку преобразователей, которая не требует удаленного/внешнего кода для загрузки модели, AutoModelForCausalLM и AutoTokenizer (или вручную укажите LlamaForCausalLM для загрузки LM, GPT2Tokenizer для загрузки Tokenizer), а квантование модели полностью совместимо с GGUF (llama.cpp), GPTQ и АВК. llama.cpp Модели GGUF GPT2Tokenizer исправлены Kerfuffle на https://github.com/ggerganov/llama.cpp/pull/3743, новые модели перезагружены. Спасибо TheBloke за кванты GGUF: https://huggingface.co/TheBloke/CausalLM-7B-GGUF Внимание: неофициальные модели GPTQ и AWQ могут иметь проблемы, поскольку они используют Wikitext для калибровки, хотя эта модель прошла значительную подготовку на синтезированном наборе данных разговоров Википедии. Не рекомендуется использовать какую-либо форму квантования, а лучше использовать модели меньшего размера, поскольку версии 7B и 14B обладают высокой согласованностью. Однако если вы используете квантование модели, используйте GGUF. Эта модель была обучена на основе весов модели Qwen (да, для расчета некоторых начальных весов использовался LLaMA2), вам также может потребоваться соблюдать ограничения на коммерческое использование…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: CausalLM
Теги: llama, llama2, qwen, causallm, en, zh, text-generation-inference, endpoints_compatible
Лайков: 136 | Загрузок: 859
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.