Чат и поддержка: мой новый сервер Discord Хотите внести свой вклад? Страница TheBloke на Patreon. Эти файлы представляют собой 4-битные файлы моделей GPTQ для BLOOMChat 1.0 от Sambanova Systems. В настоящее время невозможно сегментировать файлы GPTQ, поэтому файл модели представляет собой один файл защитных тензоров размером 94 ГБ. Huggingface Hub имеет ограничение на размер файла в 50 ГБ. Поэтому для загрузки мне пришлось разделить файл на три части. Чтобы объединить файлы в Windows, откройте командную строку и запустите: Или код Python для объединения файлов см. в разделе Python ниже. Получив объединенный файл, вы можете безопасно удалить gptqmodel-4bit—1g.JOINBEFOREUSE.split-.safetensors. 4-битная модель GPTQ для вывода графического процессора. Неквантованная модель fp16 в формате pytorch, для вывода графического процессора и дальнейших преобразований. Основная ветка: gptqmodel-4bit —1g.safetensors. Размер группы = нет. Desc Act (порядок действий) = True. Эта версия будет использовать минимально возможную видеопамять и должна иметь более высокую производительность вывода в режиме CUDA. Размер группы ветвей128g: gptqmodel-4bit-128g.safetensors — Размер группы = 128g — Desc Act (act-oder) = True — Эта версия будет использовать больше видеопамяти, что не должно быть проблемой, поскольку она не должна превышать 2 карты по 80 ГБ или 3 карты по 48 ГБ. — Однако КУДА…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: TheBloke
Теги: bloom
Лайков: 31 | Загрузок: 9
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.