Чат и поддержка: мой новый сервер Discord Хотите внести свой вклад? Страница TheBloke на Patreon Это файлы модели в формате pytorch fp16 для Wizard Vicuna 13B Джун Ли, объединенные с SuperHOT 8K Кайо Кена. SuperHOT 13b LoRA Кайо Кена объединяется с базовой моделью, а затем во время вывода можно получить контекст 8K, используя Trustremotecode=True. Обратите внимание, что в config.json установлена длина последовательности 8192. Ее можно изменить на 4096, если вы хотите попробовать использовать меньшую длину последовательности. 4-битные модели GPTQ для вывода GPU. 2, 3, 4, 5, 6 и 8-битные модели GGML для вывода CPU. Неквантованная модель SuperHOT fp16 в формате pytorch, для вывода GPU и для дальнейших преобразований. Неквантованная базовая модель fp16 в формате pytorch, для вывода GPU и для дальнейших преобразований. Затем запустите следующий код. По умолчанию в config.json используется длина последовательности 8192, но вы также можете настроить это в своем коде Python. Предоставленный код моделирования, активированный с помощью Trustremotecode=True, автоматически установит параметр масштабирования из настроенных maxpositionembeddings. Например, для 8192 масштаб установлен на 4. В репозитории имеется файл llamaropescaledmonkeypatch.py, написанный @kaiokendev. Теоретически это может быть…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: TheBloke
Теги: llama, custom_code, text-generation-inference
Лайков: 9 | Загрузок: 299
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.