Nous-Capybara-34B, Tess-M-v1.4, Airoboros-31-yi-34b-200k, PlatYi-34B-200K-Q, Pallas-0.4, Yi-34B-200K-AEZAKMI-v2 и немного SUS-Chat-34B** объединены с новой экспериментальной реализацией «смелых связей» через слияние комплект. См. карточку основной модели: https://huggingface.co/brucethemoose/Yi-34B-200K-DARE-merge-v5 Затем слияние было квантовано с помощью совершенно нового квантования exl2 exllamav2 0.0.11 с использованием 300 тыс. токенов из научно-фантастической истории, фэнтезийной истории и чата в формате Vicuna в качестве данных профилирования с большим размером контекста. Это должно привести к превосходной производительности записи для модели такого размера. Это квантование с частотой 4 бита в секунду может вместить ~45 тыс. контекста на графическом процессоре емкостью 24 ГБ с высоким качеством. Он может распознать ChatML или, может быть, Llama-chat от Airoboros. Иногда модель «прописывает» токен остановки как Капибара, поэтому вам может потребоваться добавить дополнительное условие остановки. Будучи моделью Yi, попробуйте использовать более низкую температуру с 0,05–0,1 MinP, небольшим штрафом за повторение и без других пробоотборников. По умолчанию Йи имеет тенденцию работать «горячо». Графические процессоры емкостью 24 ГБ могут запускать модели Yi-34B-200K в контексте 45K–75K с exllamav2 и высокопроизводительными пользовательскими интерфейсами, такими как exui. Более подробно я расскажу в этом посте. Объединено в mergekit со следующей конфигурацией и…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: brucethemoose
Теги: llama, text-generation-inference, merge, en, endpoints_compatible
Лайков: 6 | Загрузок: 4
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.