Обработал все модели лазером, затем снова объединил. Надеюсь, это улучшение моей исходной модели. Конфиг выглядит так… (подробная версия в файлах и версиях): — macadeliccc/WestLake-7B-v2-laser-truthy-dpo — base — macadeliccc/WestLake-7B-v2-laser-truthy-dpo — Expert #1 — Cognitivecomputations/samantha-1.1-westlake-7b-laser — Expert #2 — macadeliccc/WestLake-7B-v2-laser-truthy-dpo — эксперт №3 — Kquant03/Triunvirato-7B-laser — эксперт №4 Масштаб модели — один из наиболее важных факторов повышения качества модели. При фиксированном вычислительном бюджете обучение более крупной модели меньшему количеству шагов лучше, чем обучение меньшей модели большему числу шагов. Смесь экспертов позволяет предварительно обучать модели с гораздо меньшими вычислительными затратами, что означает, что вы можете значительно увеличить размер модели или набора данных с тем же бюджетом вычислений, что и плотная модель. В частности, модель MoE должна достичь того же качества, что и ее плотный аналог, гораздо быстрее во время предварительного обучения. Итак, что же такое МО? В контексте моделей трансформаторов MoE состоит из двух основных элементов: вместо слоев плотной сети прямой связи (FFN) используются разреженные слои MoE. В слоях МинЧС есть определенное количество «экспертов»…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: Kquant03
Теги: mixtral, moe, merge, en, text-generation-inference, endpoints_compatible
Лайков: 6 | Загрузок: 5
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.