ConvexAI/Solutus-3x7B

Модель для проверки того, как МО будет прокладывать трассу без расширения площади. Конфигурация выглядит следующим образом… (подробная версия находится в файлах и версиях): — Cognitivecomputations/WestLake-7B-v2-laser — base — mlabonne/Daredevil-7B — Expert #1 — CognitiveComputations/WestLake-7B-v2-laser — Expert #2 — mlabonne/Daredevil-7B — Expert #3 Масштаб модели является одним из важнейших факторов повышения качества модели. При фиксированном вычислительном бюджете обучение более крупной модели меньшему количеству шагов лучше, чем обучение меньшей модели большему количеству шагов. Смесь экспертов позволяет предварительно обучать модели с гораздо меньшими вычислительными затратами, что означает, что вы можете значительно увеличить размер модели или набора данных с тем же бюджетом вычислений, что и плотная модель. В частности, модель MoE должна достичь того же качества, что и ее плотный аналог, гораздо быстрее во время предварительного обучения. Итак, что же такое МО? В контексте моделей трансформаторов MoE состоит из двух основных элементов: вместо слоев плотной сети прямой связи (FFN) используются разреженные слои MoE. Слои MoE имеют определенное количество «экспертов» (например, 32 в моем «frankenMoE»), где каждый эксперт представляет собой нейронную сеть. На практике экспертами являются FFN, но они могут быть и более сложными…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: ConvexAI
Теги: mixtral, moe, merge, en, model-index, text-generation-inference, endpoints_compatible
Лайков: 7 | Загрузок: 93

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

humain-ai/ALLaM-7B-Instruct-preview

lenML/aya-expanse-8b-abliterated

bavest/fin-llama-33b-merged

billborkowski/llava-NousResearch_Nous-Hermes-2-Vision-GGUF