Это МЧС Ламы-3-8б с 4 экспертами. При этом не используется семантическая маршрутизация, поскольку используется архитектура deepseek-moe. Маршрутизации и шлюзов нет — все эксперты активны на каждом токене.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Crystalcareai
Теги: deepseek, conversational, custom_code
Лайков: 30 | Загрузок: 173
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.