Skywork/Skywork-MoE-Base-FP8 - Каталог нейросетей
Генерация текста

Skywork/Skywork-MoE-Base-FP8

Добавлено:
Skywork/Skywork-MoE-Base-FP8

🤗 Обнимающее лицо • 🤖 ModelScope • 👾 Wisemodel • 💬 WeChat• 📜Технический отчет Skywork-MoE — это высокопроизводительная модель смешанных экспертов (MoE) с 146 миллиардами параметров, 16 экспертами и 22 миллиардами активированных параметров. Эта модель инициализируется из уже существующих плотных контрольных точек нашей модели Skywork-13B. Мы представляем два инновационных метода: логит-нормализацию Gating, которая повышает экспертную диверсификацию, и адаптивные вспомогательные коэффициенты потерь, которые позволяют регулировать вспомогательные коэффициенты потерь для каждого слоя. Skywork-MoE демонстрирует сравнимую или превосходящую производительность по сравнению с моделями с большим количеством параметров или большим количеством активированных параметров, такими как Grok-1, DBRX, Mistral 8*22 и Deepseek-V2. — ☁️Скачать URL — 👨‍💻Результаты тестов — 🏆Демонстрация вывода модели обнимающего лица — 📕Демонстрация вывода модели vLLM — ⚠️Декларация и лицензионное соглашение — 🤝Свяжитесь с нами и цитируйте Мы оценивали модель Skywork-MoE-Base по различным популярным тестам, включая C-Eval, MMLU, CMMLU, GSM8K, MATH и HumanEval. Мы можем выполнить вывод для модели Skywork-MoE-Base (размер 16x13B), используя HuggingFace на аппаратных конфигурациях графического процессора 8xA100/A800 или выше. Мы предоставляем возможность быстро…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: Skywork
Теги: skywork_moe, custom_code, fp8
Лайков: 7  |  Загрузок: 16

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.