Модель Скачать | Результаты оценки | Модельная архитектура | Платформа API | Лицензия | Цитата На прошлой неделе выпуск и ажиотаж вокруг DeepSeek-V2 вызвали широкий интерес к MLA (Multi-head Latet Attention)! Многие в сообществе предложили открыть исходный код более мелкой модели Министерства экологии для углубленного исследования. И теперь выходит DeepSeek-V2-Lite: — Всего 16 млрд параметров, 2,4 млрд активных параметров, обучение с нуля с помощью токенов 5,7 тыс. — Превосходит 7B плотность и 16B MoE во многих английских и китайских тестах — Возможность развертывания на одном графическом процессоре 40G, тонкая настройка на 8x80G графических процессоров DeepSeek-V2, сильная языковая модель Mixture-of-Experts (MoE) путем экономического обучения и эффективных выводов. DeepSeek-V2 использует инновационные архитектуры, включая Multi-head Latent Attention (MLA) и DeepSeekMoE. MLA гарантирует эффективный вывод за счет значительного сжатия кэша «ключ-значение» (KV) в скрытый вектор, а DeepSeekMoE позволяет обучать надежные модели с экономичными затратами за счет разреженных вычислений. — 2024.05.16: Мы выпустили DeepSeek-V2-Lite. — 2024.05.06: Мы выпустили DeepSeek-V2. В DeepSeek-V2 мы предоставляем открытый исходный код базовых моделей и моделей чата двух размеров: из-за ограничений HuggingFace…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: deepseek-ai
Теги: deepseek_v2, conversational, custom_code, text-generation-inference, endpoints_compatible
Лайков: 135 | Загрузок: 386,933
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.