deepseek-ai/DeepSeek-V2-Lite-Chat

Модель Скачать | Результаты оценки | Модельная архитектура | Платформа API | Лицензия | Цитата На прошлой неделе выпуск и ажиотаж вокруг DeepSeek-V2 вызвали широкий интерес к MLA (Multi-head Latet Attention)! Многие в сообществе предложили открыть исходный код более мелкой модели Министерства экологии для углубленного исследования. И теперь выходит DeepSeek-V2-Lite: — Всего 16 млрд параметров, 2,4 млрд активных параметров, обучение с нуля с помощью токенов 5,7 тыс. — Превосходит 7B плотность и 16B MoE во многих английских и китайских тестах — Возможность развертывания на одном графическом процессоре 40G, тонкая настройка на 8x80G графических процессоров DeepSeek-V2, сильная языковая модель Mixture-of-Experts (MoE) путем экономического обучения и эффективных выводов. DeepSeek-V2 использует инновационные архитектуры, включая Multi-head Latent Attention (MLA) и DeepSeekMoE. MLA гарантирует эффективный вывод за счет значительного сжатия кэша «ключ-значение» (KV) в скрытый вектор, а DeepSeekMoE позволяет обучать надежные модели с экономичными затратами за счет разреженных вычислений. — 2024.05.16: Мы выпустили DeepSeek-V2-Lite. — 2024.05.06: Мы выпустили DeepSeek-V2. В DeepSeek-V2 мы предоставляем открытый исходный код базовых моделей и моделей чата двух размеров: из-за ограничений HuggingFace…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: deepseek-ai
Теги: deepseek_v2, conversational, custom_code, text-generation-inference, endpoints_compatible
Лайков: 135 | Загрузок: 386,933

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

King3Djbl/mythos-9b-unhinged

bartowski/Qwen2.5-7B-Instruct-1M-GGUF

magiccodingman/Qwen3-4B-Instruct-2507-Unsloth-MagicQuant-Hybrid-GGUF

SamsungSDS-Research/SGuard-ContentFilter-2B-v1