deepseek-ai/DeepSeek-V2 - Каталог нейросетей
Генерация текста

deepseek-ai/DeepSeek-V2

Добавлено:
deepseek-ai/DeepSeek-V2

Модель Скачать | Результаты оценки | Модельная архитектура | Платформа API | Лицензия | Цитирование Сегодня мы представляем DeepSeek-V2, мощную языковую модель Mixture-of-Experts (MoE), характеризующуюся экономичным обучением и эффективным выводом. Всего он содержит 236 миллиардов параметров, из которых 21 миллиард активируется для каждого токена. По сравнению с DeepSeek 67B, DeepSeek-V2 обеспечивает более высокую производительность и при этом экономит 42,5% затрат на обучение, уменьшает объем KV-кэша на 93,3% и увеличивает максимальную пропускную способность генерации в 5,76 раза. Мы предварительно обучили DeepSeek-V2 на разнообразном и высококачественном корпусе, состоящем из 8,1 триллиона токенов. За этим комплексным предварительным обучением последовал процесс контролируемой точной настройки (SFT) и обучения с подкреплением (RL), чтобы полностью раскрыть возможности модели. Результаты оценки подтверждают эффективность нашего подхода, поскольку DeepSeek-V2 достигает выдающихся результатов как в стандартных тестах, так и в открытой оценке поколений. Из-за ограничений HuggingFace производительность кода с открытым исходным кодом в настоящее время ниже, чем у нашей внутренней кодовой базы при работе на графических процессорах с Huggingface. Чтобы облегчить эффективное выполнение нашей модели, мы предлагаем…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: deepseek-ai
Теги: deepseek_v2, conversational, custom_code, text-generation-inference, endpoints_compatible
Лайков: 333  |  Загрузок: 8,761

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.