deepseek-ai/DeepSeek-V3.1-Base - Каталог нейросетей
Генерация текста

deepseek-ai/DeepSeek-V3.1-Base

Добавлено:
deepseek-ai/DeepSeek-V3.1-Base

DeepSeek-V3.1 — это гибридная модель, которая поддерживает как режим мышления, так и режим без мышления. По сравнению с предыдущей версией это обновление вносит улучшения по нескольким аспектам: — Гибридный режим мышления: одна модель поддерживает как режим мышления, так и режим без мышления за счет изменения шаблона чата. — Более разумный вызов инструментов: благодаря оптимизации после обучения производительность модели при использовании инструментов и выполнении задач агента значительно улучшилась. — Более высокая эффективность мышления: DeepSeek-V3.1-Think обеспечивает качество ответа, сравнимое с DeepSeek-R1-0528, но реагирует быстрее. DeepSeek-V3.1 проходит пост-обучение на основе DeepSeek-V3.1-Base, который построен на исходной базовой контрольной точке V3 с помощью двухэтапного подхода к расширению длинного контекста в соответствии с методологией, изложенной в исходном отчете DeepSeek-V3. Мы расширили наш набор данных, собрав дополнительные объемные документы и существенно расширив оба этапа обучения. Фаза расширения 32 тыс. была увеличена в 10 раз до 630 млрд токенов, а фаза расширения 128 тыс. увеличена в 3,3 раза до 209 млрд токенов. Кроме того, DeepSeek-V3.1 обучен с использованием формата данных весов UE8M0 FP8 как по весам моделей, так и по активациям, чтобы гарантировать…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: deepseek-ai
Теги: deepseek_v3, conversational, custom_code, text-generation-inference, endpoints_compatible, fp8
Лайков: 1,009  |  Загрузок: 21,001

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.