casperhansen/deepseek-coder-v2-instruct-awq

Эта модель была квантована на 4x A100 по 80 ГБ с системной оперативной памятью 1 ТБ. Он был квантован с использованием выбранных предпочтений из набора данных кодирования OpenHermes 2.5: https://huggingface.co/datasets/alvarobartt/openhermes-preferences-coding. Мы представляем DeepSeek-Coder-V2, модель языка кода Mixture-of-Experts (MoE) с открытым исходным кодом, которая обеспечивает производительность, сравнимую с GPT4-Turbo в задачах, специфичных для кода. В частности, DeepSeek-Coder-V2 дополнительно проходит предварительное обучение на промежуточной контрольной точке DeepSeek-V2 с дополнительными 6 триллионами токенов. Благодаря непрерывному предварительному обучению DeepSeek-Coder-V2 существенно расширяет возможности DeepSeek-V2 по кодированию и математическим рассуждениям, сохраняя при этом сопоставимую производительность в общеязыковых задачах. По сравнению с DeepSeek-Coder-33B, DeepSeek-Coder-V2 демонстрирует значительные улучшения в различных аспектах задач, связанных с кодом, а также в рассуждениях и общих возможностях. Кроме того, DeepSeek-Coder-V2 расширяет поддержку языков программирования с 86 до 338, одновременно увеличивая длину контекста с 16 КБ до 128 КБ. В стандартных тестах DeepSeek-Coder-V2 демонстрирует превосходную производительность по сравнению с моделями с закрытым исходным кодом, такими как GPT4-Turbo,…

Модальности:
Генерация текста

Области применения:
Диалог / чат Генерация кода Следование инструкциям

Задача: Генерация текста
Автор: casperhansen
Теги: deepseek_v2, conversational, custom_code, text-generation-inference, endpoints_compatible, 4-bit, awq
Лайков: 11 | Загрузок: 29,033

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

alykassem/FLAN-T5-Paraphraser

google/codegemma-7b-it-pytorch

potsawee/t5-large-generation-race-QuestionAnswer

Gryphe/MythoLogic-Mini-7b