DeepHat/DeepHat-V1-7B

DeepHat — это модельная серия, которую можно использовать для наступательной и оборонительной кибербезопасности. Получите доступ к Deephat.ai или перейдите на Kindo.ai, чтобы создать агентов. DeepHat представляет собой усовершенствованную версию Qwen2.5-Coder-7B и наследует следующие функции: — Тип: причинные языковые модели — Этап обучения: предварительное и постобучение — Архитектура: преобразователи с RoPE, SwiGLU, RMSNorm и смещением QKV внимания — Количество параметров: 7,61B — Количество параметров (без внедрения): 6,53B — Количество слоев: 28 — Количество заголовков внимания (GQA): 28 для Q и 4 для KV — Длина контекста: полные 131 072 токена. Подробные инструкции по развертыванию Qwen2.5 для обработки длинных текстов см. в этом разделе. Здесь представлен фрагмент кода с применением шаблона applychat, который покажет вам, как загрузить токенизатор и модель и как генерировать содержимое. Текущий файл config.json настроен на длину контекста до 32 768 токенов. Для обработки обширных входных данных, превышающих 32 768 токенов, мы используем YaRN, метод улучшения экстраполяции длины модели, обеспечивающий оптимальную производительность при работе с длинными текстами. Для поддерживаемых платформ вы можете добавить следующее в config.json, чтобы включить YaRN: Получая доступ и используя этот искусственный интеллект (ИИ)…

Модальности:
Генерация текста

Области применения:
Генерация кода Диалог / чат

Задача: Генерация текста
Автор: DeepHat
Теги: qwen2, code, qwen-coder, cybersecurity, devops, conversational, en, text-generation-inference
Лайков: 118 | Загрузок: 47,469

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF

zerofata/L3.3-GeneticLemonade-Unleashed-v3-70B

unsloth/Mistral-Small-24B-Instruct-2501-GGUF

TheBloke/CodeLlama-34B-Python-GPTQ