bird-of-paradise/deepseek-mla

Этот репозиторий предоставляет реализацию PyTorch механизма многоголового скрытого внимания (MLA), представленного в документе DeepSeek-V2. Это не обученная модель, а скорее модульная реализация внимания, которая значительно уменьшает кэш KV для эффективного вывода, сохраняя при этом производительность модели благодаря своей инновационной архитектуре. Его можно использовать в качестве дополнительного модуля в трансформаторных архитектурах. Этот репозиторий является частью серии, реализующей ключевые архитектурные инновации из статьи DeepSeek. Полную серию см. в разделе «Связанные реализации». — Низкоранговое объединенное сжатие значений ключа: уменьшает объем памяти во время вывода. — Разделенное встраивание ротационных позиций: обеспечивает эффективное внимание с учетом позиции. — Оптимизированное управление кешем: обрабатывает как сжатые состояния KV, так и ротационные встраивания. — Поддержка перекрестного внимания: работает как для сценариев самообслуживания, так и для сценариев перекрестного внимания. Чтобы запустить набор тестов, выполните следующую команду из корневого каталога проекта: MLA сочетает в себе два ключевых нововведения: 1. Путь низкорангового сжатия для эффективного кэширования KV. 2. Разделенный путь с учетом положения с использованием RoPE. Подробные сведения об архитектуре см. в…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: bird-of-paradise
Теги: deepseek-mla, attention-mechanism, mla, efficient-attention, en
Лайков: 19 | Загрузок: 0

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

internlm/internlm2-7b

ubergarm/GLM-5-GGUF

willwade/t5-small-spoken-typo

inclusionAI/Ring-2.5-1T