Этот репозиторий предоставляет реализацию PyTorch механизма многоголового скрытого внимания (MLA), представленного в документе DeepSeek-V2. Это не обученная модель, а скорее модульная реализация внимания, которая значительно уменьшает кэш KV для эффективного вывода, сохраняя при этом производительность модели благодаря своей инновационной архитектуре. Его можно использовать в качестве дополнительного модуля в трансформаторных архитектурах. Этот репозиторий является частью серии, реализующей ключевые архитектурные инновации из статьи DeepSeek. Полную серию см. в разделе «Связанные реализации». — Низкоранговое объединенное сжатие значений ключа: уменьшает объем памяти во время вывода. — Разделенное встраивание ротационных позиций: обеспечивает эффективное внимание с учетом позиции. — Оптимизированное управление кешем: обрабатывает как сжатые состояния KV, так и ротационные встраивания. — Поддержка перекрестного внимания: работает как для сценариев самообслуживания, так и для сценариев перекрестного внимания. Чтобы запустить набор тестов, выполните следующую команду из корневого каталога проекта: MLA сочетает в себе два ключевых нововведения: 1. Путь низкорангового сжатия для эффективного кэширования KV. 2. Разделенный путь с учетом положения с использованием RoPE. Подробные сведения об архитектуре см. в…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: bird-of-paradise
Теги: deepseek-mla, attention-mechanism, mla, efficient-attention, en
Лайков: 19 | Загрузок: 0
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.