autotrust/DeepSeek-V4-Flash-DSpark-4E - Каталог нейросетей
Генерация текста

autotrust/DeepSeek-V4-Flash-DSpark-4E

Добавлено:
autotrust/DeepSeek-V4-Flash-DSpark-4E

Это контрольная точка DeepSeek-V4-Flash-DSpark — модель MoE 284B с модулем спекулятивного декодирования (DSpark), настроенная и оцененная с помощью numexpertspertok=4 (topk=4) вместо исходного numexpertspertok=6. Исходное число numexpertspertok=6 не является степенью 2**. На практике это означает: — Использование тензорного ядра графического процессора неоптимально для определенных форм диспетчеризации MoE. — Выравнивание памяти и планирование деформации менее эффективно по сравнению с экспертным подсчетом степени 2. — Решение о маршрутизации для каждого токена требует вычисления softmax более 6 логитов вместо 4, что приводит к ненужным накладным расходам. Установка topk в 4 (степень 2) дает архитектуре SIMT графического процессора естественное выравнивание для экспертной диспетчеризации и маскировки внимания, одновременно активируя на 33% меньше параметров для каждого токена без снижение точности** — а во многих сложных задачах — измеримое повышение точности. Архитектура DeepSeek-V4-Flash имеет всего 284B параметров, из которых ~13B активируются на каждый токен при topk=6. При переключении на topk=4 активированные параметры падают до ~11B — сокращение на 15% — потому что каждый токен направляется только к 4 из 256 перенаправленных экспертов вместо 6, в то время как общие эксперты и параметры внимания остаются неизменными.…

Модальности:
Генерация текста

Языки программирования:
Rust


Задача: Генерация текста
Автор: autotrust
Теги: deepseek_v4, deepseek, moe, dspark, topk4, endpoints_compatible, 8-bit, fp8
Лайков: 7  |  Загрузок: 0

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.