autotrust/DeepSeek-V4-Flash-DSpark-4E

Это контрольная точка DeepSeek-V4-Flash-DSpark — модель MoE 284B с модулем спекулятивного декодирования (DSpark), настроенная и оцененная с помощью numexpertspertok=4 (topk=4) вместо исходного numexpertspertok=6. Исходное число numexpertspertok=6 не является степенью 2**. На практике это означает: — Использование тензорного ядра графического процессора неоптимально для определенных форм диспетчеризации MoE. — Выравнивание памяти и планирование деформации менее эффективно по сравнению с экспертным подсчетом степени 2. — Решение о маршрутизации для каждого токена требует вычисления softmax более 6 логитов вместо 4, что приводит к ненужным накладным расходам. Установка topk в 4 (степень 2) дает архитектуре SIMT графического процессора естественное выравнивание для экспертной диспетчеризации и маскировки внимания, одновременно активируя на 33% меньше параметров для каждого токена без снижение точности** — а во многих сложных задачах — измеримое повышение точности. Архитектура DeepSeek-V4-Flash имеет всего 284B параметров, из которых ~13B активируются на каждый токен при topk=6. При переключении на topk=4 активированные параметры падают до ~11B — сокращение на 15% — потому что каждый токен направляется только к 4 из 256 перенаправленных экспертов вместо 6, в то время как общие эксперты и параметры внимания остаются неизменными.…

Модальности:
Генерация текста

Языки программирования:
Rust

Задача: Генерация текста
Автор: autotrust
Теги: deepseek_v4, deepseek, moe, dspark, topk4, endpoints_compatible, 8-bit, fp8
Лайков: 7 | Загрузок: 0

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

shibing624/chinese-text-correction-7b

Delta-Vector/Plesio-70B

failspy/Nemotron-4-340B-Instruct-SafeTensors

Qwen/Qwen1.5-4B-Chat-GPTQ-Int4