erax-ai/EraX-LLaMA3.1-8B-DeepSeekR1-MLA-MoE-Raw

В EraX нами движет любопытство. Мы взяли революционную модель LLaMA 3.1 8B и разработали революционную трансформацию, выборочно интегрируя передовые слои Multi-Head Latent Attention (MLA) и Mixture of Experts (MoE) DeepSeek R1. Мы рады поделиться кодом и довольно сырой моделью, усовершенствованной с учетом идей Клода Сонета 3.7, которые позволят вам: Преобразовать LLaMA 3.1: плавно конвертировать определенные уровни LLaMA 3.1-8B в усовершенствованную архитектуру MLA и MoE DeepSeek R1. Для MLA мы выбрали слои 8, 10, 12, 14, 16, 18, 20, 22, 24. Этот альтернативный подход слоев, конвертирующий каждый второй слой, дает несколько преимуществ: — Стабильность градиента: чередующиеся шаблоны помогают поддерживать более стабильный градиентный поток — Архитектурное разнообразие: обеспечивает сочетание механизмов обработки, которые могут дополнять друг друга — Меньший риск реализации: более консервативный подход, сохраняющий часть исходной архитектуры — Более простая изоляция производительности: упрощается приписывание изменений производительности конкретным модификациям. Для MoE** мы выбрали 11, 15, 19, 23 по следующим причинам: — Достаточно ранние, чтобы повлиять на обработку в средней сети — Расположены в критической средней точке цепочки рассуждений — Могут…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: erax-ai
Теги: llama_deepseek, llama, deepseek, mla, moe, multihead_latent_attention, mixtured_of_experts, blended
Лайков: 14 | Загрузок: 27

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

bartowski/THUDM_GLM-Z1-9B-0414-GGUF

digitous/GPT-R

DavidAU/L3-Grand-HORROR-25B-V2-STABLE-Godzillas-Wicked-Sister-GGUF

occiglot/occiglot-7b-eu5