В EraX нами движет любопытство. Мы взяли революционную модель LLaMA 3.1 8B и разработали революционную трансформацию, выборочно интегрируя передовые слои Multi-Head Latent Attention (MLA) и Mixture of Experts (MoE) DeepSeek R1. Мы рады поделиться кодом и довольно сырой моделью, усовершенствованной с учетом идей Клода Сонета 3.7, которые позволят вам: Преобразовать LLaMA 3.1: плавно конвертировать определенные уровни LLaMA 3.1-8B в усовершенствованную архитектуру MLA и MoE DeepSeek R1. Для MLA мы выбрали слои 8, 10, 12, 14, 16, 18, 20, 22, 24. Этот альтернативный подход слоев, конвертирующий каждый второй слой, дает несколько преимуществ: — Стабильность градиента: чередующиеся шаблоны помогают поддерживать более стабильный градиентный поток — Архитектурное разнообразие: обеспечивает сочетание механизмов обработки, которые могут дополнять друг друга — Меньший риск реализации: более консервативный подход, сохраняющий часть исходной архитектуры — Более простая изоляция производительности: упрощается приписывание изменений производительности конкретным модификациям. Для MoE** мы выбрали 11, 15, 19, 23 по следующим причинам: — Достаточно ранние, чтобы повлиять на обработку в средней сети — Расположены в критической средней точке цепочки рассуждений — Могут…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: erax-ai
Теги: llama_deepseek, llama, deepseek, mla, moe, multihead_latent_attention, mixtured_of_experts, blended
Лайков: 14 | Загрузок: 27
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.