Метка: mixture of experts - Каталог нейросетей

Метка: mixture of experts

Генерация текста

DavidAU/NVIDIA-Nemotron-Labs-3-Elastic-12B-A2B

Это версия 12B-A2B NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16 с использованием сценария извлечения Nvidia. Это модель мышления/рассуждения; его мыслительный блок/следы очень короткие. Почти...

Генерация текста

barozp/ZAYA1-8B-BNB

> Примечание. ZAYA1-8B использует собственную разреженную архитектуру MoE (ZayaForCausalLM), которая еще не поддерживается llama.cpp. Файлы GGUF будут добавлены...

Генерация текста

NinjaBoffin/MiniMax-M2.7-NVFP4

Квантование MiniMaxAI/MiniMax-M2.7 высокого качества NVFP4 для графических процессоров NVIDIA Blackwell. 5000 калибровочных образцов в 5 различных наборах данных....

Генерация текста

thoughtworks/MiniMax-M2.5-Eagle3

Легкая вытяжная головка EAGLE3 для MiniMax-M2.5 (229B MoE, ~10B активных параметров). Обучение проходило в SpecForge на 8 графических...

Генерация текста

ATH-MaaS/Marco-Mini-Global-Base

Marco-Mini-Global-Base — это расширенный вариант Marco-Mini-Base, который масштабирует лингвистический охват с 29 до 64 языков. Это очень редкая...

Генерация текста

empero-ai/openNemo-Cascade-2-30B-A3B

Замена Pure-PyTorch для NVIDIA Nemotron-Cascade-2-30B-A3B. Удаляет все внешние зависимости ядра CUDA (mamba-ssm, causal-conv1d) и заменяет их собственными операциями...