Метка: mixture of experts

Генерация текста

cyberneurova/CyberNeurova-Qwen3.6-35B-A3B-abliterated

> Исследование CyberNeurova — cyberneurova.ai. > Многоосная аблитерация на модели чата МО с гибридным вниманием и режимом мышления....

Генерация текста

DavidAU/LFM2-8B-A1B-GLM-4.7-Flash-Thinking-Quantum-IQ1C-P

Точная настройка «LFM2-8B-A1B» с помощью Unsloth с использованием пользовательских наборов данных, контекст 128 КБ с точностью до 16...

Генерация текста

DavidAU/NVIDIA-Nemotron-Labs-3-Elastic-12B-A2B

Это версия 12B-A2B NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16 с использованием сценария извлечения Nvidia. Это модель мышления/рассуждения; его мыслительный блок/следы очень короткие. Почти...

Генерация текста

barozp/ZAYA1-8B-BNB

> Примечание. ZAYA1-8B использует собственную разреженную архитектуру MoE (ZayaForCausalLM), которая еще не поддерживается llama.cpp. Файлы GGUF будут добавлены...

Генерация текста

Youssofal/Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-8bit

Это MLX-релиз урезанной версии Qwen3.6-35B-A3B от Qwen. Применив конвейер абляции Heretic к текстовому стеку MoE, поведение базового отказа...

Генерация текста

NinjaBoffin/MiniMax-M2.7-NVFP4

Квантование MiniMaxAI/MiniMax-M2.7 высокого качества NVFP4 для графических процессоров NVIDIA Blackwell. 5000 калибровочных образцов в 5 различных наборах данных....

Генерация текста

thoughtworks/MiniMax-M2.5-Eagle3

Легкая вытяжная головка EAGLE3 для MiniMax-M2.5 (229B MoE, ~10B активных параметров). Обучение проходило в SpecForge на 8 графических...

Генерация текста

caiovicentino1/Qwopus-MoE-35B-A3B-HLWQ-Q5

> [!ВАЖНО] > Уведомление об именовании (10 апреля 2026 г.). Метод «HLWQ», используемый в этой модели, переименовывается в...

Генерация текста

ATH-MaaS/Marco-Mini-Global-Base

Marco-Mini-Global-Base — это расширенный вариант Marco-Mini-Base, который масштабирует лингвистический охват с 29 до 64 языков. Это очень редкая...

Генерация текста

empero-ai/openNemo-Cascade-2-30B-A3B

Замена Pure-PyTorch для NVIDIA Nemotron-Cascade-2-30B-A3B. Удаляет все внешние зависимости ядра CUDA (mamba-ssm, causal-conv1d) и заменяет их собственными операциями...