FINAL-Bench/Darwin-31B-Opus

> Джемма 4 Плотная 31B | Режим мышления | 256K Контекст | 140+ языков | БФ16 | Apache 2.0 Слева: Отец (gemma-4-31B-it) — сбалансированный универсал с низкой активацией по большинству зондов. Справа: Мать (Клод-Опус-Дистилл) — сильная концентрация РАССУЖДЕНИЯ в L50-L60, активация КОДА на поздних уровнях, КОРЕЙСКИЙ в начале и в конце. Мать демонстрирует значительно более специализированные узоры слоев, полученные при дистилляции Клода Опуса. GPQA Diamond оценивался в одинаковых условиях для обеих моделей: одни и те же 50 вопросов, одно и то же начальное число (i+42), один и тот же шаблон подсказки, жадное декодирование (dosample=False), maxnewtokens=2048, Enablethinking=True. Darwin-31B-Opus достиг относительного улучшения на 10% по сравнению с моделью Father. Ключевые наблюдения по геному: ffnratio=0,93 указывает на то, что слои FFN сильно отдают предпочтение Матери (Клод Опус Дистилл), а блок 5 (L50-L59)=0,86 показывает, что слои разумного ядра также отдают предпочтение Матери. Это соответствует шаблону тепловой карты MDS, где способность Матери к рассуждению сосредоточена на последних слоях. Между тем, attn_ratio=0,32 сохраняет структуру внимания Отца, сохраняя исходные мультимодальные и долгоконтекстные возможности Gemma 4.

Модальности:
Генерация текста

Области применения:
Логика и рассуждение Диалог / чат Мультиязычность

Задача: Генерация текста
Автор: FINAL-Bench
Теги: gemma4, image-text-to-text, darwin-v6, evolutionary-merge, mri-guided, dare-ties, reasoning, thinking
Лайков: 27 | Загрузок: 1,302

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

lmstudio-community/Devstral-Small-2505-GGUF

bartowski/POLARIS-Project_Polaris-4B-Preview-GGUF

bigcode/starcoderbase-1b

cerebras/GLM-4.7-REAP-218B-A32B