DavidAU/Mistral-Grand-R1-Dolphin-3.0-Deep-Reasoning-Brainstorm-45B-GGUF

Mistral-Grand-R1-Dolphin-3.0-Deep-Reasoning-Brainstorm-45B-GGUF Это экспериментальная сборка, сочетающая https://huggingface.co/cognitivecomputations/Dolphin3.0-R1-Mistral-24B с технологией Brainstorm 40x от DavidAU (подробно описанной в самом низу этой страницы), которая создала 45B (по сравнению с 24B), 79 слоев (вместо 40), 713+ тензорного мышления и рассуждения. Здесь используется тот же тип системы «рассуждения/мышления», что и в «DeepSeek», однако они более совершенны и детализированы. Я бы сказал, что это «уровень 2» по сравнению с моделями Deepseek Distill, включая модели reg DeepSeek и DeepSeek MOE, которые я построил. Обратите внимание, что рассуждение/генерация более высоких квантов намного сильнее, чем более низкие. Эта модель предназначена для всех случаев использования и имеет максимальный контекст 32 КБ. Возможно, вы захотите дать ему немного больше указаний на то, что вы хотите, потому что эта версия будет меньше «угадывать» и лучше следовать инструкциям. Микроизменения «температуры» могут иметь большое значение: IE 0,6, 0,61, 0,62 и т. д. в «процессе рассуждения/мышления». Для этой модели требуется шаблон «CHATML» (ИЛИ стандартный «Автозагруженный шаблон Jinja» (он содержится в кванте и будет автоматически загружаться)), диапазон температур от 0,5 до 0,7 (но вы можете увеличить его), респ…

Модальности:
Генерация текста

Области применения:
Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: DavidAU
Теги: gguf, context 32k, Chatml Template, Reasoning, R1, Thinking, Mistral Small, creative writing
Лайков: 13 | Загрузок: 187

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Qwen/Qwen2.5-Coder-32B-Instruct-GGUF

cyber-pal-security/CyberPal2.0-20B

tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.1

togethercomputer/LLaMA-2-7B-32K