Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled

> Обновление: > Эта модель была дополнительно улучшена за счет дополнительных данных рассуждений, взятых из Qwen3.5-27B. > > Новые данные обучения представляют более качественные траектории рассуждения в таких областях, как естествознание, выполнение инструкций и математика. > > Часть данных взята из Jackrong/Qwen3.5-reasoning-700x, курируемого набора данных, предназначенного для улучшения структурированного пошагового рассуждения и разнообразия рассуждений. Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled — это высокопроизводительная модель рассуждения, настроенная на основе плотной архитектуры Qwen3.5-2B. Основная директива модели заключается в использовании современной дистилляции цепочки мыслей (CoT), в первую очередь полученной из взаимодействий Claude-4.6 Opus. Благодаря контролируемой точной настройке (SFT), ориентированной конкретно на структурированную логику рассуждений, эта модель превосходно справляется с решением сложных пользовательских проблем, планированием пошаговых методологий в строго отформатированных тегах и, в конечном итоге, предоставлением точных и детальных решений. Модель включает в себя целевую оптимизацию, направленную на устранение склонности Qwen3.5 к чрезмерному переходному или повторяющемуся рассуждению в простых запросах. Путем глубокой дистилляции и структурной имитации рассуждений Клода-4.6-Опуса…

Модальности:
Генерация текста

Области применения:
Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: Jackrong
Теги: qwen3_5, unsloth, qwen, qwen3.5, qwen3.5-2B, reasoning, chain-of-thought, lora
Лайков: 10 | Загрузок: 672

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

NumbersStation/nsql-llama-2-7B

01-ai/Yi-1.5-6B-Chat

bartowski/Replete-Coder-Qwen2-1.5b-GGUF

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8