> Обновление: > Эта модель была дополнительно улучшена за счет дополнительных данных рассуждений, взятых из Qwen3.5-27B. > > Новые данные обучения представляют более качественные траектории рассуждения в таких областях, как естествознание, выполнение инструкций и математика. > > Часть данных взята из Jackrong/Qwen3.5-reasoning-700x, курируемого набора данных, предназначенного для улучшения структурированного пошагового рассуждения и разнообразия рассуждений. Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled — это высокопроизводительная модель рассуждения, настроенная на основе плотной архитектуры Qwen3.5-2B. Основная директива модели заключается в использовании современной дистилляции цепочки мыслей (CoT), в первую очередь полученной из взаимодействий Claude-4.6 Opus. Благодаря контролируемой точной настройке (SFT), ориентированной конкретно на структурированную логику рассуждений, эта модель превосходно справляется с решением сложных пользовательских проблем, планированием пошаговых методологий в строго отформатированных тегах и, в конечном итоге, предоставлением точных и детальных решений. Модель включает в себя целевую оптимизацию, направленную на устранение склонности Qwen3.5 к чрезмерному переходному или повторяющемуся рассуждению в простых запросах. Путем глубокой дистилляции и структурной имитации рассуждений Клода-4.6-Опуса…
Модальности:
Генерация текста
Области применения:
Логика и рассуждение Диалог / чат
Задача: Генерация текста
Автор: Jackrong
Теги: qwen3_5, unsloth, qwen, qwen3.5, qwen3.5-2B, reasoning, chain-of-thought, lora
Лайков: 10 | Загрузок: 672
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.