Эта модель представляет собой настроенный по инструкциям вариант rinna/qwen2.5-bakeneko-32b, настроенный с использованием Chat Vector и Simple Preference Optimization (SimPO). Он соответствует формату чата Qwen2.5 и предназначен для обеспечения превосходной производительности при решении задач по японскому языку. 64-слойная языковая модель на основе преобразователя скрытого размера 5120. Для полного понимания архитектуры обратитесь к техническому отчету Qwen2.5. Эта модель была разработана посредством многоэтапного процесса обучения: слияние моделей. Базовая модель была дополнена возможностями следования инструкциям посредством добавления вектора чата. Вектор чата был получен путем вычитания векторов параметров Qwen/Qwen2.5-32B-Instruct из Qwen/Qwen2.5-32B следующим образом. ~~~~text rinna/qwen2.5-bakeneko-32b + 1.0 * (Qwen/Qwen2.5-32B-Instruct — Qwen/Qwen2.5-32B) ~~~~ Во время этого процесса слой внедрения был опущен при выполнении вычитания и сложения векторов параметров. SimPO был применен с использованием подмножества следующего набора данных для дальнейшего улучшения производительности объединенной модели. Участники** — Синьци Чен — Тошиаки Вакацуки — Кей Савада ~~~python импортирует факел из трансформаторов, импортирует AutoTokenizer,…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: rinna
Теги: qwen2, conversational, ja, text-generation-inference, endpoints_compatible
Лайков: 7 | Загрузок: 100
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.