rinna/qwen2.5-bakeneko-32b-instruct

Эта модель представляет собой настроенный по инструкциям вариант rinna/qwen2.5-bakeneko-32b, настроенный с использованием Chat Vector и Simple Preference Optimization (SimPO). Он соответствует формату чата Qwen2.5 и предназначен для обеспечения превосходной производительности при решении задач по японскому языку. 64-слойная языковая модель на основе преобразователя скрытого размера 5120. Для полного понимания архитектуры обратитесь к техническому отчету Qwen2.5. Эта модель была разработана посредством многоэтапного процесса обучения: слияние моделей. Базовая модель была дополнена возможностями следования инструкциям посредством добавления вектора чата. Вектор чата был получен путем вычитания векторов параметров Qwen/Qwen2.5-32B-Instruct из Qwen/Qwen2.5-32B следующим образом. ~~~~text rinna/qwen2.5-bakeneko-32b + 1.0 * (Qwen/Qwen2.5-32B-Instruct — Qwen/Qwen2.5-32B) ~~~~ Во время этого процесса слой внедрения был опущен при выполнении вычитания и сложения векторов параметров. SimPO был применен с использованием подмножества следующего набора данных для дальнейшего улучшения производительности объединенной модели. Участники** — Синьци Чен — Тошиаки Вакацуки — Кей Савада ~~~python импортирует факел из трансформаторов, импортирует AutoTokenizer,…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: rinna
Теги: qwen2, conversational, ja, text-generation-inference, endpoints_compatible
Лайков: 7 | Загрузок: 100

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

LoneStriker/Air-Striker-Mixtral-8x7B-Instruct-ZLoss-3.75bpw-h6-exl2

Novaciano/Llama-3.2_1b_Uncensored_RP_Aesir_GGUF

Salesforce/xgen-small-9B-instruct-r

bofenghuang/vigogne-13b-instruct