Это прямое извлечение 8 экспертов из Mixtral-8x7b-Instruct-v0.1 и перенос их в архитектуру DeepSeek-MoE. — Экспертная конфигурация: на каждый токен приходится 2 эксперта. — Производительность: Производительность идентична инструкции, если не немного лучше. — Оценки: Оценки появятся, когда прояснятся вычисления, они также станут более податливыми для обучения. — Экспериментирование: это первый из нескольких проектов по извлечению и модификации экспертов МО, над которыми мы работаем, и в будущем их будет еще больше. Наслаждаться. Чтобы использовать точную настройку инструкций, ваши подсказки должны быть заключены в токены [INST] и [/INST]. Самая первая инструкция должна начинаться с идентификатора начала предложения, а последующие инструкции — нет. Генерация помощника завершится получением идентификатора токена в конце предложения. Этот формат можно реализовать с помощью метода applychattemplate() из библиотеки преобразователей:
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: QuixiAI
Теги: deepseek, conversational, custom_code, en
Лайков: 13 | Загрузок: 13
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.