featherless-ai/QRWKV-72B

— Опробуйте модель на ![Featherless](https://featherless.ai/models/featherless-ai/QRWKV-72B) — Подробности модели из нашего блога здесь! ![Substack](https://substack.recursal.ai/p/qwerky-72b-and-32b-training-large) — эта модель была представлена в RADLADS: быстрая дистилляция внимания к линейным декодерам внимания в масштабе. — Код: https://github.com/recursal/RADLADS-paper Тесты для моделей QRWKV-QwQ-32B и QRWKV-72B следующие: > Примечание. Все тесты, кроме MMLU, являются нулевыми и имеют версию 1. Для MMLU это версия 2. Поскольку эта модель в данный момент не используется на трансформаторах, вам придется включить удаленный код с помощью следующей строки. Помимо включения удаленного кода, вы можете запускать модель как обычную модель с такими преобразователями. Линейные модели предлагают многообещающий подход к значительному сокращению вычислительных затрат в масштабе, особенно для контекстов большой длины. Обеспечивает более чем 1000-кратное снижение затрат на логические выводы, сокращает время на мышление и обеспечивает более широкую доступность ИИ. Как было продемонстрировано на примере QRWKV-72B-Preview и предыдущих моделей, таких как QRWKV6-32B Instruct Preview, мы успешно преобразовали Qwen 2.5 72B в вариант RWKV, не требуя предварительной подготовки на базе…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: featherless-ai
Теги: rwkv6qwen2, conversational, custom_code
Лайков: 66 | Загрузок: 114

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.