fblgit/UNAversal-8x7B-v1beta - Каталог нейросетей
Генерация текста

fblgit/UNAversal-8x7B-v1beta

Добавлено:
fblgit/UNAversal-8x7B-v1beta

Это всего лишь бета-версия, первый выпуск, чтобы люди могли начать работать над франкштейнами и так далее. Он действительно обеспечивает высокие показатели GSM/Math и TQA, поэтому в идеале вы можете объединить его с другими микстралями и посмотреть, что из этого выйдет. На основе mistralai/Mixtral-8x7B-Instruct-v0.1. Для этой модели мы выбрали наиболее очевидный вариант, поместив UNA в router_logit. Это действительно работает, но благодаря этому мы увидели гораздо лучшую производительность на SFT. Итак, эта модель ДЕЙСТВИТЕЛЬНО имеет фазу UNA-SFT, она очень экспериментальная и просто использует наборы данных LLaMA-Factory на примере альпаки. Что касается остальных: — Можно дополнительно доработать, попробуйте 2e-5 или 1e-4 (поскольку это МЧС) — Можно объединить, здесь вам придется импровизировать и сообщить о результатах в ветке обсуждения. НАПОМИНАНИЕ: пожалуйста… процитируйте, это действительно помогает исследованиям и самой лаборатории, серьезно. Мне нужен многооборотный контур для Mixtral, который сможет как следует выжать сок из 8xH100. Пожалуйста, не стесняйтесь связаться с @fblgit в Discord или Twitter. Спасибо! Вот некоторые из них, но мы также отправили их в очередь проверки HF….

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: fblgit
Теги: mixtral, UNA, juanako, MoE, conversational, en, model-index, text-generation-inference
Лайков: 8  |  Загрузок: 187

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.