v2ray/dbrx-base-fixed - Каталог нейросетей
Генерация текста

v2ray/dbrx-base-fixed

Добавлено:
v2ray/dbrx-base-fixed

Исходный код реализации DBRX содержит несколько ошибок, влияющих только на обучение, которые я исправил в этой повторной загрузке. Проблемы. Как я их исправил: 1. Ошибка при использовании контрольных точек градиента. Исправлено путем использования вместо них позиционных аргументов, поскольку функция Gradientcheckpointingfunc не поддерживает kwargs. 2. Использование VRAM при масштабировании и нехватка памяти CUDA при обратном распространении через уровень MLP. Исправлено путем разделения весов экспертов на разные тензоры вместо использования одного тензора для всех экспертов. ИДК, почему это исправлено, но, возможно, это потому, что Torch пытается вычислить градиент для каждого эксперта одновременно, чего не должно происходить, поскольку это модель MoE. DBRX Base — это большая языковая модель, состоящая из нескольких экспертов (MoE), обученная с нуля компанией Databricks. Мы выпускаем как DBRX Base, предварительно обученную базовую модель, так и DBRX Instruct, настроенную версию для взаимодействия в несколько ходов, под открытой лицензией. Это репозиторий базы DBRX. Инструкцию DBRX можно найти здесь. Полную информацию о моделях DBRX можно найти в нашем техническом блоге. DBRX — это модель большого языка (LLM), основанная только на декодере, которая была обучена с использованием прогнозирования следующего токена. Он использует мелкозернистую смесь экспертов…

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: v2ray
Теги: dbrx, conversational, custom_code, text-generation-inference
Лайков: 6  |  Загрузок: 13

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.