Не делай этого дерьма. Ну давай же. Открытые веса – это открытые веса. Не ворота. DBRX Base — это большая языковая модель, состоящая из нескольких экспертов (MoE), обученная с нуля компанией Databricks. Мы выпускаем как DBRX Base, предварительно обученную базовую модель, так и DBRX Instruct, настроенную версию для взаимодействия в несколько ходов, под открытой лицензией. Это репозиторий базы DBRX. Инструкцию DBRX можно найти здесь. Полную информацию о моделях DBRX можно найти в нашем техническом блоге. DBRX — это модель большого языка (LLM), основанная только на декодере, которая была обучена с использованием прогнозирования следующего токена. Он использует мелкозернистую архитектуру смешанных экспертов (MoE) с общим числом параметров 132B, из которых 36B параметров активны на любом входе. Он был предварительно обучен на 12Т токенах текстовых и кодовых данных. По сравнению с другими открытыми моделями MoE, такими как Mixtral-8x7B и Grok-1, DBRX является более детальным, то есть использует большее количество более мелких экспертов. DBRX имеет 16 экспертов и выбирает 4, в то время как Mixtral-8x7B и Grok-1 имеют 8 экспертов и выбирают 2. Это обеспечивает в 65 раз больше возможных комбинаций экспертов, и мы обнаружили, что это улучшает качество модели. DBRX использует кодирование поворотного положения (RoPE), стробированные линейные единицы (GLU) и сгруппированные запросы…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: Undi95
Теги: dbrx, custom_code, text-generation-inference
Лайков: 29 | Загрузок: 139
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.