DBRX Instruct — это большая языковая модель, состоящая из нескольких экспертов (MoE), обученная с нуля компанией Databricks. DBRX Instruct специализируется на взаимодействиях в несколько оборотов. Мы выпускаем как DBRX Instruct, так и DBRX Base, предварительно обученную базовую модель, лежащую в ее основе, под открытой лицензией. Это репозиторий для DBRX Instruct. Базу DBRX можно найти здесь. Полную информацию о моделях DBRX можно найти в нашем техническом блоге. DBRX — это модель большого языка (LLM), основанная только на декодере, которая была обучена с использованием прогнозирования следующего токена. Он использует мелкозернистую архитектуру смешанных экспертов (MoE) с общим числом параметров 132B, из которых 36B параметров активны на любом входе. Он был предварительно обучен на 12Т токенах текстовых и кодовых данных. По сравнению с другими открытыми моделями MoE, такими как Mixtral-8x7B и Grok-1, DBRX является более детальным, то есть использует большее количество более мелких экспертов. DBRX имеет 16 экспертов и выбирает 4, в то время как Mixtral-8x7B и Grok-1 имеют 8 экспертов и выбирают 2. Это обеспечивает в 65 раз больше возможных комбинаций экспертов, и мы обнаружили, что это улучшает качество модели. DBRX использует кодирование поворотного положения (RoPE), стробированные линейные единицы (GLU) и внимание к групповым запросам (GQA). Он использует токенизатор GPT-4 в качестве…
Модальности:
Генерация текста
Области применения:
Следование инструкциям
Задача: Генерация текста
Автор: alpindale
Теги: dbrx, custom_code, text-generation-inference
Лайков: 23 | Загрузок: 308
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.