Gradient объединяет ваши данные для развертывания автономных помощников, которые обеспечивают выполнение критически важных операций в вашем бизнесе. Чтобы узнать больше или поработать над индивидуальной моделью, напишите нам по адресу contact@gradient.ai. Эта модель расширяет длину контекста LLama-3 8B с 8 КБ до > 160 КБ, разработанная компанией Gradient при финансовой поддержке вычислительной компании Crusoe Energy. Это демонстрирует, что специалисты SOTA LLM могут научиться работать в длинном контексте с минимальным обучением (<200 миллионов токенов) путем соответствующей настройки теты RoPE. Обновление (5/3). Мы дополнительно доработали нашу модель, чтобы усилить ее возможности чата, подобные помощнику. Результат NIAH обновляется. — Meta-llama/Meta-Llama-3-8B-Instruct в качестве основы — Интерполяция с поддержкой NTK [1] для инициализации оптимального расписания для теты RoPE, за которой следует новая техника оптимизации теты RoPE на основе данных — Прогрессивное обучение увеличению длины контекста, аналогично модели большого мира [2] (подробности см. ниже) Мы основываемся на библиотеке EasyContext Blockwise RingAttention [3] для масштабируемого и эффективного обучения на контекстах до 262144 токена в высокопроизводительном кластере Crusoe Energy L40S. GGUF доступен на аккаунте Crusoe Huggingface. Посмотрите здесь:…
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: gradientai
Теги: llama, meta, llama-3, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 261 | Загрузок: 2,008
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.