gradientai/Llama-3-8B-Instruct-262k

Gradient объединяет ваши данные для развертывания автономных помощников, которые обеспечивают выполнение критически важных операций в вашем бизнесе. Чтобы узнать больше или поработать над индивидуальной моделью, напишите нам по адресу contact@gradient.ai. Эта модель расширяет длину контекста LLama-3 8B с 8 КБ до > 160 КБ, разработанная компанией Gradient при финансовой поддержке вычислительной компании Crusoe Energy. Это демонстрирует, что специалисты SOTA LLM могут научиться работать в длинном контексте с минимальным обучением (<200 миллионов токенов) путем соответствующей настройки теты RoPE. Обновление (5/3). Мы дополнительно доработали нашу модель, чтобы усилить ее возможности чата, подобные помощнику. Результат NIAH обновляется. — Meta-llama/Meta-Llama-3-8B-Instruct в качестве основы — Интерполяция с поддержкой NTK [1] для инициализации оптимального расписания для теты RoPE, за которой следует новая техника оптимизации теты RoPE на основе данных — Прогрессивное обучение увеличению длины контекста, аналогично модели большого мира [2] (подробности см. ниже) Мы основываемся на библиотеке EasyContext Blockwise RingAttention [3] для масштабируемого и эффективного обучения на контекстах до 262144 токена в высокопроизводительном кластере Crusoe Energy L40S. GGUF доступен на аккаунте Crusoe Huggingface. Посмотрите здесь:…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: gradientai
Теги: llama, meta, llama-3, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 261 | Загрузок: 2,008

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

OPI-PG/Qra-7b

liminerity/Mistral-quiet-star-demo

crumb/gpt2023

wenge-research/yayi2-30b