gradientai/Llama-3-8B-Instruct-Gradient-1048k

Gradient объединяет ваши данные для развертывания автономных помощников, которые обеспечивают выполнение критически важных операций в вашем бизнесе. Если вы хотите создавать собственные модели или агенты ИИ, напишите нам по адресу contact@gradient.ai. Для получения дополнительной информации см. нашу услугу комплексной разработки для пользовательских LLM и систем искусственного интеллекта. Эта модель расширяет длину контекста LLama-3 8B с 8 КБ до > 1040 КБ, разработанная Gradient при поддержке вычислительной компании Crusoe Energy. Это демонстрирует, что специалисты SOTA LLM могут научиться работать в длинном контексте с минимальной подготовкой, соответствующим образом корректируя тету RoPE. Для этого этапа мы обучили 830 миллионов токенов и всего 1,4 миллиарда токенов для всех этапов, что составляет <0,01% от исходных данных предварительного обучения Llama-3. Обновление (5/3). Мы дополнительно доработали нашу модель, чтобы улучшить ее возможности чата, подобные помощнику. RULER оценивает: — Наша модель уступает только GPT-4 и Yi в задачах поиска и вопросов и ответов. — Это модель с наименьшим параметром, вошедшая в топ-7 в общем зачете. — Meta-llama/Meta-Llama-3-8B-Instruct в качестве основы. — Интерполяция с поддержкой NTK [1] для инициализации оптимального расписания для теты RoPE с последующей эмпирической тета-оптимизацией RoPE. — Прогрессивное обучение увеличению длины контекста, аналогично. в Большой Мир…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: gradientai
Теги: llama, meta, llama-3, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 680 | Загрузок: 8,542

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Sepolian/Huihui-Qwen3.5-27B-Claude-4.6-Opus-abliterated-Q4_K_M

Salesforce/xLAM-8x22b-r

SuperSl6/Arabic-Text-Correction

nvidia/Nemotron-Orchestrator-8B