TLDR | Обзор | Использование | Производительность LongLLaMA | Авторы | Цитирование | Лицензия | Благодарности LongLLaMA построен на основе OpenLLaMA и настроен с использованием метода фокусированного преобразователя (FoT). Мы выпускаем меньший базовый вариант 3B (не настроенный на инструкции) модели LongLLaMA с разрешительной лицензией (Apache 2.0) и кодом вывода, поддерживающим более длинные контексты в Hugging Face. Наши веса моделей могут служить заменой LLaMA в существующих реализациях (для короткого контекста до 2048 токенов). Кроме того, мы предоставляем результаты оценки и сравнения с оригинальными моделями OpenLLaMA. Следите за дальнейшими обновлениями. Сфокусированный преобразователь: контрастное обучение масштабированию контекста (FoT) представляет собой простой метод наделения языковых моделей способностью обрабатывать контекст, состоящий, возможно, из миллионов токенов, при обучении на значительно более коротких входных данных. FoT позволяет подмножеству уровней внимания получать доступ к кешу памяти пар (ключ, значение) для увеличения длины контекста. Отличительным аспектом FoT является процедура обучения, основанная на контрастном обучении. В частности, мы намеренно подвергаем уровни внимания памяти как релевантным, так и…
Модальности:
Генерация текста
Области применения:
Генерация кода
Задача: Генерация текста
Автор: syzymon
Теги: longllama, code, custom_code, model-index
Лайков: 10 | Загрузок: 16
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.