Meltemi v1.5 — это версия Meltemi 7B v1, разработанная Институтом обработки языка и речи в научно-исследовательском и инновационном центре Athena. Meltemi построен на основе Mistral 7B и расширяет свои возможности по греческому языку за счет постоянной предварительной подготовки на большом корпусе высококачественных и местных греческих текстов. Представляем Meltemi 7B v1.5, а также инструкцию доработанной версии Meltemi 7B Instruct v1.5. — Расширение словарного запаса токенизатора Mistral 7B греческими токенами для снижения затрат и более быстрого вывода (1,52 против 6,80 токенов/слово для греческого языка) — Длина контекста 8192 — Мы расширяем предварительное обучение Mistral 7B с дополнительным знанием греческого языка, используя большой корпус, состоящий примерно из 55 миллиардов токенов. Этот корпус включает 43,3 миллиарда одноязычных греческих токенов, созданных на основе общедоступных ресурсов. Кроме того, чтобы смягчить катастрофическое забывание и обеспечить двуязычность модели, мы используем дополнительные субкорпуса с одноязычными английскими текстами (10,5 миллиардов токенов) и параллельными греко-английскими данными (600 миллионов токенов). Этот корпус был обработан, отфильтрован и дедуплицирован для обеспечения качества данных (подробный…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: ilsp
Теги: mistral, el, en, text-generation-inference, endpoints_compatible
Лайков: 20 | Загрузок: 102
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.