NileChat — это большая языковая модель (LLM) с 3 миллиардами параметров, адаптированная для египетских и марокканских сообществ. Он разработан с учетом их конкретных языковых диалектов, культурного наследия и ценностей. Модель демонстрирует владение как египетским, так и марокканским диалектным арабским языком (с использованием арабской графики и арабизи), а также сохраняет высокие показатели в современном стандартном арабском языке (MSA), французском и английском языках. Эта модель является подтверждением концепции, полученной на основе исследовательской работы «NileChat: к лингвистически разнообразным и культурно ориентированным программам LLM для местных сообществ». NileChat был разработан для решения проблемы недостаточной представленности языков с ограниченными ресурсами и местных культур в существующих программах LLM. Современные модели часто полагаются на перевод корпусов английского языка, что приводит к соответствию культуре исходного языка, а не целевым местным сообществам. Методология NileChat фокусируется на создании синтетических и поисковых данных для предварительного обучения, адаптированных к конкретному сообществу, с учетом его: (i) Язык: диалектные нюансы, идиоматические выражения и уникальные лингвистические структуры. (ii) Культурное наследие: обычаи, традиции, социальные нормы, исторический контекст и общие знания. …
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: UBC-NLP
Теги: qwen2, conversational, ary, arz, ar, en
Лайков: 23 | Загрузок: 1,425
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.