PLLuM — это семейство больших языковых моделей (LLM), специализирующихся на польском и других славянских/балтийских языках, с дополнительными данными по английскому языку, включенными для более широкого обобщения. Модели PLLuM, разработанные в тесном сотрудничестве с различными поставщиками данных, основаны на высококачественных текстовых корпусах и уточняются посредством настройки инструкций, изучения предпочтений и передовых методов выравнивания. Эти модели предназначены для создания контекстно-связного текста, предлагают помощь в различных задачах (например, ответы на вопросы, обобщение) и служат основой для специализированных приложений, таких как интеллектуальные помощники для конкретной предметной области. — Обширный сбор данных. Мы собрали крупномасштабные высококачественные текстовые данные на польском языке (около 150 миллиардов токенов после очистки и дедупликации), а также дополнительный текст на славянском, балтийском и английском языках. Часть этих токенов (28B) можно использовать в моделях с полностью открытым исходным кодом, в том числе для коммерческого использования (при соблюдении соответствующих правовых норм). — Набор данных органических инструкций. Мы собрали крупнейшую в Польше коллекцию «органических инструкций», созданных вручную (~ 40 тыс. пар «подсказка-ответ», включая ~ 3,5 тыс. многоходовых диалогов). Этот созданный человеком…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: CYFRAGOVPL
Теги: mistral, conversational, pl, text-generation-inference, endpoints_compatible
Лайков: 8 | Загрузок: 1,259
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.