———————-|——————————————————————————-| Наши данные обучения являются расширением данных, используемых для Phi-3, и включают в себя широкий спектр источников: 1. Общедоступные документы, тщательно отфильтрованные по качеству, избранные высококачественные образовательные данные и код. 2. Вновь созданные синтетические данные, подобные учебникам, с целью обучения математике, программированию, здравому смыслу, общему познанию мира (наука, повседневная деятельность, теория разума и т. д.). 4. Высококачественный формат чата, контролируемые данные, охватывающие различные темы и отражающие человеческие предпочтения по различным аспектам, таким как следование инструкциям, правдивость, честность и готовность помочь. Многоязычные данные составляют около 8% от общего объема наших данных. Мы уделяем особое внимание качеству данных, которые потенциально могут улучшить способность модели рассуждать, и фильтруем общедоступные документы, чтобы они содержали правильный уровень знаний. Мы оценили phi-4 с помощью OpenAI SimpleEval и наших собственных внутренних тестов, чтобы понять возможности модели, а именно: MMLU:** Популярный агрегированный набор данных для многозадачного понимания языка. phi-4 принял надежный…
Модальности:
Генерация текста
Области применения:
Генерация кода Математика Диалог / чат
Задача: Генерация текста
Автор: p-e-w
Теги: phi3, phi, nlp, math, code, chat, conversational, heretic
Лайков: 9 | Загрузок: 42
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.