🏠 Домашняя страница   |    🤗 Модель   |    📊 Набор данных   |    📄Бумага   |    🚀Демо   OpenCoder — это семейство LLM с открытым и воспроизводимым кодом, которое включает в себя базовые модели 1.5B и 8B и модели чата, поддерживающие английский и китайский языки. Начиная с нуля, OpenCoder предварительно обучается на 2,5 триллионах токенов, состоящих на 90 % из необработанного кода и на 10 % из веб-данных, связанных с кодом, и контролируется на более чем 4,5 миллионах высококачественных примеров SFT, в результате чего достигается производительность кодов высшего уровня LLM. Мы предоставляем не только веса модели и код вывода, но также воспроизводимые данные обучения, полный конвейер обработки данных, строгие результаты экспериментальной абляции и подробные протоколы обучения. OpenCoder дает исследователям возможность создавать и внедрять инновации. Это открытая основа для развития искусственного интеллекта в коде. — Полный открытый исходный код: OpenCoder обеспечивает полную прозрачность, выпуская не только веса модели и будущий код вывода, но и полный код очистки данных для обучения. Этот выпуск включает в себя высококачественные синтетические данные, обширный набор контрольных точек и набор данных, содержащий более 4,5 миллионов записей контролируемой точной настройки (SFT),…
Модальности:
Генерация текста
Области применения:
Диалог / чат Генерация кода Следование инструкциям
Задача: Генерация текста
Автор: infly
Теги: llama, conversational, en, zh, text-generation-inference, endpoints_compatible
Лайков: 47 | Загрузок: 807
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.