Daoguang/PyCodeGPT - Каталог нейросетей
Генерация текста

Daoguang/PyCodeGPT

Добавлено:
Daoguang/PyCodeGPT

Предварительно обученная модель GPT для завершения и генерации кода Python PyCodeGPT — это эффективная и действенная модель на основе GPT-Neo для задачи генерации кода Python, которая аналогична OpenAI Codex, Github Copliot, CodeParrot, AlphaCode. Из-за небольшого размера общедоступного набора данных мы предложили собирать данные с GitHub с нуля. Сначала мы просканировали 1,2 млн репозиториев, связанных с Python, размещенных на GitHub. Затем мы использовали эти URL-адреса репозитория для загрузки всего содержимого каждого репозитория с GitHub. После этого мы получили 60 миллионов необработанных файлов Python размером менее 1 МБ и общим размером 330 ГБ. Наконец, мы тщательно разработали различные стратегии очистки данных, чтобы получить около 96 ГБ данных для обучения. Подробную информацию можно найти в следующей таблице. Мы стремимся обучать предварительно обученные модели среднего размера (размер модели 110M) на основе GPT-Neo: — PyCodeGPT-110M: получен из GPT-Neo 125M с размером словаря 32 КБ. Если вы хотите использовать модели, вам необходимо процитировать нашу следующую статью:

Модальности:
Генерация текста


Задача: Генерация текста
Автор: Daoguang
Теги: gpt_neo, endpoints_compatible
Лайков: 9  |  Загрузок: 17

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.