CodeGen — это семейство авторегрессионных языковых моделей для синтеза программ из статьи «Разговорная парадигма синтеза программ» Эрика Нейкампа, Бо Панга, Хироаки Хаяши, Лифу Ту, Хуан Вана, Инбо Чжоу, Сильвио Саварезе, Каймин Сюн. Модели изначально опубликованы в этом репозитории в трех вариантах данных предварительного обучения (NL, Multi, Mono) и четырех вариантах размера модели (350M, 2B, 6B, 16B). Контрольная точка, включенная в этот репозиторий, обозначена в документе как CodeGen-Mono 2B, где «Mono» означает, что модель инициализируется с помощью CodeGen-Multi 2B и дополнительно проходит предварительное обучение на наборе данных языка программирования Python, а «2B» относится к количеству обучаемых параметров. Эта контрольная точка (CodeGen-Mono 2B) сначала была инициализирована с помощью CodeGen-Multi 2B, а затем предварительно обучена на наборе данных BigPython. Данные состоят из 71,7 млрд токенов языка программирования Python. Более подробную информацию см. в разделе 2.1 статьи. CodeGen был обучен с использованием перекрестной энтропийной потери, чтобы максимизировать вероятность последовательных входных данных. Семейство моделей обучается с использованием нескольких TPU-v4-512 от Google, используя параллелизм данных и моделей. Более подробную информацию см. в разделе 2.3 статьи. Мы оцениваем наши модели по двум кодам…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: Salesforce
Теги: codegen, endpoints_compatible
Лайков: 21 | Загрузок: 5,151
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.