Salesforce/codegen-350M-multi

CodeGen — это семейство авторегрессионных языковых моделей для синтеза программ из статьи «Разговорная парадигма синтеза программ» Эрика Нейкампа, Бо Панга, Хироаки Хаяши, Лифу Ту, Хуан Вана, Инбо Чжоу, Сильвио Саварезе, Каймин Сюн. Модели изначально опубликованы в этом репозитории в трех вариантах данных предварительного обучения (NL, Multi, Mono) и четырех вариантах размера модели (350M, 2B, 6B, 16B). Контрольная точка, включенная в этот репозиторий, обозначена в документе как CodeGen-Multi 350M, где «Multi» означает, что модель инициализируется с помощью CodeGen-NL 350M и дополнительно предварительно обучается на наборе данных нескольких языков программирования, а «350M» относится к количеству обучаемых параметров. Эта контрольная точка (CodeGen-Multi 350M) была сначала инициализирована с помощью CodeGen-NL 350M, а затем предварительно обучена на BigQuery, крупномасштабном наборе данных для нескольких языков программирования из репозиториев GitHub. Данные состоят из 119,2 млрд токенов и включают C, C++, Go, Java, JavaScript и Python. CodeGen был обучен с использованием перекрестной энтропийной потери, чтобы максимизировать вероятность последовательных входных данных. Семейство моделей обучается с использованием нескольких TPU-v4-512 от Google, используя параллелизм данных и моделей. См. раздел 2.3…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: Salesforce
Теги: codegen, endpoints_compatible
Лайков: 61 | Загрузок: 4,904

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

EleutherAI/pythia-1b-deduped

richardyoung/Deepseek-R1-Distill-Qwen-32b-uncensored

nc-ai-consortium/VAETKI-7B-A1B

Disya/Mistral-qwq-12b-merge