ibm-granite/granite-3b-code-base-128k

Granite-3B-Code-Base-128K увеличивает длину контекста Granite-3B-Code-Base с 2 КБ до 128 КБ с непрерывным предварительным обучением с использованием исходных обучающих данных, но с упаковкой файлов на уровне репозитория и повышающей дискретизацией длины для каждого языка, что, как мы обнаружили, имеет решающее значение для предварительного обучения в длинном контексте. Мы применяем прогрессивную стратегию обучения, при которой мы удваиваем контекстное окно до тех пор, пока оно не достигнет желаемой длины в 128 КБ, путем соответствующей настройки теты RoPE. Мы обучались на 4B токенах на всех этапах, что составляет лишь 0,1% от исходных данных предварительного обучения Granite-3B-Code-Base. — Разработчики: IBM Research — Репозиторий GitHub: ibm-granite/granite-code-models — Документ: Масштабирование моделей кода Granite до контекста 128 КБ — Дата выпуска: 18 июля 2024 г. — Лицензия: Apache 2.0. Известные примеры корпоративного использования LLM для повышения производительности разработки программного обеспечения с поддержкой длины контекста 128 КБ, которая включает генерацию кода, объяснение кода, исправление кода, создание модульных тестов, создание документации, решение проблем технического долга, обнаружение уязвимостей, перевод кода и многое другое. Все модели Granite Code Base, включая модель параметров 3B, способны справиться с этими задачами, поскольку они были обучены на большом количестве…

Модальности:
Генерация текста

Области применения:
Генерация кода

Задача: Генерация текста
Автор: ibm-granite
Теги: llama, code, granite, model-index, text-generation-inference
Лайков: 7 | Загрузок: 107

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

camel-ai/CAMEL-13B-Role-Playing-Data

EleutherAI/pythia-70m-v0

lmstudio-community/aya-23-35B-GGUF

microsoft/biogpt