Pythia Scaling Suite — это набор моделей, разработанных для облегчения исследования интерпретируемости (см. статью). Он содержит два набора по восемь моделей размеров 70M, 160M, 410M, 1B, 1,4B, 2,8B, 6,9B и 12B. Для каждого размера существует две модели: одна обучена в куче, а другая обучена в куче после глобальной дедупликации набора данных. Все 8 размеров модели обучаются на одних и тех же данных и в одном и том же порядке. Мы также предоставляем 154 промежуточные контрольные точки для каждой модели, размещенные на Hugging Face в виде филиалов. Набор моделей Pythia был специально разработан для содействия научным исследованиям больших языковых моделей, особенно исследований интерпретируемости. Несмотря на то, что производительность нисходящего потока не является целью разработки, мы обнаружили, что эти модели соответствуют или превосходят производительность аналогичных моделей того же размера, например, в пакетах OPT и GPT-Neo. Ранее мы выпустили для широкой публики раннюю версию пакета Pythia. Однако мы решили переобучить набор моделей, чтобы устранить некоторые несоответствия гиперпараметров. На этой карточке модели перечислены изменения; дальнейшее обсуждение см. в приложении B к статье Pythia. Мы не обнаружили никакой разницы в производительности тестов между двумя Pythia…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: EleutherAI
Теги: gpt_neox, causal-lm, pythia, en, text-generation-inference, endpoints_compatible
Лайков: 33 | Загрузок: 91,930
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.