GeoV/GeoV-9b - Каталог нейросетей
Генерация текста

GeoV/GeoV-9b

Добавлено:
GeoV/GeoV-9b

Модель GeoV была разработана Жоржем Хариком и использует вращательно-позиционные вложения с относительными расстояниями (RoPER) Жоржа Харика и Варуны Джаясири. RoPER, помимо использования относительных позиций при вычислении оценки внимания с помощью вложений RoPE, явно добавляет информацию об относительном положении к встраиваниям значений. В частности, он включает относительные позиции токенов, на которые обращено внимание. RoPER показал лучшую производительность в некоторых алгоритмических задачах и, похоже, сравним с RoPE в языковом моделировании. — Разработчик: Жорж Харик — Тип модели: Языковая модель на основе трансформатора — Язык: английский Выпущенные веса были обучены на ~70 миллиардах токенов. Мы планируем продолжить обучение до 300 миллиардов токенов и обновлять веса для каждых 20 миллиардов токенов. Этот обучающий прогон является одноязычным и использует наборы данных c4en и англоязычной Википедии. Это результаты EleutherAI/lm-evaluation-harness на контрольной точке 80B (обученные токены).

Модальности:
Генерация текста


Задача: Генерация текста
Автор: GeoV
Теги: geov, causal-lm, custom_code, en
Лайков: 29  |  Загрузок: 2,090

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.