cerebras/Cerebras-GPT-13B

Семейство Cerebras-GPT выпущено для облегчения исследования законов масштабирования LLM с использованием открытых архитектур и наборов данных, а также для демонстрации простоты и масштабируемости обучения LLM на программном и аппаратном стеке Cerebras. Все модели Cerebras-GPT доступны на Hugging Face. В семейство входят модели 111М, 256М, 590М, 1.3В, 2.7В, 6.7В и 13В. Все модели семейства Cerebras-GPT были обучены в соответствии с законами масштабирования Chinchilla (20 токенов на параметр модели), что является оптимальным с точки зрения вычислений. Эти модели были обучены на суперкомпьютере Andromeda AI, состоящем из 16 систем масштаба пластины CS-2. Технология потоковой передачи данных Cerebras упрощает обучение LLM за счет разделения вычислений из хранилища моделей. Это позволило эффективно масштабировать обучение между узлами, используя простой параллелизм данных. Системы Cerebras для предварительного обучения и точной настройки доступны в облаке через Cerebras Model Studio. Контрольные точки, совместимые с Cerebras CS-2, доступны в зоопарке моделей Cerebras. Разработано: Cerebras Systems Лицензия: Apache 2.0 Тип модели: Языковая модель на основе преобразователя Архитектура: Архитектура в стиле GPT-3 Набор данных: Токенизатор свай: Кодирование пар байтов…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: cerebras
Теги: gpt2, feature-extraction, causal-lm, en, text-generation-inference
Лайков: 649 | Загрузок: 951

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Doctor-Shotgun/TinyLlama-1.1B-32k

grimjim/Llama-3.1-8B-Instruct-abliterated_via_adapter

m-a-p/YuE-s1-7B-anneal-en-cot

mlx-community/Phi-3-mini-128k-instruct-4bit