ai-forever/rugpt3medium_based_on_gpt2

Проектирование архитектуры модели, ее предварительное обучение и оценка описаны в нашем препринте: «Семейство предварительно обученных языковых моделей трансформеров для русского языка». Модель была предварительно обучена с длиной последовательности 1024 с использованием библиотеки Transformers командой SberDevices на 80B токенах в течение 3 эпох. После этого модель была доработана с размером контекста в 2048 токенов. Общее время обучения составило около 16 дней на 64 графических процессорах. Итоговое недоумение на тестовом наборе — 17,4.

Модальности:
Генерация текста

Задача: Генерация текста
Автор: ai-forever
Теги: gpt2, PyTorch, Transformers, ru, text-generation-inference, endpoints_compatible
Лайков: 28 | Загрузок: 14,603

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

LGAI-EXAONE/EXAONE-Deep-32B-GGUF

Мы представляем EXAONE Deep, который демонстрирует превосходные возможности в различных задачах рассуждения, включая тесты по математике и программированию,...

Генерация текста

google/gemma-1.1-2b-it-pytorch

> [!ВАЖНО] > > Этот репозиторий соответствует исследовательскому репозиторию Gemma PyTorch. Если вы ищете реализацию преобразователей, посетите эту...

Генерация текста

ajibawa-2023/Uncensored-Frank-Llama-3-8B

Персонаж Фрэнка Костелло в «Отступниках» известен своей хитростью, смелостью и готовностью говорить о чем угодно, независимо от социальных...

Генерация текста

ERC-ITEA/MuduoLLM

Наследование мудрости, вдохновляющее образование в будущем师承万象基础教育大模型(MuduoLLM)是北京师范大学和北京世纪好未来教育科技有限公司共同研发的首个紧扣新课标知识体系的基础教育语言大模型,确保所学知识内容与基础教育课程标准高度契合,精准对接学生核心素养培育与教师专业成长需求。在应用层面，基础教育大模型深度融合新课标核心知识和育人理念，具备知识理解型智能解题、启发引导式智能答疑、情境创设型智能出题和素养导向型教案生成等教育能力,从知识传授转向核心素养培育，助力培养全面发展时代新人。同时，师承万象基础教育大模型是当前性能表现较为突出的开源基础教育大模型之一,为开发者提供了可进一步优化的空间。 MuduoLLM — это первая базовая образовательная модель большого языка, разработанная совместно Пекинским...