HRM-Text1 — это экспериментальная архитектура генерации текста, основанная на архитектуре модели иерархического рассуждения (HRM). Я добавил в модель позиционные внедрения для каждого токена и немного подправил обучающий код их реализации, чтобы генерация текста работала хорошо. Он был обучен с нуля на наборе данных roneneldan/TinyStories и может создавать… скажем так, полусвязные предложения;) Модель использует структуру HRM, состоящую из модуля «Специалист» для низкоуровневой обработки и модуля «Менеджер» для абстракции и планирования высокого уровня. Эта архитектура призвана более эффективно обрабатывать долгосрочные зависимости путем суммирования информации в разных временных масштабах. — Архитектура: модель иерархического рассуждения (HRM) — Данные обучения: roneneldan/TinyStories — Исходный документ: модель иерархического рассуждения — Исходный код/код модели: qingy1337/HRM-Text — Токенизатор: токенизатор T5 — Цель: моделирование причинного языка Вот несколько примеров выходных данных модели (она довольно быстро темнеет, понятия не имею, почему, ха-ха). Модель: Жила-была маленькая девочка по имени Лили. Она любила играть со своими игрушками и друзьями. Однажды Лили и ее друзья пошли в…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: qingy2024
Теги: hrm, tinystories, experimental, causal-lm, en
Лайков: 32 | Загрузок: 0
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.