Doge использует внимание к динамической маске в качестве преобразования последовательности и может использовать многослойный персептрон или междоменную смесь экспертов в качестве преобразования состояния. Динамическое внимание по маске позволяет Трансформатору использовать самовнимание во время обучения и пространство состояний во время вывода, а междоменная смесь экспертов может напрямую наследовать веса многослойного персептрона для дальнейшего обучения. Эта модель обучена сообществом SmallDoge, для подробного алгоритма и архитектуры модели, документ скоро появится, все детали обучения и код доступны в репозитории small-doge. Мы создаем Дожа, проводя индивидуальное обучение на Smollm-Corpus. Если вы хотите продолжить предварительное обучение этой модели, вы можете найти неконвергентную контрольную точку здесь. Эти модели не были точно настроены для обучения, модель инструкций находится здесь. — Изображение: nvcr.io/nvidia/pytorch:24.12-py3 — Аппаратное обеспечение: 1x NVIDIA RTX 4090 — Программное обеспечение: Transformers
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: SmallDoge
Теги: doge, pt, conversational, custom_code, en, endpoints_compatible
Лайков: 8 | Загрузок: 520
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.