SmallDoge/Doge-320M - Каталог нейросетей
Генерация текста

SmallDoge/Doge-320M

Добавлено:
SmallDoge/Doge-320M

Doge использует внимание к динамической маске в качестве преобразования последовательности и может использовать многослойный персептрон или междоменную смесь экспертов в качестве преобразования состояния. Динамическое внимание по маске позволяет Трансформатору использовать самовнимание во время обучения и пространство состояний во время вывода, а междоменная смесь экспертов может напрямую наследовать веса многослойного персептрона для дальнейшего обучения. Эта модель обучена сообществом SmallDoge, для подробного алгоритма и архитектуры модели, документ скоро появится, все детали обучения и код доступны в репозитории small-doge. Мы создаем Дожа, проводя индивидуальное обучение на Smollm-Corpus. Если вы хотите продолжить предварительное обучение этой модели, вы можете найти неконвергентную контрольную точку здесь. Эти модели не были точно настроены для обучения, модель инструкций находится здесь. — Изображение: nvcr.io/nvidia/pytorch:24.12-py3 — Аппаратное обеспечение: 1x NVIDIA RTX 4090 — Программное обеспечение: Transformers

Модальности:
Генерация текста

Области применения:
Диалог / чат


Задача: Генерация текста
Автор: SmallDoge
Теги: doge, pt, conversational, custom_code, en, endpoints_compatible
Лайков: 8  |  Загрузок: 520

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.