SmallDoge/Doge-320M

Doge использует внимание к динамической маске в качестве преобразования последовательности и может использовать многослойный персептрон или междоменную смесь экспертов в качестве преобразования состояния. Динамическое внимание по маске позволяет Трансформатору использовать самовнимание во время обучения и пространство состояний во время вывода, а междоменная смесь экспертов может напрямую наследовать веса многослойного персептрона для дальнейшего обучения. Эта модель обучена сообществом SmallDoge, для подробного алгоритма и архитектуры модели, документ скоро появится, все детали обучения и код доступны в репозитории small-doge. Мы создаем Дожа, проводя индивидуальное обучение на Smollm-Corpus. Если вы хотите продолжить предварительное обучение этой модели, вы можете найти неконвергентную контрольную точку здесь. Эти модели не были точно настроены для обучения, модель инструкций находится здесь. — Изображение: nvcr.io/nvidia/pytorch:24.12-py3 — Аппаратное обеспечение: 1x NVIDIA RTX 4090 — Программное обеспечение: Transformers

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: SmallDoge
Теги: doge, pt, conversational, custom_code, en, endpoints_compatible
Лайков: 8 | Загрузок: 520

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

TheBloke/laser-dolphin-mixtral-2x7b-dpo-AWQ

unsloth/Qwen2.5-Coder-3B-Instruct-bnb-4bit

BlackSamorez/rudialogpt3_medium_based_on_gpt2_2ch

PleIAs/Pleias-RAG-1B