nilq/mistral-1L-tiny - Каталог нейросетей
Генерация текста

nilq/mistral-1L-tiny

Добавлено:
nilq/mistral-1L-tiny

Крошечная однослойная модель Mistral с 35,1 млн параметров, скрытым размером 512 и промежуточным размером MLP 1024. Эта модель обучена на наборе данных roneneldan/TinyStories. В наборе оценок он достигает следующих результатов: — Потеря: 1,6868 — Точность: 0,5792 Эта работа основана на однослойном GPT-Neo с параметром 21M из статьи Tiny Stories. Результаты воспроизводятся для получения высокочастотных контрольных точек для дальнейшего анализа. Анализ динамики и появления функций в реальных языковых моделях. Тренировался на 90171 шаг, что соответствует примерно 2 часам на одном H100. Во время обучения использовались следующие гиперпараметры: — скорость обучения: 0,0006 — trainbatchsize: 64 — evalbatchsize: 8 — начальное число: 42 — оптимизатор: Adam с betas=(0,9,0,999) и epsilon=1e-08 — lrschedulertype: cosine — numepochs: 3.0 — Transformers 4.38.1 — Pytorch 2.2.0+cu121 — Наборы данных 2.17.1 — Токенизаторы 0.15.2

Модальности:
Генерация текста


Задача: Генерация текста
Автор: nilq
Теги: mistral, generated_from_trainer, model-index, text-generation-inference, endpoints_compatible
Лайков: 6  |  Загрузок: 93

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.