Nero10578/Mistral-7B-Sunda-v1.0

Это тонкая настройка Mistral-7B-v0.1 для очень ограниченного набора доступных наборов данных на сунданском языке. Для меня это учебный проект, в котором я просто хотел посмотреть, можно ли научить модель новому языку, который она не поддерживает по своей сути, с помощью простой настройки QLora. Он не только будет говорить на сунданском языке, но и просто добавит к модели возможности сунданского языка, что меня впечатляет из-за ограниченности данных и короткого времени обучения. Использованные наборы данных: сунданские источники из этого репозитория, которые я очистил, дедуплицировал и превратил в необработанный корпус в формате jsonl. — https://github.com/w11wo/nlp-datasets Гиперпараметры обучения определяются методом проб и ошибок несколько раз и основаны на тонкой настройке китайской LLaMa-Alpaca — https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/Training-Details#preparation-vocabulary-expansion — loadin4bit: true — адаптер: qlora — Sequencelen: 1024 — lorar: 8 — loraalpha: 32 — loradropout: 0,05 — loratargetmodules:gateproj, downproj, upproj, qproj, vproj, kproj, oproj -gradientaccumulationsteps: 2 — microbatchsize: 16 — numepochs: 2 — оптимизатор: adamwbnb8bit — lrscheduler: косинус — Скорость обучения: 0,0002 Используемое оборудование/программное обеспечение: — Windows…

Модальности:
Генерация текста

Задача: Генерация текста
Автор: Nero10578
Теги: mistral, su, en, id, text-generation-inference, endpoints_compatible
Лайков: 18 | Загрузок: 8

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Andycurrent/gemma-3-12b-it-uncensored-GGUF

nickypro/tinyllama-110M

Qiskit/granite-3.3-8b-qiskit

Chainbase-Labs/Theia-Llama-3.1-8B-v1