Quark-v2-0.5M — сверхлегкая модель на базе Llama, имеющая всего 465 504 параметра, вторая версия серии Quark. Его обучали с нуля, чтобы продемонстрировать возможности высококачественных данных (FineWeb-Edu) на чрезвычайно маленьких архитектурах. — Архитектура: на основе Llama — Параметры: 465 504 — Размер словаря: 500 (пользовательский BPE на уровне байтов) — Скрытый размер: 96 — Промежуточный размер: 192 — Слои: 4 — Заголовки: 4 — Длина контекста: 256 токенов — Набор данных: 1 миллиард токенов HuggingFaceFW/fineweb-edu (Образец-10BT) — Время обучения: ~ 1,4 часа на одном графическом процессоре Kaggle T4 — Итоговые потери: 2,44 — Оптимизатор: AdamW с косинусной скоростью обучения. Decay Quark — это исследовательский проект, направленный на изучение ограничений «микро-LLM». Он удивительно способен формировать грамматически правильные английские предложения и структурированные списки, несмотря на то, что занимает менее 2 МБ дискового пространства. Подсказка: «Искусственный интеллект» Вывод: «Искусственный интеллект вполне возможен. В начале 19 века это было сделано в мозге и кислотах, где они забрали часть самой обычной реальности. Это также может быть ниже, чем любые другие исследования, которые не смогут использовать этот фактор. Если вы видели ту же часть…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: LH-Tech-AI
Теги: llama, tiny-model, sub-1M, small, tiny, quark, 1m, en
Лайков: 7 | Загрузок: 165
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.