Tenete-8M — это модель с восемью миллионами параметров, обученная на пятистах семидесяти семи миллионах токенов. Хотя он не может ответить «2 + 2» или написать связное, логически обоснованное эссе, он вас удивит, и заслуга в этом принадлежит крошечным учебникам Nampdnai. Тенете означает «Маленькое каноэ» на языке Таусиро, находящемся под угрозой исчезновения, на котором свободно говорит только один человек. Это имя показалось мне наиболее подходящим. Тенете, самое близкое к слову «маленький» слово в Тауширо, имеющее английский перевод, а также тот факт, что на этом языке свободно говорит только один человек, отражает крошечный и ограниченный размер, который представляет Тенете-8М. Тенете-8М обучался на RTX 2060 6 ГБ в течение одной эпохи с размером пакета 4 и накоплением градиента 18 (эффективный размер пакета = 72) в течение двух часов и двадцати минут. Набор данных включает 577 миллионов токенов и включает в себя 4 источника: 1. Учебники (1,2 ГБ): веб-данные слишком зашумлены, поэтому мы решили использовать Tiny-Textbooks, синтетический набор данных, созданный Nous-Hermes-Llama2-13b. 2. Статьи среднего размера (960 МБ): хотя веб-данные, особенно статьи среднего размера, зашумлены, нам все равно нужны примеры, написанные человеком. 3. Книги (284 МБ): хотя и небольшие, книги еще нужны, чтобы привить модель творчеству 4. Вопросы и ответы (14МБ):…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: Harley-ml
Теги: qwen3, harley-ml, tenete, small, sota, slm, en, model-index
Лайков: 7 | Загрузок: 189
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.