Это модель 1.8B, обученная на синтетическом наборе данных Cosmopedia. Обучающий корпус состоял из 30 миллиардов токенов, 25 миллиардов из которых синтетические из Cosmopedia. Поскольку мы не исследовали синтетическую генерацию кода, мы дополнили набор данных 5 миллиардами токенов несинтетических источников, таких как подмножества AutoMathText code-python-0,60-to-1.00 и web-0,50-to-1.00. Мы также добавили 1 миллион файлов из Jupyter Notebooks от The Stack, конвертированных в скрипты. В них, как правило, образовательный код чередуется с текстом. Мы также включили ультрачат, отформатированный в формате чата моделей LlaMa, поэтому нам не нужно настраивать модель по инструкциям после предварительного обучения. Кроме того, мы дважды увеличили выборку данных из этих исходных источников, чтобы помочь здравому смыслу и рассуждениям: истории, AutoMathText и KhanAcademy. Мы обучались в течение 6 эпох, в результате чего была создана модель, обученная на 180B токенах с длиной последовательности 2 тыс., глобальным размером пакета 1,3 млн токенов и скоростью обучения 3e-4 с косинусным графиком для 140 тыс. шагов. Мы использовали токенизатор от Мистраль-7Б-v0.1. Хотя модель не была настроена после предварительного обучения. Однако, учитывая, что UltraChat был включен в предварительное обучение, вы можете использовать его в формате чата, используя: Вы можете…
Модальности:
Генерация текста
Задача: Генерация текста
Автор: HuggingFaceTB
Теги: llama, en, text-generation-inference, endpoints_compatible
Лайков: 133 | Загрузок: 213
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.