Мы представляем Trillion-7B-preview, предварительную версию нашей последней модели большого языка, призванную расширить границы многоязычной масштабируемости и производительности. Эта модель представлена в статье: Trillion-7B-превью. При сравнении производительности с тренировочными FLOP для предварительной версии Trillion-7B с конкурирующими моделями наша модель расширяет границу Парето, достигая средней производительности около 66,5% при использовании значительно меньшего количества вычислений (~ 9,3 × 10²² FLOP). Он превосходит такие модели, как Mistral-7B-Instruct-v0.3 и SOLAR-10.7B-Instruct-v1.0, оставаясь при этом конкурентоспособным с моделями, требующими в 3–8 раз больше вычислений, такими как Qwen2.5-7B-Instruct и EXAONE-3.5-7.8B-Instruct. Полные результаты тестов см. в таблицах ниже. — Тип: причинно-языковая модель — Этап обучения: предварительное обучение и после обучения — Архитектура: декодер Transformer с RoPE, SwiGLU, RMSNorm — Количество параметров: 7,76B — Количество слоев: 32 — Количество заголовков внимания: 32 — Длина контекста: 4096 — Количество видимых токенов: 2T — Размер словарного запаса: 128 128 Вот фрагмент кода с applychattemplate, который демонстрирует, как загрузить токенизатор и модель и сгенерировать текст. Мы выбираем широкий спектр тестов, которые оценивают общие рассуждения,…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: trillionlabs
Теги: llama, finetuned, chat, conversational, en, ko, ja, zh
Лайков: 88 | Загрузок: 44
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.