trillionlabs/Trillion-7B-preview

Мы представляем Trillion-7B-preview, предварительную версию нашей последней модели большого языка, призванную расширить границы многоязычной масштабируемости и производительности. Эта модель представлена в статье: Trillion-7B-превью. При сравнении производительности с тренировочными FLOP для предварительной версии Trillion-7B с конкурирующими моделями наша модель расширяет границу Парето, достигая средней производительности около 66,5% при использовании значительно меньшего количества вычислений (~ 9,3 × 10²² FLOP). Он превосходит такие модели, как Mistral-7B-Instruct-v0.3 и SOLAR-10.7B-Instruct-v1.0, оставаясь при этом конкурентоспособным с моделями, требующими в 3–8 раз больше вычислений, такими как Qwen2.5-7B-Instruct и EXAONE-3.5-7.8B-Instruct. Полные результаты тестов см. в таблицах ниже. — Тип: причинно-языковая модель — Этап обучения: предварительное обучение и после обучения — Архитектура: декодер Transformer с RoPE, SwiGLU, RMSNorm — Количество параметров: 7,76B — Количество слоев: 32 — Количество заголовков внимания: 32 — Длина контекста: 4096 — Количество видимых токенов: 2T — Размер словарного запаса: 128 128 Вот фрагмент кода с applychattemplate, который демонстрирует, как загрузить токенизатор и модель и сгенерировать текст. Мы выбираем широкий спектр тестов, которые оценивают общие рассуждения,…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: trillionlabs
Теги: llama, finetuned, chat, conversational, en, ko, ja, zh
Лайков: 88 | Загрузок: 44

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

RUC-AIBOX/STILL-3-1.5B-preview

kenonix/Darwin-9B-KOREA-Q8_0-GGUF

Columbia-NLP/gemma-2b-zephyr-sft

SmallDoge/Doge-320M