stockmark/Stockmark-2-100B-Instruct - Каталог нейросетей
Генерация текста

stockmark/Stockmark-2-100B-Instruct

Добавлено:
stockmark/Stockmark-2-100B-Instruct

Stockmark-2-100B-Instruct — это большая языковая модель со 100 миллиардами параметров, созданная с нуля, с особым упором на японский язык. Он был предварительно обучен примерно на 2,0 триллионах токенов данных, состоящих из 60% английского языка, 30% японского языка и 10% кода. После предварительного обучения модель прошла постобучение (SFT и DPO) с использованием синтетических данных на японском языке, чтобы повысить ее способность следовать инструкциям. В этой версии улучшены возможности следования инструкциям и добавлена ​​поддержка длинного контекста (32 КБ) по сравнению с предыдущей версией (Stockmark-2-100B-Instruct-beta). — Тип модели: причинно-языковая модель — Количество параметров: 96B — Количество слоев: 86 — Количество головок внимания (GQA): 72 для Q и 8 для KV — Длина контекста: 32 тыс. — Поддерживаемые языки: японский и английский — Предварительное обучение: NVIDIA/Megatron-LM — Постобучение:huggingface/trl

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям


Задача: Генерация текста
Автор: stockmark
Теги: llama, conversational, ja, en, text-generation-inference, endpoints_compatible
Лайков: 11  |  Загрузок: 277

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.