stockmark/Stockmark-2-100B-Instruct

Stockmark-2-100B-Instruct — это большая языковая модель со 100 миллиардами параметров, созданная с нуля, с особым упором на японский язык. Он был предварительно обучен примерно на 2,0 триллионах токенов данных, состоящих из 60% английского языка, 30% японского языка и 10% кода. После предварительного обучения модель прошла постобучение (SFT и DPO) с использованием синтетических данных на японском языке, чтобы повысить ее способность следовать инструкциям. В этой версии улучшены возможности следования инструкциям и добавлена поддержка длинного контекста (32 КБ) по сравнению с предыдущей версией (Stockmark-2-100B-Instruct-beta). — Тип модели: причинно-языковая модель — Количество параметров: 96B — Количество слоев: 86 — Количество головок внимания (GQA): 72 для Q и 8 для KV — Длина контекста: 32 тыс. — Поддерживаемые языки: японский и английский — Предварительное обучение: NVIDIA/Megatron-LM — Постобучение:huggingface/trl

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: stockmark
Теги: llama, conversational, ja, en, text-generation-inference, endpoints_compatible
Лайков: 11 | Загрузок: 277

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

Chainbase-Labs/Theia-Llama-3.1-8B-v1

fdtn-ai/Foundation-Sec-8B-Instruct

GetSoloTech/GPT-OSS-Code-Reasoning-20B

Pelochus/ezrkllm-collection