swiss-ai/Apertus-8B-Instruct-2509 - Каталог нейросетей
Генерация текста

swiss-ai/Apertus-8B-Instruct-2509

Добавлено:
swiss-ai/Apertus-8B-Instruct-2509

1. Краткое описание модели 2. Как использовать 3. Оценка 4. Обучение 5. Ограничения 6. Юридические аспекты Apertus — это языковая модель с параметрами 70B и 8B, разработанная для расширения границ полностью открытых многоязычных и прозрачных моделей. Модель поддерживает более 1000 языков и длинный контекст, использует только полностью совместимые и открытые данные обучения и достигает производительности, сопоставимой с моделями, обучаемыми за закрытыми дверями. Модель представляет собой преобразователь, предназначенный только для декодера, предварительно обученный на токенах 15T с поэтапной учебной программой, состоящей из веб-кода и математических данных. Модель использует новую функцию активации xIELU и обучается с нуля с помощью оптимизатора AdEMAMix. Пост-обучение включало контролируемую точную настройку и согласование с помощью QRPO. — Полностью открытая модель: открытые веса + открытые данные + полная информация об обучении, включая все данные и рецепты обучения. — Массовая многоязычность: 1811 встроенных языков. Совместимость Apertus обучается с соблюдением согласия владельцев данных на отказ (даже ретроспективно) и избегает запоминания данных обучения. Код моделирования для Apertus доступен в Transformers v4.56.0 и более поздних версиях, поэтому обязательно обновите версию Transformers. Вы также можете загрузить модель с последней версией vLLM, которая…

Модальности:
Генерация текста

Области применения:
Диалог / чат Мультиязычность Следование инструкциям


Задача: Генерация текста
Автор: swiss-ai
Теги: apertus, multilingual, compliant, swiss-ai, conversational, endpoints_compatible
Лайков: 437  |  Загрузок: 136,127

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.