Trinity Mini — модель Arcee AI 26B MoE с активными параметрами 3B. Это модель среднего размера в нашем новом семействе Trinity, серии моделей открытого веса, предназначенных как для предприятий, так и для мастеров. Эта модель настроена на рассуждения, но при тестировании она использует такое же общее количество токенов, что и конкурирующие модели, настроенные на инструкции. Это файлы GGUF для работы на платформах с поддержкой llama.cpp. Trinity Mini обучена на токенах 10T, собранных и курируемых в рамках ключевого партнерства с Datology, на основе превосходного набора данных, который мы использовали на AFM-4.5B, с дополнительными математическими вычислениями и кодом. Обучение проводилось на кластере из 512 графических процессоров H200 на базе Prime Intellect с использованием параллелизма HSDP. Более подробную информацию, включая ключевые решения по архитектуре, можно найти в нашем блоге здесь. Архитектура модели: AfmoeForCausalLM Параметры: 26B, 3B активных Экспертов: всего 128, 8 активных, 1 общий Длина контекста: 128 тыс. Токенов обучения: 10T Лицензия: Apache 2.0 Рекомендуемые настройки: температура: 0,15 топк: 50 топп: 0,75 минп: 0,06  1. Нажмите «Опытный пользователь» в левом нижнем углу 2. Нажмите зеленый значок «Разработчик» в…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: arcee-ai
Теги: gguf, en, es, fr, de, it, pt, ru
Лайков: 53 | Загрузок: 1,296
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.