silx-ai/Quasar-3B-A1B-Preview

Модели Quasar Foundation — это основные модели SILX AI, предназначенные для долгоконтекстного рассуждения, агентных систем и постоянного интеллекта на основе памяти. Этот выпуск НЕ является современной финальной моделью. Это базовая модель предварительного обучения, разработанная специально для распределенной обработки знаний в Bittensor (подсеть Quasar SN24). Цель состоит в том, чтобы создать общую архитектуру, в которой майнеры будут непрерывно перерабатывать знания из передовых моделей (например, Qwen, GLM) в Quasar. — Название модели: Quasar 3B (база RoPE) — Организация: SILX AI — Архитектура: гибридный трансформатор Quasar-RoPE — Общие параметры: 3B — Активные параметры: ~1B (смесь экспертов) — Этап обучения: этап 1 (базовое предварительное обучение) — Длина последовательности: 16 тыс. токенов (фаза RoPE) Quasar — это высокопроизводительный гибридный преобразователь, предназначенный для обучения в масштабе триллиона токенов. Он сочетает в себе: — Зацикленные вычисления — Постоянную скрытую память — Механизмы гибридного внимания — Стабильную маршрутизацию смешанных экспертов — Использование модуля скрытой памяти — Обработку долгосрочных зависимостей — Чтение/запись постоянного состояния — Быстрое повторение в стиле RNN — Эффективное моделирование локальных последовательностей — Глобальные буферы смещения — Хранение за пределами оптимизатора — Предотвращение коллапса маршрутизации — Обновления с нулевым циклом -…

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: silx-ai
Теги: quasar, silx-ai, foundation-model, 3b, moe, long-context, bittensor, sn24
Лайков: 9 | Загрузок: 8,220

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

glaiveai/glaive-function-calling-v2-small

DeepMount00/Mistral-RAG

Weyaxi/Einstein-v6-7B

maximalists/BRAG-Qwen2-7b-v0.1