mlx-community/LFM2-8B-A1B-8bit-MLX

Сопровождающий/издатель: Сьюзан Ачари Модель исходного кода: LiquidAI/LFM2-8B-A1B Этот репозиторий (8-битный MLX): mlx-community/LFM2-8B-A1B-8bit-MLX Этот репозиторий предоставляет оптимизированную для Apple-Silicon сборку MLX LFM2-8B-A1B с 8-битным квантованием для быстрого вывода на устройстве. — config.json (MLX), mlxmodel.safetensors (8-битные сегменты) — Файлы токенизатора: tokenizer.json, tokenizerconfig.json — Метаданные модели (например, modelindex.json) Целевая платформа: macOS на Apple Silicon (серия M) с использованием Metal/MPS. Вы просили предположить и определить использование оперативной памяти в отсутствие ваших измерений. Ниже приведены практические цифры планирования, полученные на основе основных принципов + опыта работы с MLX и аналогичными моделями MoE. Рассматривайте их как отправную точку и проверяйте на своем оборудовании. — Веса: ~ totalparams × 1 байт (8-бит). Для параметров 8B → базовый уровень ~8,0 ГБ. — Накладные расходы во время выполнения: график MLX + тензоры + метаданные → типично ~ 0,5–1,0 ГБ. — Кэш KV: растет в зависимости от длины контекста × слоев × голов × dтипа; часто 1–3+ ГБ для длинных контекстов. > Эти диапазоны предполагают 8-битные веса, A1B MoE (все эксперты резидентны), размер пакета = 1 и стандартные настройки генерации. > В нижних окнах (<2 КБ) вы можете увидеть ~9–10 ГБ. Большие окна или пакеты увеличат KV-кэш и…

Модальности:
Генерация текста

Области применения:
Генерация кода Следование инструкциям Диалог / чат

Задача: Генерация текста
Автор: mlx-community
Теги: mlx, lfm2_moe, apple-silicon, liquidai, lfm2, moe, transformer, long-context
Лайков: 7 | Загрузок: 62

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

yuyijiong/T5-large-sentiment-analysis-Chinese-MultiTask

Metin/LLaMA-3-8B-Instruct-TR-DPO

Undi95/Dawn-v2-70B

NousResearch/Hermes-2-Pro-Mistral-7B