Thump604/DeepSeek-V4-Flash-MLX-Q2-mixed-gs128-affine - Каталог нейросетей
Генерация текста

Thump604/DeepSeek-V4-Flash-MLX-Q2-mixed-gs128-affine

Добавлено:
Thump604/DeepSeek-V4-Flash-MLX-Q2-mixed-gs128-affine

— Базовая модель: deepseek-ai/DeepSeek-V4-Flash — Исходная версия: 6e763230a9d263eca2023f1d4a5ce1bfe126cf48 — Архитектура: DeepseekV4ForCausalLM — Тип модели: deepseekv4` — Ветка инструментов: Thump604/mlx-lm, ветка deepseek-v4-support-fixes — Минимум фиксация инструмента для генерации: 9c990f4 — Путь вывода во время преобразования: /Volumes/Lexar/mlxmodels/DeepSeek-V4-Flash-MLX-Q2-mixed-gs128-affine — Рецепт квантования: mix26 — Режим квантования: аффинный — Размер группы: 128 — Эффективные биты на вес, сообщаемые MLX: 2,992 — Шарды: 23 — Индексированный MLX размер тензора: 106 355 393 628 байт. Смешанный рецепт использует 2-битное аффинное квантование для маршрутизируемых экспертных путей с меньшим риском и 6-битное аффинное квантование для чувствительных путей, включая встраивания, голову LM, проекции внимания, компоненты сжатого внимания/индексатора, общих экспертов и выбранные нисходящие проекции. — Преобразование завершено успешно. — Ленивая загрузка MLX успешно завершена на Mac Studio 128 ГБ. — Генерация необработанного приглашения Smoke успешно завершена с —max-tokens 2 —max-kv-size 1024. — Наблюдаемые числа дыма: 54,59 с в реальном времени, макс. 74,5 ГБ RSS, пиковая нагрузка 106,94 ГБ, нулевые свопы. Этот артефакт является низкобитовым локальным резервным вариантом. Это не…

Модальности:
Генерация текста


Задача: Генерация текста
Автор: Thump604
Теги: mlx, deepseek_v4, deepseek-v4, quantized, en, 4-bit
Лайков: 7  |  Загрузок: 1,757

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.