Квантование FP4 смешанной точности Darwin-9B-Opus, построенное на базе NVIDIA Blackwell NVFP4. Первый член семейства Darwin Mixed-Precision — квантование, которое учитывает то, что фактически делает каждый слой, вместо того, чтобы сжимать все равномерно. MFP4 (Mixed FP4) — это стратегия точного распределения, а не единой разрядности. Разные функциональные области сети получают разную точность, выбранную в соответствии с их ролью: большая часть параметров (MLP) перемещается в FP4, в то время как небольшие, но критически важные с архитектурной точки зрения пути внимания/координации остаются с полной точностью. NVFP4 — это 4-битный формат микроблоков с плавающей запятой NVIDIA с группами по 16 элементов в масштабе FP8. — Встроенное аппаратное ускорение на Blackwell (B200, RTX 5090): GEMM NVFP4 работают на выделенных тензорных ядрах с пропускной способностью FP4 2-го поколения, без программной эмуляции на горячем пути. — Более высокая числовая точность, чем у INT4 при той же разрядности, благодаря представлению с плавающей запятой и масштабированию FP8 для каждого блока. — Первоклассная поддержка в vLLM (—quantization modeloptfp4`), TensorRT-LLM и более широком стеке вывода NVIDIA. В сочетании с селективным применением MFP4 результатом является экономия памяти класса FP4 в большей части модели…
Модальности:
Генерация текста
Области применения:
Логика и рассуждение Диалог / чат
Задача: Генерация текста
Автор: FINAL-Bench
Теги: qwen3_5, image-text-to-text, darwin, mfp4, mixed-precision, nvfp4, quantization, blackwell
Лайков: 13 | Загрузок: 525
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.