RedHatAI/Mistral-Small-24B-Instruct-2501-FP8-dynamic

— Архитектура модели: Mistral-Small-24B-Instruct-2501 — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Квантование веса: FP8 — Квантование активации: FP8 — Дата выпуска: 1 марта 2025 г. — Версия: 1.0 — Проверено на: RHOAI 2.20, RHAIIS 3.0, RHELAI 1.5 — Модели разработчиков: Neural Магическая квантованная версия Mistral-Small-24B-Instruct-2501. Он достигает среднего балла 78,88 в тесте OpenLLM (версия 1), тогда как неквантованная модель достигает 79,45. Эта модель была получена путем квантования весов и активаций до типа данных FP8, готового для вывода с помощью vLLM. Эта оптимизация уменьшает количество бит на параметр с 16 до 8, уменьшая размер диска и требования к памяти графического процессора примерно на 50%. Квантуются только веса и активации линейных операторов внутри блоков преобразователей. Дополнительную информацию см. в документации Red Hat AI Inference Server. Дополнительные сведения см. в документации Red Hat Enterprise Linux AI. Эта модель была создана с помощью llm-compressor путем выполнения приведенного ниже фрагмента кода. Модель была оценена в OpenLLM Leaderboard V1 и V2 с использованием следующих команд: Результаты Math-Hard, GPQA и MUSR не учитываются для восстановления точности…

Модальности:
Генерация текста

Области применения:
Диалог / чат Следование инструкциям

Задача: Генерация текста
Автор: RedHatAI
Теги: mistral, mistral-small, fp8, vllm, conversational, text-generation-inference, compressed-tensors, en
Лайков: 13 | Загрузок: 6,709

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Kquant03/Buttercup-4x7B-bf16

ReBatch/Llama-3-8B-dutch

TheBloke/Chronorctypus-Limarobormes-13b-GPTQ

TheBloke/Wizard-Vicuna-13B-Uncensored-AWQ