DavidAU/Gemma-3-4b-it-MAX-NEO-Imatrix-GGUF

Новейшая модель Google Gemma-3 с «Neo Imatrix» и квантованием «Maxed out» для улучшения общей производительности. Ниже представлены 5 примеров с подсказками на IQ4XS (56 т/с на карте среднего уровня). Это означает, что для всех квантов установлено значение «BF16» (полная точность) для встроенного и выходного тензора. Это повышает качество, глубину и общую производительность за счет немного большего количества. Мощный, собственный набор данных imatrix, созданный David_AU, который приводит к улучшению общей функциональности, следованию инструкциям, качеству вывода и более прочным связям с идеями, концепциями и миром в целом. Это сочетается с «MAXing» количественным показателем для улучшения производительности. На этой диаграмме показан порядок в терминах «BPW» для каждого кванта (отображенного ниже с относительной «силой» друг относительно друга) с «IQ1S» с наименьшим значением и «Q80» (F16 — полная точность) с наибольшим: IQ1S | IQ1M IQ2XXS | IQ2XS | Q2KS | IQ2S | Q2K | IQ2M IQ3XXS | Q3KS | IQ3XS | IQ3S | IQ3M | Q3KM | Q3KL Q4KS | IQ4XS | IQ4NL | Q4KM Q5KS | Q5KM Q6K Q8_0 F16 Рекомендуют квантования IQ3s/IQ4XS/IQ4NL/Q4s для достижения наилучших результатов в творческой деятельности. Кванты IQ4XS/IQ4NL будут давать выходные данные, отличные от результатов других квантов «Q» и «IQ». Q8 — это только максимальный квант, как иматрица…

Модальности:
Генерация текста

Области применения:
Следование инструкциям Диалог / чат

Задача: Генерация текста
Автор: DavidAU
Теги: gguf, gemma3, instruct, 128k context, all use cases, maxed quants, Neo Imatrix, endpoints_compatible
Лайков: 13 | Загрузок: 409

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

chitanda/llama-panda-zh-coig-7b-delta

facebook/MobileLLM-R1-360M-base

anthracite-org/magnum-v2-32b-gguf

abeja/gpt2-large-japanese