Метка: quantized - Страница 2 - Каталог нейросетей

Генерация текста

MaziyarPanahi/phi-2-GGUF

— Создатель модели: microsoft — Исходная модель: microsoft/phi-2 MaziyarPanahi/phi-2-GGUF содержит файлы моделей формата GGUF для microsoft/phi-2. Спасибо TheBloke...

Генерация текста

ProphetOfBostrom/Noromaid-v0.4-Mixtral-Instruct-8x7b-Zloss_attn-4bit-moe-2bit-HQQ

Тензоры внимания 4-битные, потому что Mixtral повторно использует их для каждого эксперта — поэтому добавляется всего 0,4 ГБ,...

Генерация текста

AtomicChat/ornith-9b-GGUF

Орнит 1.0 9B, самоквантованный до GGUF с помощью Atomic Chat. Создан прямо на основе исходных весов DeepReinforce с...

Генерация текста

GestaltLabs/Ornstein-3.5-9B-V2-GGUF

Квантование GGUF GestaltLabs/Ornstein-3.5-9B-V2 — пост-обучение с подкреплением (V2) Ornstein 3.5 9B. Каждый квант имеет родственную контрольную сумму .sha256,...

Генерация текста

mlx-community/gemma-4-e4b-it-qat-OptiQ-4bit

> Создан на основе mlx-optiq, собственного набора инструментов MLX для квантования, точной настройки и обслуживания LLM локально на...

Генерация текста

JetBrains/Mellum2-12B-A2.5B-Instruct-GGUF-Q6_K

Этот репозиторий содержит квантование GGUF Q6K JetBrains/Mellum2-12B-A2.5B-Instruct, готовое к работе с llama.cpp`, Ollama, LM Studio и другими GGUF-совместимыми...

Генерация текста

mconcat/Qwopus3.6-27B-v2-AWQ-4bit

Квантование Jackrong/Qwopus3.6-27B-v2 в формате AutoAWQ INT4 (W4A16), точная настройка Qwen 3.6 27B, основанная на рассуждениях Клода Опуса. Гибридная...

Генерация текста

localweights/Qwen3.6-27B-MTP-IMAT-IQ4_XS-Q8nextn-GGUF

Плотный магистральный канал Qwen3.6 27B + встроенная головка NextN-MTP, квантованная для вывода с помощью одного графического процессора. —...

Генерация текста

barozp/ZAYA1-8B-BNB

> Примечание. ZAYA1-8B использует собственную разреженную архитектуру MoE (ZayaForCausalLM), которая еще не поддерживается llama.cpp. Файлы GGUF будут добавлены...

Генерация текста

inferencerlabs/DeepSeek-V4-Flash-MLX-Q2.8-INF

— Вывод текста: ~30 токенов/с @ 2000 токенов ~95,49 ГиБ (отладочная сборка) Q2.8-INF использует независимый от данных метод...