DavidAU/GLM-4.7-Flash-Grande-42B-A3B-GGUF

Экспериментальная точная настройка флэш-памяти GLM 4.7 с адаптером Brainstorm 20x от DavidAU, создающая модель с параметрами 42B. Целью было оценить относительную производительность и любые изменения, уделяя внимание в первую очередь творчеству. 67 слоев, 1186 тензоров. (сравните с 30B параметрами, 48 слоями и 844 тензорами для «нормальной» версии.) На данный момент только один квант — Q4KM (не-иматричный), с 16-битным выходным тензором (улучшение мышления/вывода). Температура 0,8, рекомендуется использовать Rep Pen 1 или 1,02, с контекстом от 8 до 16 тысяч. Предлагайте новый чат для каждого теста с одним ОБНОВЛЕНИЕМ для очистки «кэша» llamacpp, иначе у вас могут возникнуть зацикливания или странные проблемы. ИЗВЕСТНЫЕ ПРОБЛЕМЫ: — Может зацикливаться/выдавать нечетные символы [регенерация] — Могут возникать проблемы с квантованием (цикл/повтор), которые можно исправить с помощью Imatrix и/или более высоких квантов позже. [регенерация может исправить] — Тестирование продолжается. Возможно, вы также захотите увидеть карточку этой модели (и дополнительные настройки/информацию): https://huggingface.co/DavidAU/GLM-4.7-Flash-NEO-CODE-Imatrix-MAX-GGUF Особая благодарность: — Команде ZAI-ORG за создание выдающейся модели. Настройки: ЧАТ / РОЛЕВАЯ И/или ПЛАВНАЯ работа этой модели: в «KoboldCpp» или «oobabooga/text-generation-webui» или «Silly Tavern»; -> если вы используете GGUF, вам нужно использовать «llama_HF»…

Модальности:
Генерация текста

Области применения:
Логика и рассуждение Диалог / чат

Задача: Генерация текста
Автор: DavidAU
Теги: gguf, GLM 4.7 Flash, thinking, reasoning, experimental, Brainstorm 20x, finetune, 16 bit precision output tensor
Лайков: 7 | Загрузок: 66

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

ChaoticNeutrals/Captain_Eris_Noctis-12B-v0.420

cerebras/GLM-4.7-REAP-268B-A32B-FP8

jondurbin/bagel-7b-v0.5

NumbersStation/nsql-350M