Специализированная модель параметров 4B, точно настроенная для вызова функций и использования инструментов, оптимизированная для локального развертывания с помощью llama-cpp-python. — 4B параметров — Идеальное место для локального развертывания — Вызов функций — Точная настройка на 60 тысячах примеров вызова функций — Формат GGUF — Оптимизирован для вывода данных CPU/GPU — Загрузка 3,99 ГБ — Подходит для любой современной системы — Контекст 262 КБ — Большое контекстное окно для сложных задач — VRAM — Полный контекст в пределах 6 ГБ! — Базовая модель: Qwen3-4B-Instruct-2507 — Точная настройка: LoRA в наборе данных Salesforce xlam-function-calling-60k — Квантование: Q80 (8-бит) для оптимального соотношения производительности и размера — Архитектура: Qwen3 со специализированными токенами вызова инструментов — Лицензия**: Apache 2.0 — Python 3.8+ — 6 ГБ+ ОЗУ (рекомендуется 8 ГБ+) — 5 ГБ+ свободного места на диске Для повышения производительности можно установить llama-cpp-python со специальными оптимизациями: Чтобы использовать эту модель с Кодексом, вам необходимо запустить локальный сервер, к которому Кодекс может подключиться: В конфигурации Кодекса установите: — URL-адрес сервера: http://localhost:8000 — Ключ API: (не требуется для локального сервера) — Модель: Qwen3-4B-Function-Calling-Pro — Скорость вывода: ~75-100 токенов в секунду (ЦП) — Использование памяти: ~4 ГБ ОЗУ — Размер модели: 3,99 ГБ (квантованный Q80) — Контекст…
Модальности:
Генерация текста
Области применения:
Следование инструкциям Диалог / чат Вызов функций (Tool use) Генерация кода
Задача: Генерация текста
Автор: Manojb
Теги: gguf, qwen3, function-calling, tool-calling, codex, local-llm, 4gb-vram, llama-cpp
Лайков: 7 | Загрузок: 672
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.