gpt-j-6B-tensorrt-int8
GPT-J 6B — это модель трансформера, обученная с помощью Mesh Transformer JAX Бена Ванга. «GPT-J» относится к классу...
GPT-J 6B — это модель трансформера, обученная с помощью Mesh Transformer JAX Бена Ванга. «GPT-J» относится к классу...
Qwen3-Coder доступен в нескольких размерах. Сегодня мы рады представить Qwen3-Coder-30B-A3B-Instruct. Эта оптимизированная модель обеспечивает впечатляющую производительность и эффективность,...
Мы представляем обновленную версию режима без мышления Qwen3-30B-A3B под названием Qwen3-30B-A3B-Instruct-2507, включающую следующие ключевые улучшения: — Значительные улучшения...
GPT-J 6B — это модель трансформера, обученная с помощью Mesh Transformer JAX Бена Ванга. «GPT-J» относится к классу...
Пользовательское квантование INT8 в стиле AWQ для FINAL-Bench/Darwin-35B-A3B-Opus, преобразованное из Q80 GGUF. Более высокое качество, чем INT4 —...
— Архитектура модели: Meta-Llama-3 — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Весовое квантование:...
Модель на базе Mistral 7b доработана на испанском языке для обеспечения высококачественной генерации текста на испанском языке. Базовая...
— Архитектура модели: Qwen2ForCausalLM — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Квантование веса:...
— Архитектура модели: Llama — Входные данные: текст — Выходные данные: текст — Оптимизация модели: — Квантование активации:...
Ускорьте вывод, одновременно уменьшив объем памяти в 2–4 раза, используя вывод int8 в C++ на ЦП или графическом...