ibm-granite/granite-3.3-8b-lora-math-prm

Granite 3.3 8B LoRA Math PRM — это адаптер LoRA для языковой модели с 8 миллиардами параметров Granite-3.3-8B-Instruct, созданный для использования модели вознаграждения генеративного процесса (PRM) для контроля процессов в математических рассуждениях. Важно отметить, что эта модель была обучена только на проверенных данных из источников с разрешительными лицензиями, и мы выпускаем эту модель под лицензией Apache 2.0. Эту модель можно использовать для оценки правильности каждого шага процесса математического рассуждения, и она показывает высокую производительность в оценках Best-of-N для различных генераторов в Math-500, а также высокую производительность при выявлении ошибок как в ProcessBench, так и в PRMBench. — Разработчики: Granite Alignment Team, IBM Research — Дата выпуска: 24 июня 2025 г. — Лицензия: Apache 2.0 Этот адаптер специально настроен для английского языка, однако базовая модель поддерживает английский, немецкий, испанский, французский, японский, португальский, арабский, чешский, итальянский, корейский, голландский и китайский. Granite 3.3 8B LoRA Math PRM — это адаптер LoRA для Granite-3.3-8B-Instruct, который дает языковой модели возможность контролировать процесс на этапах математических рассуждений путем оценки правильности каждого шага цепочки рассуждений. В…

Модальности:
Генерация текста

Области применения:
Диалог / чат Математика

Задача: Генерация текста
Автор: ibm-granite
Теги: reward model, conversational, en, endpoints_compatible
Лайков: 10 | Загрузок: 0

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.