В этом репозитории представлена Falcon-H1R-7B, специализированная модель рассуждений, представленная в документе Falcon-H1R: расширяя границы рассуждений с помощью гибридной модели для эффективного масштабирования времени тестирования. Построенный на базе Falcon-H1-7B-Base, он был обучен посредством контролируемой точной настройки при холодном запуске с длинными трассировками рассуждений и дополнительно усовершенствован за счет масштабирования RL с помощью GRPO. Модель демонстрирует выдающуюся производительность в различных тестах, включая математику, программирование, выполнение инструкций и общую логику. — Разработано: Институт технологических инноваций. — Тип модели: только причинный декодер. — Архитектура: гибридная архитектура (трансформеры + Mamba2). — Язык(и): английский, многоязычный. — Лицензия: лицензия Falcon-LLM. Более подробную информацию о протоколе обучения этой модели можно найти в техническом блоге Falcon-H1R и техническом отчете. В настоящее время для использования этой модели вы можете положиться на преобразователи Hugging Face, библиотеку vLLM или SGLang. Обязательно установите последнюю версию преобразователей, vLLM или SGLang. Мы рекомендуем использовать температуру 0,6 и top-p 0,95 с максимальным количеством новых токенов до 65536. Для поддерживаемых платформ вы можете настроить штраф за повторение и…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: tiiuae
Теги: falcon_h1, falcon-h1r, conversational, en, eval-results, endpoints_compatible
Лайков: 218 | Загрузок: 6,113
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.