Описание: Семейство языковых моделей Thespis предназначено для повышения эффективности ролевых игр посредством рассуждений, вдохновленных Теорией разума. Thespis-Llama-3.1-8B — это доработанная версия удаленной модели Llama-3.1-8B, оптимизированная с использованием оптимизации групповой относительной политики (GRPO). Модель получает особую награду за минимизацию «небрежности» и повторов в результатах, стремясь создать связный и привлекательный текст, сохраняющий последовательность символов и позволяющий избежать некачественных ответов. Эта версия представляет собой первоначальный выпуск; будущие итерации будут включать более строгий процесс тонкой настройки. Чтобы добиться наилучших результатов в ролевой игре и использовать возможности рассуждения Теории разума Thespis-Llama-3.1-8B, крайне важно включить следующую структуру в начало системной подсказки: Затем определите роль, которую будет играть ваш персонаж. Затем модель будет использовать предоставленную структуру для анализа ввода пользователя и генерации соответствующего символьного ответа. Thespis-Llama-3.1-8B предназначен для использования в сценариях ролевых игр, творческого письма и интерактивного рассказывания историй. Он призван повысить реалистичность и глубину взаимодействия персонажей. Этот…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: Locutusque
Теги: llama, text-generation-inference, unsloth, trl, grpo, conversational, en, endpoints_compatible
Лайков: 16 | Загрузок: 8
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.