Модель RP, Niitama 1.1 в качестве основы, почти заменена на одну из самых умных моделей 3.1 «Storm», затем DPO’d, по большей части удалена. Gutenberg DPO создает более человечные прозы и рассказы и значительно уменьшает количество синтетических чувств. Это объединение и точная настройка предварительно обученных языковых моделей. Результирующее слияние настроено на jondurbin/gutenberg-dpo-v0.1 для 1 эпохи, скорости обучения 1,5e-5, на Nvidia A100. Эта модель была объединена с использованием алгоритма слияния NEARSWAP t0.0001. В объединение были включены следующие модели: Базовая модель: Sao10K/L3.1-8B-Niitama-v1.1 + grimjim/Llama-3-Instruct-abliteration-LoRA-8B akjindal53244/Llama-3.1-Storm-8B Для создания этой модели использовалась следующая конфигурация YAML: при обучении я использовал более высокую скорость обучения и полный набор данных по сравнению с моей «L3.1-Небесный-Камень-2x8B-DPO». Это привело к меньшим потерям и лучшей адаптации к выбранному стилю.
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: v000000
Теги: llama, merge, dpo, conversational, model-index, text-generation-inference, endpoints_compatible
Лайков: 7 | Загрузок: 27
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.