Точная настройка DPO для microsoft/Phi-3-medium-4k-instruct (14B параметров) с использованием набора данных rlhf jpacifico/french-orca-dpo-pairs-revised. Обучение на французском языке также улучшает англоязычную модель, превосходя ее базовую модель. Контекст окна = 4 тыс. токенов. 4-битная квантованная версия доступна здесь: jpacifico/Chocolatine-14B-Instruct-DPO-v1.2-Q4KM-GGUF. Обновление 2024/12/15: также доступно на Ollama: jpacifico/chocolatine-14b Chocolatine — самая эффективная модель размером 13B в таблице лидеров OpenLLM (последняя). обновление: 18.10.2024) Chocolatine-14B-Instruct-DPO-v1.2 превосходит свои предыдущие версии и базовую модель Phi-3-medium-4k-instruct на MT-Bench-French, используемом с multilingual-mt-bench и GPT-4-Turbo в качестве судьи LLM. [Обновление от 27 февраля 2025 г.] Добавлен Chocolatine-2 v2.0.3 Серия моделей Chocolatine — это быстрая демонстрация того, что базовую модель можно легко настроить для достижения привлекательных характеристик. У него нет механизма модерации. – Разработчик: Джонатан Пасифико, 2024 г. – Тип модели: LLM – Язык(и) (NLP): французский, английский – Лицензия: MIT
Модальности:
Генерация текста
Области применения:
Диалог / чат Следование инструкциям
Задача: Генерация текста
Автор: jpacifico
Теги: phi3, french, chocolatine, conversational, custom_code, fr, en, model-index
Лайков: 14 | Загрузок: 84
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.