anakin87/gemma-2b-orpo

Это доработка ORPO google/gemma-2b с использованием alvarobartt/dpo-mix-7k-simplified. ⚡ Квантовая версия (GGUF): https://huggingface.co/anakin87/gemma-2b-orpo-GGUF ORPO (оптимизация предпочтений отношения шансов) — это новая парадигма обучения, которая сочетает в себе обычно разделенные фазы SFT (контролируемой точной настройки) и выравнивания предпочтений (обычно выполняемого с помощью RLHF или более простых методов, таких как DPO). — Более быстрое обучение — Меньше использования памяти (эталонная модель не требуется) — Хорошие результаты! gemma-2b-orpo хорошо работает для своего размера в наборе тестов Nous. Для сравнения, в таблице лидеров Open LLM средний балл google/gemma-2b-it составляет 42,75. alvarobartt/dpo-mix-7k-simplified — это упрощенная версия argilla/dpo-mix-7k. Дополнительную информацию можно найти в карточке набора данных. Модель небольшая, поэтому на Colab она работает без проблем. Также можно загрузить модель с использованием квантования. — Трансформеры 4.39.1 — Pytorch 2.2.0+cu121 — Наборы данных 2.18.0 — Токенизаторы 0.15.2

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: anakin87
Теги: gemma, trl, orpo, generated_from_trainer, conversational, en, model-index, text-generation-inference
Лайков: 28 | Загрузок: 33

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

charent/ChatLM-mini-Chinese

SeaLLMs/SeaLLM-7B-v2.5

unsloth/QwQ-32B-Preview-GGUF

rinna/youri-7b-instruction-gptq