Menlo/ReZero-v0.1-llama-3.2-3b-it-grpo-250404

ReZero обучает небольшую языковую модель разработке эффективного поискового поведения вместо запоминания статических данных. Он взаимодействует с несколькими синтетическими поисковыми системами, каждая из которых имеет уникальные механизмы поиска, для уточнения запросов и продолжения поиска до тех пор, пока не найдут точные ответы. Проект фокусируется на обучении с подкреплением, предотвращении переобучения и оптимизации эффективности реальных поисковых приложений. Это запустит интерфейс Gradio, в котором вы сможете взаимодействовать с моделью и тестировать различные способы поиска. Все необходимые данные для обучения включены в папку data/. Для обучения: Наших моделей можно найти на Hugging Face 🤗! Мы стремимся к открытому исходному коду и легкому доступу для исследовательского сообщества. — Этот проект запущен из исходного кода AutoDidact.

Модальности:
Генерация текста

Области применения:
Диалог / чат

Задача: Генерация текста
Автор: Menlo
Теги: tensorboard, llama, conversational, en, text-generation-inference, endpoints_compatible
Лайков: 63 | Загрузок: 249

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Генерация текста

Похожие модели (Генерация текста)

abacusai/Llama-3-Smaug-8B

TheBloke/Euryale-1.3-L2-70B-GPTQ

Gensyn/Qwen2.5-0.5B-Instruct

dranger003/miqu-1-70b-iMat.GGUF