chhao/Weak-Driven-Learning

Слабое обучение представляет новую парадигму постобучения, которая бросает вызов традиционному предположению, что обучение с использованием более слабых моделей обязательно снижает производительность. Ключевые особенности включают в себя: — Новая парадигма обучения: использует слабых агентов (контрольные точки исторической модели) в качестве информативных сигналов об ошибках для обеспечения постоянного улучшения, выходящего за пределы стандартного насыщения надзором. — Никаких дополнительных затрат на вывод: расширенная модель поддерживает ту же архитектуру, что и базовая модель, не требуя дополнительных вычислительных затрат во время вывода. — Стабильный прирост производительности: демонстрирует улучшения в сложных тестах, включая математические рассуждения и задачи генерации кода, по сравнению со стандартными базовыми показателями SFT. — Структура практического обучения: реализует совместную оптимизацию слабых и сильных моделей посредством смешивания логитов, предотвращая исчезновение градиента и поддерживая эффективное давление обучения. Этот репозиторий содержит модели, обученные с использованием платформы Weak-Driven Learning, которая реализует принцип, согласно которому слабые агенты могут сделать сильных агентов сильнее (WMSS). В отличие от дистилляции знаний, которая требует доступа к более сильным учителям, обучение, основанное на слабых мотивах, легко…

Модальности:
Генерация текста

Области применения:
Генерация кода Диалог / чат

Задача: Генерация текста
Автор: chhao
Теги: qwen3, weak-driven-learning, post-training, mathematical-reasoning, code-generation, conversational, text-generation-inference, endpoints_compatible
Лайков: 7 | Загрузок: 25

Открыть на HuggingFace →

Описание основано на материалах HuggingFace. Перевод выполнен автоматически.

Похожие модели (Генерация текста)

Yukang/Llama-2-13b-longlora-64k

winninghealth/WiNGPT-Babel

Orenguteng/Llama-3-8B-LexiFun-Uncensored-V1

h2oai/h2ogpt-4096-llama2-7b-chat