Самостоятельная точная настройка (SPIN) — это новый метод точной настройки, который превосходит стандартную контролируемую точную настройку (SFT). Вместо того, чтобы просто выполнять прогнозирование следующего токена, SPIN — это итеративный метод, который сравнивает поколения из предыдущей итерации модели с достоверными завершениями. В отличие от таких методов, как обучение с подкреплением или ранжирование потерь, SPIN не требует данных о предпочтениях, что делает его привлекательным методом, поскольку данные о предпочтениях может быть трудно собрать. Однако популярность SPIN была ограничена необходимостью многократно генерировать последовательности из модели — генерация происходит намного медленнее, чем обучение, поэтому SPIN намного медленнее и дороже по сравнению с SFT. Помня об этой проблеме, я попытался создать альтернативу SPIN, не требующую генерации. SFT обучает модели прогнозировать следующий токен, учитывая все достоверные предыдущие токены. Однако при генерации модель не имеет доступа к основной истине для прогнозирования и вместо этого многократно прогнозирует поверх своих собственных прогнозов. Это создает смещение, известное как «предвзятость воздействия»: модели часто могут в среднем выбрать разумный выбор для следующего токена, но не могут сохранить это на протяжении всей последовательности. В…
Модальности:
Генерация текста
Области применения:
Диалог / чат
Задача: Генерация текста
Автор: euclaise
Теги: stablelm, conversational, en, endpoints_compatible
Лайков: 16 | Загрузок: 108
Описание основано на материалах HuggingFace. Перевод выполнен автоматически.