DanceOPD: дистилляция генеративных полей на основе онлайн-выборки для унифицированной генерации изображений

ByteDance Seed

исследования офиц. + СМИ 2 ист. ~1 мин

DanceOPD рассматривает каждую возможность генерации изображений (text-to-image, локальное редактирование, глобальное редактирование) как поле скоростей и дистиллирует их в унифицированную студенческую модель flow-matching через онлайн-выборку. Для каждого обучающего примера студент направляется к одному замороженному полю возможностей, запрашивает его в состоянии малого шума при онлайн-выборке и согласовывает результирующую скорость с помощью локального MSE-лосса. Это позволяет избежать интерференции возможностей. Показатели редактирования улучшаются до 21.9% в отдельных категориях, а метрики text-to-image сохраняются или улучшаются до 2.0%. 64 голоса на HF Daily Papers.

Почему это важно

Объединение разнообразных генеративных возможностей без катастрофического забывания — устойчивая проблема в генерации изображений. Подход дистилляции на основе онлайн-выборки в DanceOPD архитектурно чист и демонстрирует сильные эмпирические результаты по всем трём измерениям возможностей.

Важность: 2/5

64 голоса на HF Daily; чистое решение задачи мультивозможностной дистилляции в генерации изображений от ByteDance Seed

Источники