Современные инструменты стилизации фотографий значительно продвинулись в качестве
за последние несколько лет. Во многом прогресс ИИ-редактуры фото обязан развитию
генеративно-состязательных архитектур в задаче контролируемого изменения
изображений лиц.
Пользователи уже могут примерять прически, добавлять к селфи очки, усы и другие
элементы. Однако существующие подходы сталкиваются с проблемой: при
изменении изображения или исходное лицо редактируется неправильно, например,
добавляются лишние детали в тех местах, которые не подвергались редактированию, или
теряются детали исходного изображения, такие как макияж, татуировки, аксессуары и т.п.
Команда «Контролируемый генеративный ИИ» лаборатории FusionBrain Института AIRI
занимается задачами персонализации при создании мультимедийного контента. В
актуальном исследовании, принятом на ведущую конференцию по компьютерному
зрению CVPR-2024 (А*), ученые представили StyleFeatureEditor (SFE) – фреймворк,
который позволяет быстро редактировать фотографии, сохраняя качество реконструкции
и хорошую редактируемость результата.
Современные подходы к инверсии изображений – поиску внутренних элементов, которые
можно редактировать – делятся на две большие группы: методы, основанные на
оптимизации, и методы на базе энкодеров. Оптимизаторы запускают свой процесс для
каждой картинки заново, а энкодеры – могут работать с любой картинкой. Проблема
энкодеров заключается в том, что сложнее обучить одну нейросеть для всех картинок,
чем для каждой картинки запускать процесс оптимизации. Разница между энкодерами и
методами оптимизации предоставляет выбор: хотим мы получить быстрый, но не очень
точный метод, или медленный, но довольно хороший. И в том, и в другом случае остается
риск изменения исходного изображения.
Коллектив ученых из AIRI решил эту проблему благодаря новой процедуре обучения. На
первом этапе нейросеть учится реконструировать саму фотографию без какого-либо
редактирования – она учится как правильно вынуть из изображения нужные ей признаки.
На втором этапе, зафиксировав все знания с первого этапа, нейросеть учится, как
правильно редактировать выученные признаки. В этом ей помогают предыдущие методы
– с помощью них можно собрать примеры различных редактирований простых
изображений, и показать эти примеры нашей нейросети. Таким образом, мы показываем
нашему методу, как реконструировать сложные (реальные) фотографии, как должны
редактироваться простые (синтетические), и нейросеть сама начинает понимать, как
должны редактироваться сложные фото. Используя полученные на простых примерах
знания, модель обучилась работать со сложными кадрами реальных лиц.
StyleFeatureEditor сравнили с 11 наиболее известными аналогами на примере портретов,
включая сложные для анализа снимки с гримом и тату, и автомобилей. Подход не только
успешно справляется с добавлением новых стилевых элементов, но и бережно относится
к деталям исходных изображений. Качество реконструкции было улучшено в 4 раза по
сравнению с SOTA-моделями по стандартной метрике LPIPS
«Предложенный метод не только позволяет восстановить более мелкие детали
изображения, но и обеспечивает их устойчивость при редактировании. Мы также
представляем новый пайплайн обучения, специально разработанный для задачи
редактирования изображений в латентном пространстве. В сравнении работы с
современными подходами мы отметили лучшее качество реконструкции и
способность редактировать даже сложные примеры. Важно учитывать, что
представленный метод в первую очередь сфокусирован на улучшении метрик и
внутренних систем ИИ-генераторов, потому будет полезен разработчикам и
профессиональным дизайнерам, работающим с инструментами на основе
генеративного ИИ», – отметил директор лаборатории FusionBrain Института AIRI
Андрей Кузнецов.
Найти выложенную в открытый доступ модель и применить ее для своих сервисов можно
в репозитории команды на GitHub.