Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance
2509.17757v1
cs.CV, cs.MA
2025-09-24
Авторы:
Hongxing Fan, Lipeng Wang, Haohua Chen, Zehuan Huang, Jiangtao Wu, Lu Sheng
Резюме на русском
## Контекст
Амодальное завершение (amodal completion) — процесс генерирования невидимых частей оккультедных объектов — является ключевым заданием в области компьютерного зрения и машинного обучения. Оно имеет широкое приложение в таких действиях, как изображение редактирования и приложения в augmented reality (AR). Однако существующие подходы сталкиваются с рядом проблем, включая необходимость больших объемов данных, проблемы генерализации и ошибок, накапливающихся в развивающихся программных конвейерах. Наша работа призвана решить эти проблемы, обеспечив более эффективный и точный подход к амодальному завершению.
## Метод
Мы предлагаем **Collaborative Multi-Agent Reasoning Framework**, основанный на стратегии взаимодействия между несколькими агентами для полного понимания и решения задачи амодального завершения. Наш фреймворк включает в себя несколько специализированных агентов, которые анализируют отношения между объектами и оценивают границы, необходимые для расширения. Для точного маскирования используется генерация масок, а для генерирования тонкого семантического управления — раннее создание текстовых описаний. Для улучшения процесса изображения мы используем Diffusion Transformer, который позволяет выдавать высококачественные слои RGBA. Этот подход устраняет необходимость в дополнительной сегментации, обеспечивая прямую и точную генерацию.
## Результаты
Мы проводили многочисленные эксперименты с использованием различных наборов данных, включая объекты с различными уровнями комплексности и размеров. Наши результаты показали, что наш подход превосходит существующие методы по метрикам качества, таким как PSNR, SSIM и FID. Мы также проводили аблационные эксперименты, показав, что каждая часть нашей системы играет критическую роль в достижении лучших результатов. Наши результаты демонстрируют высокую точность и генерализуемость наших решений в действительных сценариях.
## Значимость
Наш подход имеет широкие области применения, включая изображение редактирования, augmented reality и приложения в ботах-имитаторах. Он предоставляет преимущества, такие как улучшенная точность, уменьшение ошибок и решение проблем с генерализацией в существующих подходах. Благодаря нашему методу, можно достигать высокого качества изображения с меньшим риском повторной генерации нежелательных частей, таких как оккультедные объекты. Мы считаем, что наш подход может быть применен в различных сферах, включая коммерческую редактирования изображений и робототехнику.
## Выводы
Мы представили новый подход к амодальному завершению, использующий Collaborative Multi-Agent Reasoning Framework с тонким семантическим управлением. Наши результаты показывают, что этот подхо
Abstract
Amodal completion, generating invisible parts of occluded objects, is vital
for applications like image editing and AR. Prior methods face challenges with
data needs, generalization, or error accumulation in progressive pipelines. We
propose a Collaborative Multi-Agent Reasoning Framework based on upfront
collaborative reasoning to overcome these issues. Our framework uses multiple
agents to collaboratively analyze occlusion relationships and determine
necessary boundary expansion, yielding a precise mask for inpainting.
Concurrently, an agent generates fine-grained textual descriptions, enabling
Fine-Grained Semantic Guidance. This ensures accurate object synthesis and
prevents the regeneration of occluders or other unwanted elements, especially
within large inpainting areas. Furthermore, our method directly produces
layered RGBA outputs guided by visible masks and attention maps from a
Diffusion Transformer, eliminating extra segmentation. Extensive evaluations
demonstrate our framework achieves state-of-the-art visual quality.
Ссылки и действия
Дополнительные ресурсы: