Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance

2509.17757v1 cs.CV, cs.MA 2025-09-24

Авторы:

Hongxing Fan, Lipeng Wang, Haohua Chen, Zehuan Huang, Jiangtao Wu, Lu Sheng

Резюме на русском

## Контекст Амодальное завершение (amodal completion) — процесс генерирования невидимых частей оккультедных объектов — является ключевым заданием в области компьютерного зрения и машинного обучения. Оно имеет широкое приложение в таких действиях, как изображение редактирования и приложения в augmented reality (AR). Однако существующие подходы сталкиваются с рядом проблем, включая необходимость больших объемов данных, проблемы генерализации и ошибок, накапливающихся в развивающихся программных конвейерах. Наша работа призвана решить эти проблемы, обеспечив более эффективный и точный подход к амодальному завершению. ## Метод Мы предлагаем **Collaborative Multi-Agent Reasoning Framework**, основанный на стратегии взаимодействия между несколькими агентами для полного понимания и решения задачи амодального завершения. Наш фреймворк включает в себя несколько специализированных агентов, которые анализируют отношения между объектами и оценивают границы, необходимые для расширения. Для точного маскирования используется генерация масок, а для генерирования тонкого семантического управления — раннее создание текстовых описаний. Для улучшения процесса изображения мы используем Diffusion Transformer, который позволяет выдавать высококачественные слои RGBA. Этот подход устраняет необходимость в дополнительной сегментации, обеспечивая прямую и точную генерацию. ## Результаты Мы проводили многочисленные эксперименты с использованием различных наборов данных, включая объекты с различными уровнями комплексности и размеров. Наши результаты показали, что наш подход превосходит существующие методы по метрикам качества, таким как PSNR, SSIM и FID. Мы также проводили аблационные эксперименты, показав, что каждая часть нашей системы играет критическую роль в достижении лучших результатов. Наши результаты демонстрируют высокую точность и генерализуемость наших решений в действительных сценариях. ## Значимость Наш подход имеет широкие области применения, включая изображение редактирования, augmented reality и приложения в ботах-имитаторах. Он предоставляет преимущества, такие как улучшенная точность, уменьшение ошибок и решение проблем с генерализацией в существующих подходах. Благодаря нашему методу, можно достигать высокого качества изображения с меньшим риском повторной генерации нежелательных частей, таких как оккультедные объекты. Мы считаем, что наш подход может быть применен в различных сферах, включая коммерческую редактирования изображений и робототехнику. ## Выводы Мы представили новый подход к амодальному завершению, использующий Collaborative Multi-Agent Reasoning Framework с тонким семантическим управлением. Наши результаты показывают, что этот подхо

Abstract

Amodal completion, generating invisible parts of occluded objects, is vital for applications like image editing and AR. Prior methods face challenges with data needs, generalization, or error accumulation in progressive pipelines. We propose a Collaborative Multi-Agent Reasoning Framework based on upfront collaborative reasoning to overcome these issues. Our framework uses multiple agents to collaboratively analyze occlusion relationships and determine necessary boundary expansion, yielding a precise mask for inpainting. Concurrently, an agent generates fine-grained textual descriptions, enabling Fine-Grained Semantic Guidance. This ensures accurate object synthesis and prevents the regeneration of occluders or other unwanted elements, especially within large inpainting areas. Furthermore, our method directly produces layered RGBA outputs guided by visible masks and attention maps from a Diffusion Transformer, eliminating extra segmentation. Extensive evaluations demonstrate our framework achieves state-of-the-art visual quality.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CourtMotion: Learning Event-Driven Motion Representations from Skeletal Data for...

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Ag...

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Net...

Навигация