EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning
2508.07292v1
cs.AI, cs.CL, cs.CV
2025-08-13
Авторы:
Yi Tang, Kaini Wang, Yang Chen, Guangquan Zhou
Резюме на русском
## Контекст
Исследование развития искусственного интеллекта (AI) для поддержки диагностики на основе эндоскопических изображений является важной областью поиска. Существующие методы, основанные на больших наборах данных и предварительной обучении, часто страдают от отсутствия унифицированного подхода к решению различных задач и сложности с многошаговыми процессами в клинических работах. Хотя AI-агенты доказали свою эффективность в адаптивном исполнении инструкций и интеграции инструментов в различных областях, их потенциал в области эндоскопии остается недостаточно исследованным. Целью данной работы является разработка EndoAgent — первого AI-агента, основанного на памяти, для визуально-решающего анализа эндоскопических изображений, который комбинирует итеративное разумение с адаптивным выбором инструментов и сотрудничеством.
## Метод
EndoAgent основывается на двухкомпонентной системе памяти: краткосрочной, для отслеживания действий, и долгосрочной, для улучшения рассуждений в процессе. Агент интегрирует множество специализированных инструментов, разработанных экспертами, в единую логическую структуру. Методология решения задач включает интерактивное взаимодействие с изображениями, адаптивные выборки инструментов и итеративную коррекцию решений. Для эффективного обучения и оценки производительности разработан EndoAgentBench — бенчмарк, содержащий 5709 визуальных вопросов-ответов, оценивающих уровень понимания и построение решений в реальных ситуациях.
## Результаты
Экспериментальные исследования показали, что EndoAgent превосходит общие и медицинские многомодальные модели, демонстрируя высокую гибкость и компетентность в рассуждениях. Он показал себя эффективнее в задачах, требующих многошагового анализа и управления инструментами. Это доказывает значительный потенциал EndoAgentа в применении к клиническим задачам, где требуется глубокий анализ информации и быстрая адаптивность.
## Значимость
EndoAgent может быть применен в различных областях медицины, где требуется визуальный анализ и принятие решений, таких как диагностика, планирование хирургических операций и улучшение операционных процессов. Визуально-решающий подход с учетом памяти и интеграции инструментов делает EndoAgent очень гибким и эффективным в различных рабочих процессах. Благодаря своему уникальному подходу, EndoAgent может существенно улучшить точность диагностики и эффективность работы в сложных клинических ситуациях.
## Выводы
EndoAgent представляет собой прорыв в области визуально-решающих AI-систем для эндоскопической диагностики. Он дока
Abstract
Developing general artificial intelligence (AI) systems to support endoscopic
image diagnosis is an emerging research priority. Existing methods based on
large-scale pretraining often lack unified coordination across tasks and
struggle to handle the multi-step processes required in complex clinical
workflows. While AI agents have shown promise in flexible instruction parsing
and tool integration across domains, their potential in endoscopy remains
underexplored. To address this gap, we propose EndoAgent, the first
memory-guided agent for vision-to-decision endoscopic analysis that integrates
iterative reasoning with adaptive tool selection and collaboration. Built on a
dual-memory design, it enables sophisticated decision-making by ensuring
logical coherence through short-term action tracking and progressively
enhancing reasoning acuity through long-term experiential learning. To support
diverse clinical tasks, EndoAgent integrates a suite of expert-designed tools
within a unified reasoning loop. We further introduce EndoAgentBench, a
benchmark of 5,709 visual question-answer pairs that assess visual
understanding and language generation capabilities in realistic scenarios.
Extensive experiments show that EndoAgent consistently outperforms both general
and medical multimodal models, exhibiting its strong flexibility and reasoning
capabilities.
Ссылки и действия
Дополнительные ресурсы: