📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Academic presentation videos have become an essential medium for research communication, yet producing them remains highly labor-intensive, often requiring hours of slide design, recording, and editing for a short 2 to 10 minutes video. Unlike natural video, presentation video generation involves distinctive challenges: inputs from research papers, dense multi-modal information (text, figures, tables), and the need to coordinate multiple aligned channels such as slides, subtitles, speech, and hu...
ID: 2510.05096v2 cs.CV, cs.AI, cs.CL, cs.MA, cs.MM
Авторы:

Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Academic presentation videos have become an essential medium for research communication, yet producing them remains highly labor-intensive, often requiring hours of slide design, recording, and editing for a short 2 to 10 minutes video. Unlike natural video, presentation video generation involves distinctive challenges: inputs from research papers, dense multi-modal information (text, figures, tables), and the need to coordinate multiple aligned channels such as slides, subtitles, speech, and hu...
ID: 2510.05096v1 cs.CV, cs.AI, cs.CL, cs.MA, cs.MM
Авторы:

Wonduk Seo, Minhyeong Yu, Hyunjin An, Seunghyun Lee

#### Контекст Область исследований в области изображений и классификации в последние годы доминируется требованиями к большим данным и высокопараметричным моделям. Альтернативные подходы, такие как Vision Language Models (VLMs), упрощают задачу, но часто не могут ловко обрабатывать сложные объекты или несогласованные аспекты в изображениях. Это ограничение приводит к неэффективности или недостоверности результатов. Целью настоящего исследования является развитие метода, который может лучше учитывать глобальный контекст и подробные отдельные аспекты в изображениях, обеспечивая более точную интерпретируемую классификацию. #### Метод MARIC представляет собой новую архитектуру, основанную на многоагентном подходе. Основные компоненты включают: **Outliner Agent**, который определяет глобальный контекст изображения и формирует задачи для других агентов; **Aspect Agents**, которые специализируются на определенных аспектах изображения (например, цвет, форма, текстура); и **Reasoning Agent**, который объединяет все полученные выводы в единую модель. Задачи этих агентов образуют совокупность, призванную улучшить интерпретируемость и точность классификации. Реализация включает не только глубокую нейронную архитектуру, но и специально организованные процессы синтеза вывода. #### Результаты В экспериментах использовались такие датасеты, как CIFAR, ImageNet и др. Замеры показали, что MARIC превосходит существующие модели, в том числе VLMs, в показателях точности и интерпретируемости. Были проведены анализы по сравнению с параметрическими моделями и VLMs, демонстрируя преимущество MARIC в объеме данных и прозрачности решений. Эти результаты демонстрируют, что MARIC может эффективно обрабатывать трудные изображения, объединяя компоненты взаимодействия между агентами. #### Значимость Метод MARIC может быть применен в различных областях, включая медицину, робототехнику и анализ изображений для соцсетей. В отличие от традиционных моделей, MARIC предоставляет более гибкий и точный подход к классификации, с учетом множества аспектов изображения. Он также демонстрирует возможность интерактивного взаимодействия с пользователем для корректировки результатов. Это может открыть новые пути в интеллектуальной обработке изображений, где точность и интерпретированность ключевые факторы. #### Выводы Результаты экспериментов подтверждают, что MARIC представляет собой эффективный подход для многоагентной классификации изображений. Он успешно обходит ограничения традиционных моделей, в то же время сочетая точность и понятность. Будущие исследования будут на
Annotation:
Image classification has traditionally relied on parameter-intensive model training, requiring large-scale annotated datasets and extensive fine tuning to achieve competitive performance. While recent vision language models (VLMs) alleviate some of these constraints, they remain limited by their reliance on single pass representations, often failing to capture complementary aspects of visual content. In this paper, we introduce Multi Agent based Reasoning for Image Classification (MARIC), a mult...
ID: 2509.14860v1 cs.CV, cs.AI, cs.CL, cs.MA