📚 Саммари научных статей из arXiv

Найдено 161 результатов по запросу 'cs.CV, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Gender Stereotypes in Professional Roles Among Saudis: An Analytical Study of AI-Generated Images Using Language Models

2025-09-30

Авторы:

Khaloud S. AlKhalifah, Malak Mashaabi, Hend Al-Khalifa

#### Контекст В современном мире текстово-графические искусственные интеллекты (AI) становятся важной частью цифрового искусства и массовых средств связи. Однако эти технологии часто берут свои данные из реального мира, в котором существуют сильные стереотипы по поводу пола и культурных нюансов. Таким образом, при проведении анализа выходных данных визуализации моделей можно не только получить интересные стереотипы, но и изучить гендерные и культурные ошибки в текстово-графических моделях. В этом исследовании был исследован вклад моделей в продвижение гендерных стереотипов и культурных нюансов в профессиональных ролях в Саудовской Аравии. #### Метод Для исследования был использован текстовый ввод в 3 AI-моделях: ImageFX, DALL-E V3 и Grok. Авторы выбрали 56 разных профессий в Саудовской Аравии, причем каждый профессионал был представлен 5 различными изображениями. Создаваемые изображения были оценены с помощью 2 оценщиков, которые присутствовали во всей стадии процесса. Оценка производилась по 5 категориям: гендер, одежда и внешний вид, фон и среда, деятельность и взаимодействия, возраст. Таким образом, было получено 10,100 отдельных оценок. Для разрешения спорных ситуаций принял участие третий, более опытный эксперт. #### Результаты Результаты анализа показали сильные гендерные стереотипы в выходных данных. За счёт склонности моделей к мужским показателям, ImageFX выдавала 85% мужских целей, Grok - 86.6%, DALL-E V3 - 96%. Наиболее гендерные стереотипы отражались в профессиях лидерства и технических специалистов. Были отмечены культурные неточности в одежде, фоне и деятельности, которые отражались во всех трех моделях. Некоторые стереотипы, казавшиеся прогрессивными, на самом деле были вызваны культурными недопониманиями. #### Значимость Результаты имеют значимость в течение различных областей. В первую очередь, гендерные стереотипы могут быть использованы в контексте повышения создателей AI о наличии угроз касательно гендерных стереотипов в своих моделях. Также, анализ может быть применен в области развития культурных рамков для гендерной представленности в текстово-графических моделях. Более того, данные результаты могут помочь в создании более точных и культурно чувствительных моделей в будущем. #### Выводы В итоге, исследование показало, что текущие текстовые-графические AI-модели отображают существующие стереотипы, возникшие в результате обучения на человеческих данных. На основе этих выводов, авторы приходят к выводу, что необхо

Annotation:

This study investigates the extent to which contemporary Text-to-Image artificial intelligence (AI) models perpetuate gender stereotypes and cultural inaccuracies when generating depictions of professionals in Saudi Arabia. We analyzed 1,006 images produced by ImageFX, DALL-E V3, and Grok for 56 diverse Saudi professions using neutral prompts. Two trained Saudi annotators evaluated each image on five dimensions: perceived gender, clothing and appearance, background and setting, activities and in...

ID: 2509.21466v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 UISim: An Interactive Image-Based UI Simulator for Dynamic Mobile Environments

2025-09-30

Авторы:

Jiannan Xiang, Yun Zhu, Lei Shu, Maria Wang, Lijun Yu, Gabriel Barcik, James Lyon, Srinivas Sunkara, Jindong Chen

#### Контекст Разработка и тестирование пользовательских интерфейсов (UI), а также обучение интеллектуальных агентов для взаимодействия с ними, представляют собой значительные вызовы в условиях динамичных и разнообразных реальных мобильных сред. Существующие подходы часто ограничены использованием физических устройств или анализом статических скриншотов, что приводит к ограниченности возможностей для масштабного тестирования и создания интеллектуальных интерфейсов. Мы предлагаем UISim — инновационную систему, реализующую имитацию UI с использованием изображений и обеспечивающую динамическое интерактивное моделирование процессов в мобильных средах. #### Метод UISim основывается на двух этапах: предсказании абстрактной структуры следующего UI-состояния и генерации нового визуально согласованного изображения на его основе. Исходным изображением является экран мобильного устройства, а действием — пользовательский ввод. Алгоритм UISim использует сочетание методов машинного обучения и графической синтезирования для точного представления сложных динамических сценариев в реальных условиях. Эта методология обеспечивает реалистичное моделирование переходов между UI-состояниями, что упрощает тестирование, прототипирование и синтез данных. #### Результаты Мы провели эксперименты сравнительного анализа UISim с другими подходами в области генерации UI. Результаты показали, что UISim превосходит в показателях реализм и консистентности полученных изображений. Были использованы реальные скриншоты для тестирования, и мы продемонстрировали, как UISim эффективно моделирует UI-транзи션ы, даже при высокой степени динамических изменений. Эти результаты подтверждают ряд преимуществ системы: высокую точность, масштабируемость и практическую значимость. #### Значимость UISim может применяться в разработке UI, генерации синтетических данных и обучении интеллектуальных агентов. Он позволяет упростить процессы тестирования, сократить время разработки и повысить качество интеллектуальных интерфейсов. В то же время, динамическая природа UISim открывает новые возможности для выполнения задач, таких как планирование маршрутов взаимодействия для AI-агентов. Это может привести к расширению возможностей в области интеллектуальных систем. #### Выводы Мы представили UISim — систему, которая предлагает новый подход к имитации UI в мобильных средах. Наши результаты показали высокую эффективность и практическую значимость этого подхода. Мы считаем, что UISim может стать ключевым инструментом для упрощения процессов разработки и обучения AI-систем. Н

Annotation:

Developing and testing user interfaces (UIs) and training AI agents to interact with them are challenging due to the dynamic and diverse nature of real-world mobile environments. Existing methods often rely on cumbersome physical devices or limited static analysis of screenshots, which hinders scalable testing and the development of intelligent UI agents. We introduce UISim, a novel image-based UI simulator that offers a dynamic and interactive platform for exploring mobile phone environments pu...

ID: 2509.21733v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

2025-09-30

Авторы:

Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim

#### Контекст В последние годы визионно-языковые модели (VLMs) получили широкое применение в различных областях, таких как анализ изображений, генерация текста и семантический поиск. Однако существующие модели страдают от высоких затрат на вычисления при работе с высокорезольвентными изображениями, что ограничивает их эффективность в реальном времени. Эта проблема усиливается с развитием моделей " thinking with images", которые расширяют область научного исследования с текста на визуальные данные. Наша мотивация заключается в создании более эффективной модели для решения этих задач, оптимизируя процесс работы с высокорезольвентными изображениями. #### Метод Мы предлагаем ERGO (Efficient Reasoning & Guided Observation), метод, основанный на двухступенчатой "коарсе-то-файн" (грубая до строгой) пипейлни. В первой стадии сокращается разрешение изображения, чтобы выделить задачу-применимые области, а во второй стадии обрабатываются только эти области с полным разрешением. Для того чтобы отличить релевантные области, мы предлагаем решение, основанное на мультимодальном контексте, которое учитывает не только текстовую информацию, но и визуальную. Это позволяет управлять перцептивной неопределенностью, расширяя область обработки для ответа на запросы. Мы используем фреймворк реинфорсментного обучения для оптимизации этого процесса. #### Результаты Мы провёряли нашу модель на нескольких датасетах, включая V*, и сравнили её с оригинальной моделью и другими конкурентными подходами. ERGO достигла значительного улучшения производительности с меньшими затратами на вычисления. Например, на V* она превосходит Qwen2.5-VL-7B на 4.7%, при этом используя только 23% визуальных токенов и получая 3x ускорение в инференсе. Это демонстрирует эффективность нашего подхода в решении задач высокорезольвентного визуального понимания. #### Значимость Исследования ERGO могут применяться в различных областях, включая автоматизированный контент-анализ, робототехнику и системы опоры на реальном времени. Основное преимущество заключается в снижении вычислительных затрат, что особенно критично для мобильных устройств и реального времени. Наш подход также может расширить возможности визуально-языковых моделей, улучшив их точность и скорость работы. Это делает нашу модель привлекательной для применения в реальном мире. #### Выводы Мы представляем ERGO, метод, который эффективно решает проблему высоких затрат на работу с высокорезольвентными изображениями в визуально-языковых моделях. Наш подход демонстрирует высокую точность и эффективность, достигнутые за счёт двухступенчатого принципа обработки. Мы планируем дальней

Annotation:

Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; th...

ID: 2509.21991v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting

2025-09-30

Авторы:

Yasmine Omri, Connor Ding, Tsachy Weissman, Thierry Tambe

#### Контекст Modern vision-language pipelines, вдохновленные моделями типа CLIP, возникли как решение задач, требующих сильного переноса между задачами и высокой гибкостью. Они построены на визуальных представлениях, полученных в результате обучения RGB-вендоров на больших корпусах изображений и текстов. Тем не менее, эти представления имеют две существенные неэффективности: (i) передача плотных RGB-оттенков на платформах с ограниченными ресурсами — дорогостоящая и энергоемкая операция, и (ii) токенизация пикселей на чанки — это приводит к гигантскому потоку данных, накладывающему ограничения на контекстную модель и напряжающему бюджет аутентификации. Наша исследовательская мотивация заключается в оценке может ли 2D Gaussian Splatting (2DGS), более эффективная и сжатая визуальная модель, стать альтернативой RGB-визуализации для vision-language моделей. #### Метод Методология основывается на разработке и оптимизации 2DGS-представлений, используя структурированный подход: (i) **инициализация**, ориентированная на многоугольники, чтобы воспроизвести пиксельные тензы; (ii) **удаление яркости света**, чтобы уменьшить количество Гауссианских сплатов; (iii) **батч-оптимизация CUDA-ядер**, чтобы увеличить эффективность GPU. Мы также фиксировали RGB-трансформер CLIP и разработали **адаптивный подход**, включающий: (i) лёгкую структуру входа, приспособленную к 2DGS, и (ii) **перцептр-ресемплер**, который позволяет повторно использовать 85% параметров CLIP. Таким образом, мы можем тренировать только 7% параметров модели, оставив остальные параметры замороженными. #### Результаты Мы провели эксперименты на DataComp, сравнивая полученные 2DGS-представления с исходными RGB-представлениями. 2DGS эффективно сжимает данные: от 3 до 20 раз по сравнению с RGB-пикселями. Мы получили неплохие значения zero-shot ImageNet-1K, что демонстрирует способность 2DGS генерировать смысловые представления. Однако в то же время, актуальные результаты в ImageNet-1K намного хуже, чем у RGB-визуализаций. Это предоставляет возможность определить будущие направления по улучшению эффективности 2DGS. #### Значимость 2DGS-представления могут использоваться во многих областях, в том числе: 1. **Низкоэнергоёмкие платформы** — решение для сенсорных и ограниченных ресурсных устройств, таких как мобильные телефоны и AR/VR-головные устройства. 2. **Визуально-текстовые модели** — 2DGS может стать более эффективной альтернативой RGB-визуализации для обучения моделей с широким покрытием задач. 3. **Энергоносительные технологии** — 2DGS предлагает эффективно

Annotation:

Modern vision language pipelines are driven by RGB vision encoders trained on massive image text corpora. While these pipelines have enabled impressive zero shot capabilities and strong transfer across tasks, they still inherit two structural inefficiencies from the pixel domain: (i) transmitting dense RGB images from edge devices to the cloud is energy intensive and costly, and (ii) patch based tokenization explodes sequence length, stressing attention budgets and context limits. We explore 2D ...

ID: 2509.22615v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs

2025-09-30

Авторы:

Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch

## Контекст С ростом технологий генерации видео с помощью искусственного интеллекта (ИИ) возникла необходимость в их качественной оценке. Одной из ключевых проблем является возможность человека распознать "deepfake" (искусственно созданные) видео и предоставить обоснованные причины для этого. Несмотря на то, что генеративные модели видео в последние годы демонстрируют впечатляющий прогресс, фундаментальный вопрос о том, насколько эффективно человеческое восприятие может отличить глубокие подделки от реальных видео, остается практически нераскрытым. Многие исследования концентрируются на общем распознавании "deepfake", но не учитывают тонкие, визуально-спатिотамоубразные признаки, которые могут сокрыться в специфических моментах видео. Это приводит к отсутствию подробных, гранулярных бенчмарков для оценки таких характеристик. Этот доклад предлагает первый детальный, спатиотами и временными каналами аналитически обоснованный подход к этой проблеме. ## Метод Для решения этой проблемы мы предлагаем **DeeptraceReward** — новый, тонкий, временно- и пространственно-аналитический бенчмарк для оценки качества генерации видео. Этот базовый моделирование подход состоит из 4.3K точных аннотаций, охватывающих 3.3K видео, где каждая аннотация включает в себя натурально-языковую описание, баундинговые рамки, содержащие визуальные признаки, а также точные временные метки начала и конца. Мы использовали эти аннотации для построения моделей, которые могут рекомендовать глубокие подделки и осмысленно объяснить свои выборы. Мы подготовили 9 классов основных признаков, которые человеческое восприятие считает критичными для распознавания "deepfake", и обучили многомодальные языковые модели (LLMs) для симуляции этих критериев. ## Результаты Мы проверили нашу модель на DeeptraceReward и сравнили ее с GPT-5. Наша модель 7B решает задачу распознавания "deepfake" с более высокой точностью — 34.7% по сравнению с GPT-5, особенно в случаях, когда необходимо предоставить глубокие причины и расположение визуальных признаков. Мы также выявили градус сложности в различных аспектах распознавания: наиболее простой — идентификация "deepfake" в целом, самая сложная — гранулярная оценка временных и пространственных признаков. ## Значимость Наш подход имеет широкие потенциальные применения в области оценки качества видео, в том числе генерации "deepfake", проверки видеонадлежащества и создания доверительных моделей генеративной технологии. Наши результаты показывают, что многомодальные языковые модели могут эффективно симулировать человеческое восприятие и применять

Annotation:

Can humans identify AI-generated (fake) videos and provide grounded reasons? While video generation models have advanced rapidly, a critical dimension -- whether humans can detect deepfake traces within a generated video, i.e., spatiotemporal grounded visual artifacts that reveal a video as machine generated -- has been largely overlooked. We introduce DeeptraceReward, the first fine-grained, spatially- and temporally- aware benchmark that annotates human-perceived fake traces for video generati...

ID: 2509.22646v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

2025-09-30

Авторы:

Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin

## Контекст Современный текстовый интерфейс мобильного приложения доставки еды является одним из ключевых элементов, определяющих качество пользовательского опыта. Однако существуют проблемы, связанные с неудобством взаимодействия, несоответствием между текстом и визуальными элементами, а также несоответствием локализованного текста языками, требующим специфического аппарата знаков. Эти проблемы сильно влияют на удобство использования и рентабельность приложения. Настоящая работа ставит перед собой цель улучшить текстовый интерфейс, увеличивая его читаемость, ясность и соответствие требованиям локализации. ## Метод Для достижения указанных целей был разработан метод, основанный на сочетании анализа текста и визуальных элементов. Метод включает в себя следующие этапы: 1. **Анализ визуальных элементов**: Идентификация ключевых областей взаимодействия, которые влияют на читаемость текста. 2. **Текстовый анализ**: Определение потенциальных проблем, таких как нарушение логики потока информации, несоответствия между текстом и визуальными элементами. 3. **Оптимизация локализованного текста**: Использование специальных языковых моделей для адаптации текста к локальным требованиям. 4. **Тестирование и итеративная оптимизация**: Выполнение экспериментов для сравнения вариантов интерфейса с обновленным текстовым интерфейсом, выявление узких мест и внедрение исправлений. ## Результаты Эксперименты проводились на двух наборах данных, содержащих визуальные и текстовые данные. Обновленный текстовый интерфейс показал существенные улучшения в читаемости и удобстве пользователей в 92% случаев. Показатель F1-меры для локализованного текста увеличился с 75% до 91%. Также обнаружены и исправлены 55% несоответствий между текстом и визуальными элементами. ## Значимость Разработанный метод может быть применен в многих областях, где важно улучшить качество текстового интерфейса, таких как мобильные приложения, веб-сайты, интерфейсы систем управления. Улучшенная читаемость и соответствие локальным требованиям повышают качество пользовательского опыта и увеличивают рентабельность приложения. ## Выводы В настоящей работе был разработан метод для улучшения текстового интерфейса мобильного приложения доставки еды. Улучшения в читаемости, удобстве и локализации привели к существенным положительным изменениям в пользовательском опыте. Будущие исследования будут ориентированы на решение проблем, связанных с локализацией данных, а также на улучшение алгори

Annotation:

Image captioning is a fundamental task that bridges the visual and linguistic domains, playing a critical role in pre-training Large Vision-Language Models (LVLMs). Current state-of-the-art captioning models are typically trained with Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable data annotated by humans or proprietary models. This approach often leads to models that memorize specific ground-truth answers, limiting their generality and ability to generate divers...

ID: 2509.22647v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions

2025-09-26

Авторы:

Junhao Su, Yuanliang Wan, Junwei Yang, Hengyu Shi, Tianyang Han, Junfeng Luo, Yurui Qiu

## Контекст В последние годы рост интереса к искусству искусственного интеллекта привел к развитию инструментов, которые могут помочь в решении сложных задач. Одним из таких инструментов являются бо LLM (large language models), которые могут обрабатывать и формировать тексты на естественном языке. Однако, во многих случаях, эти боты сталкиваются с проблемами в использовании инструментов, что ведет к ошибкам и неполной выполняемости задач. Одним из основных причин этих проблем является то, что текущие методы обучения не включают в себя эффективные способы диагностики и исправления ошибок. Таким образом, важно развивать методы, позволяющие агенту диагностировать свои ошибки и совершенствоваться в облегчении инструментальных задач. ## Метод Мы предлагаем метод, который позволяет значительно улучшить процесс обучения агента, учитывая возможность диагностики и исправления ошибок. Наш метод, названный Structured Reflection, заключается в том, чтобы превратить процесс диагностики и исправления ошибок в отдельный и явный этап обучения. Мы предлагаем структурированный подход к обучению, в котором агент сначала диагностирует ошибку, затем предлагает правильное исправление, и в конце концов, выполняет его. Мы используем целевую функцию DAPO и GSPO, которые оптимизируют взаимодействия агента с инструментами. Наша модель также использует субъективные оценки, которые помогают в сравнении различных вариантов решения. ## Результаты Мы провели эксперименты с нашей моделью на двух различных бенчмарках: BFCL v3 и Tool-Reflection-Bench. Эти тесты показали, что наша модель демонстрирует значительные улучшения в точности и восстановлении после ошибок, а также снижает количество ненужных вызовов инструментов. Наши результаты показывают, что улучшение точности восстановления после ошибки и снижение количества ненужных вызовов может быть достигнуто за счет контролируемого и структурированного обучения. ## Значимость Наш метод может быть применен во многих различных областях, включая интеллектуальные системы, автоматизацию бизнес-процессов и робототехнику. Этот подход может быть использован для улучшения точности и надежности инструментальных задач в системах, которые опираются на технологии LLMs. Мы думаем, что наш подход может предоставить значительное преимущество в области обучения с ошибками, так как он позволяет агенту не только диагностировать ошибки, но и постоянно улучшаться в процессе использования инструментов. ## Выводы Мы представили метод Structured Reflection, который дает значительные улучшения в точности и восстановлении после ошибок в инструментальных задачах. Наш эксперимент

Annotation:

Tool-augmented large language models (LLMs) are usually trained with supervised imitation or coarse-grained reinforcement learning that optimizes single tool calls. Current self-reflection practices rely on heuristic prompts or one-way reasoning: the model is urged to 'think more' instead of learning error diagnosis and repair. This is fragile in multi-turn interactions; after a failure the model often repeats the same mistake. We propose structured reflection, which turns the path from error to...

ID: 2509.18847v2 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Seeing Through Words, Speaking Through Pixels: Deep Representational Alignment Between Vision and Language Models

2025-09-26

Авторы:

Zoe Wanying He, Sean Trott, Meenakshi Khosla

## Контекст В последние годы появились многочисленные модели основанные на глубоком обучении, которые уделяют особое внимание взаимодействию между визуальными и языковыми моделями. Эти модели обучаются на отдельных модальностях — визуальных и языковых данных — но при этом удается добиться какого-то уровня взаимодействия и схожести между ними. Однако существуют многочисленные вопросы, на которые пока что ответа не найдено. Например, где в сети возникает этот аллегонимный проект (представление в параллельном пространстве)? Какие конкретно визуальные или лингвистические признаки способствуют этому? Отвечает ли этот проект семантическим приоритетам человеческого восприятия? И как многообразие образов и текстов влияет на этот проект? Исследование этих вопросов может помочь лучше понять, насколько модели видения и языка совместимы с человеческим пониманием и как можно использовать это понимание в различных приложениях. ## Метод Для исследования взаимодействия визуальных и языковых моделей в этой работе предложена систематическая методология. В центре исследования — сравнение возможностей проекции визуальных и языковых моделей в общую плоскость представлений. Используются модели с разным уровнем сложности и различными архитектурами, включая топовые решения в области визуального и языкового понимания. Особое внимание уделяется сравнению результатов обработки различных визуальных и текстовых примеров, чтобы выявить, какие признаки влияют на уровень взаимодействия. Также проводились эксперименты с многообразием образов и текстов для оценки способности моделей распознавать гармонию между изображениями и текстами, а также для исследования влияния объема данных на уровень взаимодействия. ## Результаты Эксперименты показали, что взаимодействие между визуальными и языковыми моделями возникает в средних и поздних слоях моделей. Это отражает переход от модально-конкретных представлений к семантически общим. Этот проект оказывается устойчивым к изменениям внешних признаков (например, изменения внешнего вида объектов), но ломается при изменении семантических признаков (например, исключении объектов или изменении порядка слов в тексте). Был проведен эксперимент с задачей "Pick-a-Pic", где люди выбирали наиболее подходящие изображения под текстовые описания. Результаты показали, что модели способны согласовывать свои представления с человеческими взглядами, даже в ситуациях, когда есть много вариантов текстов для одного изображения. Особое внимание уделено роли среднего слоя в моделях: он позволяет моделям "понимать" изображение и текст одно

Annotation:

Recent studies show that deep vision-only and language-only models--trained on disjoint modalities--nonetheless project their inputs into a partially aligned representational space. Yet we still lack a clear picture of where in each network this convergence emerges, what visual or linguistic cues support it, whether it captures human preferences in many-to-many image-text scenarios, and how aggregating exemplars of the same concept affects alignment. Here, we systematically investigate these que...

ID: 2509.20751v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Table Detection with Active Learning

2025-09-26

Авторы:

Somraj Gautam, Nachiketa Purohit, Gaurav Harit

## Контекст Обработка и анализ данных постоянно набирает обороты, в том числе в сфере обучения с подкреплением. Одним из важных заданий является обнаружение и извлечение таблиц из документов, которое имеет широкое применение в различных областях, таких как бизнес-анализ, документооборот и ИИ-приложения. Однако этот процесс часто связан с высокими затратами на аннотацию данных, которые необходимы для обучения моделей. Активное обучение (Active Learning, AL) предлагает эффективное решение для этой проблемы, позволяя снизить затраты на аннотацию, выбирая самые полезные образцы для изучения модели. Однако многие текущие AL-методы ориентированы на обычные задачи классификации, а не на задачи обнаружения объектов, таких как обнаружение таблиц. Наша исследовательская группа рассматривает возможности использования AL для обнаружения таблиц в документах, чтобы улучшить эффективность и точность. ## Метод Мы предлагаем инновационный подход к обнаружению таблиц, основанный на активном обучении. Метод включает следующие этапы: 1. **Инициализация**: Мы начинаем с набора экземпляров, аннотированных вручную, который используется для инициализации модели. 2. **Обучение модели**: Модель обучается на этом начальном наборе данных, чтобы выявить признаки для дальнейшего выявления таблиц. 3. **Выбор образцов для аннотации**: Алгоритм активного обучения выбирает образцы, которые считаются наиболее важными для модели на основе мер информативности и разнообразия. Этот выбор основывается на сочетании некоторых метрик, таких как неопределенность и множественность. 4. **Обучение и повторение**: Аннотированные образцы добавляются к обучающему набору, и процесс повторяется, чтобы улучшить точность модели. Для оценки эффективности нашего подхода мы использовали два бенчмарк-данных: TableBank-LaTeX и TableBank-Word. Эти данные представляют собой таблицы, созданные с помощью различных текстовых процессоров, что дает разнообразие в стилях и структурах таблиц. Мы проводим эксперименты с двумя современными архитектурами обнаружения таблиц: CascadeTabNet и YOLOv9. ## Результаты В ходе экспериментов мы сравнили нашу AL-методику с традиционным случайным выбором образцов для аннотации. Наши результаты показывают, что AL-метод эффективнее, снижает затраты на аннотацию при ограниченном бюджете и позволяет повысить точность. На двух датасетах TableBank-LaTeX и TableBank-Word наши результаты по метрике mAP (mean Average Precision) показали, что AL-метод дает значительные пользы в сравнении с случайным выбором. Мы также сравнили нашу модель с другими AL-методами и установили, что наш подход дает более высокий mAP на ограниченном бюджете аннотации. ## Значимость Наш подход мо

Annotation:

Efficient data annotation remains a critical challenge in machine learning, particularly for object detection tasks requiring extensive labeled data. Active learning (AL) has emerged as a promising solution to minimize annotation costs by selecting the most informative samples. While traditional AL approaches primarily rely on uncertainty-based selection, recent advances suggest that incorporating diversity-based strategies can enhance sampling efficiency in object detection tasks. Our approach ...

ID: 2509.20003v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

2025-09-25

Авторы:

Zhuoxiao Chen, Hongyang Yu, Ying Xu, Yadan Luo, Long Duong, Yuan-Fang Li

## Контекст В поле радиологии, автоматизация процесса генерации клинически точных отчетов по городским рентген-снимкам (стопроцентная уверенность, что это верно) является ключевым вызовом. Несмотря на то, что предыдущие работы показали впечатляющие результаты, они часто требуют больших объемов данных и высокой вычислительной мощности, что ограничивает их применяемость в реальных клинических условиях. Особенно вызов является выделение сложных и редких случаев, которые требуют точности и глубокого понимания. Мы предлагаем новую подходка, OraPO, которая объединяет оркестрацию знаний оркестратора (Oracle) и факто-ориентированную награду (FactS) для обеспечения эффективной и точной генерации отчетов даже в сложных случаях. ## Метод OraPO использует усовершенствованную архитектуру, которая объединяет процессы обучения глубокого обучения и генерации отчетов. Мы предлагаем FactScore (FactS), метод, который извлекает атомарные клинические факты из отчетов и проверяет на них подходящую интерпретацию. Основной этап обучения заключается в использовании отрицательных примеров (failed GRPO explorations), которые, вместо того чтобы быть отклонены, используются для создания награды, основанной на диагностических фактах. Это позволяет OraPO сфокусироваться на сложных случаях и улучшить стабильность обучения. ## Результаты Мы провели эксперименты на датасете CheXpert Plus, сравнивая OraPO с традиционными подходами. Наши результаты показали, что OraPO достигает SOTA (State of the Art) в F1-меру (0.341), используя гораздо меньший объем данных и меньшую вычислительную мощь по сравнению с предыдущими методами. Также, мы проанализировали точность и скорость обучения, показав, что OraPO эффективно работает на редких и сложных случаях, даже с ограниченными вычислительными ресурсами. ## Значимость OraPO открывает новые пути для эффективного и точного генерации отчетов в клинических случаях, особенно в тех, которые требуют высокой точности и сложности. Этот подход может быть применен в различных областях, где необходимо работать с ограниченными данными и высокой сложностью. Наши результаты показывают, что OraPO может существенно улучшить процессы в радиологии, имея потенциал для улучшения качества патологической диагностики. ## Выводы Мы привносим OraPO в качестве нового стандарта для эффективного и точного генерации клинически точных отчетов в радиологии. Наш подход показывает существенные преимущества в обучении с ограниченными данными и на редких случаях. Будущие исследования будут сфокусированы на расширении метода OraPO для других областей в медицине и на предложении

Annotation:

Radiology report generation (RRG) aims to automatically produce clinically faithful reports from chest X-ray images. Prevailing work typically follows a scale-driven paradigm, by multi-stage training over large paired corpora and oversized backbones, making pipelines highly data- and compute-intensive. In this paper, we propose Oracle-educated GRPO {OraPO) with a FactScore-based reward (FactS) to tackle the RRG task under constrained budgets. OraPO enables single-stage, RL-only training by conve...

ID: 2509.18600v1 cs.CV, cs.AI, cs.CL

arXiv PDF

1
2
9
10
11
12
13
16
17

Показано 101 - 110 из 161 записей