📚 Саммари научных статей из arXiv

Найдено 14827 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Grasp-HGN: Grasping the Unexpected

2025-08-13

Авторы:

Mehrshad Zandigohar, Mallesham Dasari, Gunar Schirner

#### Контекст Роботизированные протезные руки представляют большой потенциал для восстановления возможности выполнять повседневные задачи у людей, страдающих трансрадиальными ампутациями. Однако проблемами, стоящими перед современными моделями управления, является недостаточная устойчивость к нестандартным реальностям и неограниченному разнообразию объектов. Традиционные системы определения захватов строятся на ограниченных данных, в том числе тренировочных базах, которые не могут полностью охватить реальность. Это приводит к значительному снижению точности при определении захватов на неизвестных объектах, что сказывается на доступности и качестве жизни пользователей. Для решения этого, необходимо развитие моделей, которые могут обнаруживать и адаптироваться к новым объектам, не входящим в обучающие наборы. #### Метод Мы предлагаем **Grasp-LLaVA**, модель, которая использует технологии графики и языка для точного определения захвата. Она включает в себя три основных компонента: (i) **semantic projection**, которая определяет моделью возможность обобщения на неизвестные объекты; (ii) **Grasp-LLaVA**, где используется гибридное рассуждение, которое моделирует человеческие модели рассуждения для определения типов захвата, основываясь на физических характеристиках объекта; (iii) **Hybrid Grasp Network (HGN)**, система, которая разделяет работу между локальным (edge) и облачным (cloud) вычислениями, обеспечивая быстродействие на реальном времени и точность при необходимости. #### Результаты Мы оценили нашу модель на нескольких датасетах, включая набор данных с неизвестными объектами. **Grasp-LLaVA** показала значительное улучшение в сравнении с современными моделями, достигнув 50.2% точности для неизвестных объектов, в то время как лучшие модели современных систем оставались на уровне 36.7%. Благодаря **HGN**, мы достигли значительных улучшений в быстродействии, достигнув 86% усредненной точности на реальных объектах, что является значительной улучшением по сравнению с отдельным использованием моделей или edge-only решений. Добавление **confidence calibration (DC)** позволило повысить точность до 42.3% при работе с неизвестными объектами и уменьшить время вывода на 3.5 раз. #### Значимость **Grasp-LLaVA** и **Hybrid Grasp Network (HGN)** открывают новые возможности для улучшения контроля над протезными руками. Они могут быть применены в различных областях, включая лечебную аппаратуру, технологии для людей с ограниченными физическими возможностями и в области робототехники. Интеграция этих моделей в протезы может существенно улучшить их реакцию на новые объекты, предоставив пользователям более простой доступ к действиям в реа

Annotation:

For transradial amputees, robotic prosthetic hands promise to regain the capability to perform daily living activities. To advance next-generation prosthetic hand control design, it is crucial to address current shortcomings in robustness to out of lab artifacts, and generalizability to new environments. Due to the fixed number of object to interact with in existing datasets, contrasted with the virtually infinite variety of objects encountered in the real world, current grasp models perform poo...

ID: 2508.07648v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Disentangling Multiplex Spatial-Temporal Transition Graph Representation Learning for Socially Enhanced POI Recommendation

2025-08-13

Авторы:

Jie Li, Haoye Dong, Zhengyang Wu, Zetao Zheng, Mingrong Lin

## Контекст Next Point-of-Interest (POI) recommendation является актуальной областью исследований в сфере бизнес-интеллекта. Пользовательские движения по пространству и времени, а также свойства их социальных связей, являются ключевыми факторами, определяющими поведение пользователей. Несмотря на развитие методов рекомендации, существующие подходы часто отдельно моделируют пространственные и временные переходы пользователей, что приводит к несоответствию представлений ключевых точек. Эта несогласованность приводит к добавочной информации при объединении этих представлений, ухудшая точность и увеличивая неопределенность моделей. Наша модель DiMuST (Disentangling Multiplex Spatial-Temporal Transition Graph Representation Learning) предлагает решение этих проблем, создав модель, которая эффективно объединяет пространственные и временные параметры с социальными факторами. ## Метод Методология DiMuST основывается на дисентролированном представлении мультиплексных пространственно-временных графов. Мы предлагаем Disentangled variational multiplex graph Auto-Encoder (DAE), который разделяет общие и частные дистрибутивы с помощью многоуровневой стратегии графов. Основное отличие заключается в использовании Product of Experts (PoE) для объединения общих функций и внедрении частных данных с помощью контрастивного ограничения. Это позволяет отделить значимые свойства пользовательских переходов и повысить их взаимосвязь. Такая архитектура обеспечивает точное представление переходов пользователей по POI, захватывая спатспово-временные взаимосвязи и социальные связи. ## Результаты Для проверки эффективности DiMuST проведены эксперименты на двух сложных датасетах. Мы сравнили модель с несколькими современными подходами, включая BERT4Rec, GC-MC и LightGCN. Результаты показали, что DiMuST превосходит другие модели по всем основным метрикам, таким как Recall@20, NDCG@20 и HitRate@20. Эти показатели указывают на устойчивость модели и ее высокую точность в рекомендации POI. Также мы проанализировали вклад каждого компонента модели, чтобы подтвердить эффективность каждой части. ## Значимость Дисентрольное представление переходов пользователей и их социальных связей в DiMuST демонстрирует существенную полезность в различных сценариях, включая социально ориентированные рекомендации, мобильные сервисы и бизнес-аналитику. Наш подход не только улучшает аккуратность рекомендаций, но и повышает их осмысленность, что может повысить удовлетворенность пользователей. Мы направляемся на дальнейшее расширение DiMuST, включая слияние дополнительных разнородных данных и расширение модели для других типов рекомендаций. ## Выводы Мы представили DiMuST, модель, которая разделяет пространственные и временные параметры

Annotation:

Next Point-of-Interest (POI) recommendation is a research hotspot in business intelligence, where users' spatial-temporal transitions and social relationships play key roles. However, most existing works model spatial and temporal transitions separately, leading to misaligned representations of the same spatial-temporal key nodes. This misalignment introduces redundant information during fusion, increasing model uncertainty and reducing interpretability. To address this issue, we propose DiMuST,...

ID: 2508.07649v1 cs.AI, cs.LG

arXiv PDF

📄 Discovering Spatial Correlations between Earth Observations in Global Atmospheric State Estimation by using Adaptive Graph Structure Learning

2025-08-13

Авторы:

Hyeon-Ju Jeon, Jeon-Ho Kang, In-Hyuk Kwon, O-Joun Lee

## Контекст В настоящее время глобальное окружение становится все более уязвимым под влияние изменения климата, что делает прогнозирование атмосферных состояний на крайне важной. Наиболее распространенным методом прогнозирования атмосферных состояний является система нумерованных ячеек (NWP), которая предсказывает атмосферные состояния в определенных точках (NWP-точках) на основе исторической атмосферной информации и новых наблюдений. Однако наблюдения часто совершаются в различных местах, что ставит перед системами прогнозирования задачу выявления сложных пространственных корреляций. То, что многие NWP-системы не учитывают эти корреляции, приводит к потерям в точности. Более того, многие нынешние методы недействительны в условиях высокой атмосферной гетерогенности. Данное исследование направлено на разработку методологии, которая может учитывать пространственные корреляции в глобальных прогнозах атмосферных состояний, даже в сложных условиях. ## Метод Мы предлагаем метод, основанный на spatiotemporal graph neural networks (STGNN), который регулирует процесс обучения структуры графа с помощью адаптивного определения степени связности узлов и учета пространственных расстояний между точками NWP и наблюдениями. Это позволяет уменьшить проблему гиперсвязности, затрагивающую многие существующие STGNN-модели. Метод использует реальные данные из Базы данных Global Telecommunication System (GTS), чтобы изучать пространственные корреляции в атмосферных состояниях. Для того, чтобы обеспечить эффективную логику определения структуры, мы регулируем степень связности узлов, чтобы избежать ошибок связности и потери структурной информации, что особенно важно для точного прогнозирования. ## Результаты Мы проверили модель на наборе данных, включающих данные о атмосферных состояниях и наблюдениях в Восточной Азии. Результаты показали, что наш метод изменяет структуру графа в зависимости от времени и пространства, повышая точность прогнозирования в сравнении с существующими моделями STGNN, как с structure learning, так и без него. Мы также обнаружили, что наша модель показывает высокую точность в областях с высокой атмосферной гетерогенностью, что доказывает ее наиболее высокую эффективность в сложных условиях. ## Значимость Метод, который мы предлагаем, может быть применен в различных областях, таких как глобальное мониторинг атмосферных состояний, прогнозирование погоды и обработка данных с подвижными наблюдателями. Одним из основных преимуществ является улучшение точности прогноза, которое может предоставить полезные рекомендации для управления ресурсами и планирования в сельском хозя

Annotation:

This study aims to discover spatial correlations between Earth observations and atmospheric states to improve the forecasting accuracy of global atmospheric state estimation, which are usually conducted using conventional numerical weather prediction (NWP) systems and is the beginning of weather forecasting. NWP systems predict future atmospheric states at fixed locations, which are called NWP grid points, by analyzing previous atmospheric states and newly acquired Earth observations without fix...

ID: 2508.07659v1 cs.LG, cs.AI

arXiv PDF

📄 GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

2025-08-13

Авторы:

Ihor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko

#### Контекст Классификация является одной из самых распространенных задач в искусственном интеллекте, используемой для фильтрации, сортировки и категоризации данных. В современных AI-системах, обрабатывающих огромные объемы входных данных, ключевым требованием является высокая точность и эффективность. Это становится особенно важной для раннего этапа ввода, где ошибки могут повлиять на всю последующую обработку. Динамические изменения потребностей пользователей подчеркивают необходимость моделей с сильными zero-shot и few-shot способностями. Хотя генеративные модели типа LLMs стали стандартом для zero-shot классификации благодаря их гибкости, они страдают от непоследовательного поведения и высокой вычислительной сложности. Cross-encoders, широко используемые в RAG-решениях, страдают от высокой сложности обработки больших наборов меток. Эмбеддинг-базисные способы эффективны, но в трудных сценариях с логическими и семантическими ограничениями часто ограничиваются. Мы предлагаем GLiClass — метод, основанный на GLiNER, который адаптирован для последовательной классификации. Он обеспечивает высокую точность и эффективность, не per-token-based, что позволяет ему сочетать гибкость zero-shot с эффективностью. #### Метод GLiClass основывается на GLiNER (Global-Local Interaction-based NER), архитектуре, которая использует маркированные токены для глобальной интеракции и локальных линейных моделей для семантического сжатия. Для классификации последовательностей мы преобразуем задачу в серию NER-подобных подзадач, используя маркированные токены для всех классов в тренировочных данных. Это позволяет модели воспринимать все вероятности классов в каждом токене как новый мета-класс. Мы также внедрили PPO для обучения моделей с помощью human-in-the-loop, что улучшает качество в случае недостатка данных. Таким образом, GLiClass выполняет сравнение между текстом и мета-классами в целом, что позволяет получать устойчивые и точные результаты в разных условиях. #### Результаты Мы провели эксперименты на нескольких популярных датасетах (AGNews, DBPedia) и сравнили GLiClass с LSTM, Transformer, cross-encoders и embedding-based моделями. Говоря об эффективности, GLiClass показал почти одинаковую точность с моделями типа embedding-based, но с значительно более высокой скоростью. Он также демонстрирует сильные результаты при few-shot обучении, превосходя другие архитектуры в сценариях с недостатком данных. Более того, PPO-обучение демонстрирует его устойчивость в сценариях с необходимостью обучения на основе корпоративного опыта или руководства пользователя. #### Значимость GLiClass может использоваться в широком кругу приложений, включая рекомендательные систем

Annotation:

Classification is one of the most widespread tasks in AI applications, serving often as the first step in filtering, sorting, and categorizing data. Since modern AI systems must handle large volumes of input data and early pipeline stages can propagate errors downstream, achieving high efficiency and accuracy is critical. Moreover, classification requirements can change dynamically based on user needs, necessitating models with strong zero-shot capabilities. While generative LLMs have become mai...

ID: 2508.07662v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 1-2-3 Check: Enhancing Contextual Privacy in LLM via Multi-Agent Reasoning

2025-08-13

Авторы:

Wenkai Li, Liwen Sun, Zhenxiang Guan, Xuhui Zhou, Maarten Sap

## Контекст В последние годы широко распространяются технологии на базе бо LLM (large language models), которые обеспечивают возможность удобного интерактивного общения с компьютером. Однако взаимодействие с LLMs может порождать загвоздки в обеспечении контекстуальной приватности, особенно в ситуациях, когда необходимо обрабатывать информацию, содержащую определенные частные подробности. Например, во время учебных или рабочих мероприятий могут возникать ситуации, когда необходимо отделять частные сведения от общедоступной информации. Эти проблемы приводят к потенциальным рискам, если LLMs неправильно интерпретируют данные, что может привести к утечке конфиденциальной информации. Улучшение методов обработки контекстуальной приватности в LLMs является ключевой целью, чтобы обеспечить безопасность и конфиденциальность пользователей. ## Метод Мы предлагаем многоагентную систему, которая декомпозирует задачу обеспечения контекстуальной приватности на отдельные подзадачи. Эти подзадачи включают в себя выделение конкретных фрагментов информации, их классификацию, а также их оценку с точки зрения контекстуальной приватности. Система построена таким образом, что каждый агент отвечает за свою специфическую подзадачу, что позволяет снизить нагрузку на каждый отдельный агент и улучшить общую производительность. Использование многоагентного подхода также позволяет проводить итеративную валидацию решений, что увеличивает надежность системы. Модель тестировалась на различных данных, включая конфиденциальные и публичные тексты, чтобы изучить, как различные типы информации влияют на контекстуальную приватность. ## Результаты Мы провели эксперименты с несколькими моделями LLMs, включая GPT-4o, и сравнили их с базовыми моделями, работающими на одном агенте. Результаты показали, что наша модель снимает примерно \textbf{18%} утечек конфиденциальной информации на наборе данных ConfAIde и \textbf{19%} на PrivacyLens. Эти результаты свидетельствуют о том, что наш подход существенно улучшает приватность, не ухудшая точность удержания общедоступной информации. Мы также провели анализ потока информации, чтобы понять, какие типы ошибок происходят в различных этапах обработки и как они могут повлиять друг на друга. Эти знания помогли нам оптимизировать систему и сделать ее более надежной в отношении контекстуальной приватности. ## Значимость Полученные результаты открывают новые возможности для применения LLMs в различных областях, где необходимо обеспечение контекстуальной приватности. Например, они могут быть использованы в системах управления конфиденциа

Annotation:

Addressing contextual privacy concerns remains challenging in interactive settings where large language models (LLMs) process information from multiple sources (e.g., summarizing meetings with private and public information). We introduce a multi-agent framework that decomposes privacy reasoning into specialized subtasks (extraction, classification), reducing the information load on any single agent while enabling iterative validation and more reliable adherence to contextual privacy norms. To u...

ID: 2508.07667v1 cs.AI

arXiv PDF

📄 AIS-LLM: A Unified Framework for Maritime Trajectory Prediction, Anomaly Detection, and Collision Risk Assessment with Explainable Forecasting

2025-08-13

Авторы:

Hyobin Park, Jinwook Jung, Minseok Seo, Hyunsoo Choi, Deukjae Cho, Sekil Park, Dong-Geol Choi

## Контекст Морской трафик играет ключевую роль в мировой экономике, однако с ростом числа судов на Мировом океане возрастают риски негативных последствий, таких как столкновения, аварии и непредвиденные ситуации. Для эффективного управления такими ситуациями необходима система, которая могла бы предсказывать движение судов, обнаруживать аномалии и оценивать риск столкновений. Такие задачи, как предвидение маршрута судов, обнаружение аномалий и оценка риска столкновений, широко исследовались в отдельности. Однако существующие подходы не всегда могут учитывать интегрированный подход для разрешения сложных морских ситуаций. Мы предлагаем систему AIS-LLM, которая объединяет в себе методы запроса текстовых моделей (LLM) с потоковыми данными Автоматической Идентификационной Системы (AIS), чтобы решить эти задачи в рамках одного интегрированного фреймворка. ## Метод AIS-LLM представляет собой интегрированный фреймворк, который объединяет потоковые данные AIS с технологией текстовых моделей. Основными компонентами этой системы являются Time-Series Encoder, который обрабатывает потоковые данные AIS, LLM-based Prompt Encoder, который используется для получения текстовых подсказок, Cross-Modality Alignment Module, который выполняет семантическое выравнивание между временными рядами и текстовыми подсказками, и LLM-based Multi-Task Decoder, отвечающий за решение трех задач: предсказание маршрута, обнаружение аномалий и оценку риска столкновений в рамках одной модели. Все это обеспечивает эффективное решение всех трех задач в рамках одной модели, которая может быть использована для комплексной оценки морского положения. ## Результаты Мы проверили эффективность AIS-LLM на наборе данных, содержащих потоковые данные AIS, и сравнили результаты с другими существующими методами. Наши эксперименты показали, что AIS-LLM демонстрирует значительное превосходство во всех трех задачах: предсказании маршрута, обнаружении аномалий и оценке риска столкновений. Эти результаты доказывают, что интеграция LLM с потоковыми данными AIS позволяет решать эти задачи более эффективно, чем существующие подходы. ## Значимость AIS-LLM может быть применено в различных сценариях, таких как управление морским трафиком, мониторинг морских ситуаций и планирование маршрутов. Одним из основных преимуществ этой модели является возможность обеспечить комплексное обслуживание всех трех задач в рамках одной модели, что позволяет экономить ресурсы и улучшить точность. Будущие исследования будут направлены на улучшение точности предсказания, а также на расширение возможностей модели для работы с более сло

Annotation:

With the increase in maritime traffic and the mandatory implementation of the Automatic Identification System (AIS), the importance and diversity of maritime traffic analysis tasks based on AIS data, such as vessel trajectory prediction, anomaly detection, and collision risk assessment, is rapidly growing. However, existing approaches tend to address these tasks individually, making it difficult to holistically consider complex maritime situations. To address this limitation, we propose a novel ...

ID: 2508.07668v1 cs.LG, cs.AI

arXiv PDF

📄 EMPATHIA: Multi-Faceted Human-AI Collaboration for Refugee Integration

2025-08-13

Авторы:

Mohamed Rayan Barhdadi, Mehmet Tuncel, Erchin Serpedin, Hasan Kurban

## Контекст Интеграция беженцев является не только технической, но и эмоционально-цивилизационной проблемой, необходимой для сохранения человеческой дигины и успешного взаимодействия в межкультурной среде. Существуют технологии, которые оптимизируют широкие аспекты интеграции, такие как трудоустройство, но не учитывают культурные, эмоциональные и этические факторы, которые важны для долгосрочного благополучия относительно иммигрантов. Эти недостатки могут привести к противоречивости и неэффективности решений. Наша мотивация заключается в разработке метода, который учитывает не только технологические аспекты но и концептуальные факторы, чтобы сделать процесс интеграции более совершенным и универсальным. ## Метод Мы предлагаем EMPATHIA (Enriched Multimodal Pathways for Agentic Thinking in Humanitarian Immigrant Assistance), разработанный как многоагентный фреймворк с тремя модулями: SEED (Socio-cultural Entry and Embedding Decision) для начального размещения, RISE (Rapid Integration and Self-sufficiency Engine) для быстрого достижения независимости и THRIVE (Transcultural Harmony and Resilience through Integrated Values and Engagement) для долгосрочного успеха. SEED основывается на архитектуре "селектор-валидатор", в которой сотрудничают три специализированных агента: эмоциональный, культурный и этический. Эти агенты работают транспарентно, чтобы создать совместимость между ценностями и интересами всех участников. Метод реализован на данных UN Kakuma (15,026 индивидуумов, 7,960 человек старше 15 лет) и далее протестирован на 6,359 беженцев, которые являются подростками и взрослыми с 15+ лет и 150+ статистическими переменными. ## Результаты Проведенные эксперименты показали, что EMPATHIA достигает 87.4% конвергенции в процессе валидации. Этот показатель подтверждает точность и надежность решений, предоставляемых фреймворком. Наши рекомендации демонстрируют высокую степень прозрачности и понятности, что обеспечивает удобство принятия решений для практиков. Эти результаты были проверены в 150+ экономических переменных в различных странах-хозяевах. Это позволило установить баланс между различными ценностями, достигнуть точности в рекомендациях и обеспечить эффективную работу с социальными и профессиональными сетями. ## Значимость EMPATHIA может применяться в различных областях, где требуется учет множества ценностных систем в процессе принятия решений. Например, это могут быть области, где потребуется сохранение человеческой дигины в процессе поиска работы или размещения, в области социальной и экономической поддержки. Основные преимущества EMPATHIA заключаются в том, что он не заменяет человеческую экспертизу, а улучшает ее, добавляя новые перспективы и достигая более точных

Annotation:

Current AI approaches to refugee integration optimize narrow objectives such as employment and fail to capture the cultural, emotional, and ethical dimensions critical for long-term success. We introduce EMPATHIA (Enriched Multimodal Pathways for Agentic Thinking in Humanitarian Immigrant Assistance), a multi-agent framework addressing the central Creative AI question: how do we preserve human dignity when machines participate in life-altering decisions? Grounded in Kegan's Constructive Developm...

ID: 2508.07671v1 cs.AI, cs.CY, cs.HC, cs.MA, stat.AP, 68T07, 68T42, 68T50, 91F20, 62P25, I.2.11; I.2.1; H.1.2; J.4; K.4.2

arXiv PDF

📄 Ethics2vec: aligning automatic agents and human preferences

2025-08-13

Авторы:

Gianluca Bontempi

## Контекст Современные интеллектуальные агенты, предназначенные для улучшения человеческого опыта и оптимизации процессов, часто сталкиваются с проблемой выравнивания своих ценностей с теми, которые характерны для людей. Этот вопрос, известный как проблема выравнивания (alignment), является одной из самых сложных задач в развитии искусственного интеллекта. Она решается необходимостью создания систем, которые будут соответствовать человеческим ценностям, целям и предпочтениям. Дополнительная сложность заключается в том, что многие человеческие этические ценности являются "немеряными" (incommensurable), то есть нельзя измерить или сравнить напрямую. Например, будучи медицинским агентом, как можно взвесить значение человеческой жизни и стоимость лечения? Этот мотив привел к созданию Ethics2Vec, который предлагает метод представления этических ценностей в виде векторных пространств, позволяющих выравнивать агентские решения с человеческими приоритетами. ## Метод Ethics2Vec расширяет подход Anything2vec, успешно применяемый в таких областях, как естественно-языковые процессы и рекомендационные системы. Он предлагает преобразовать агентскую стратегию принятия решений в многомерный вектор. Этот вектор можно использовать для сравнения и оценки выравнивания с человеческими ценностями. В первую очередь, метод был применен к агентам, принимающим бинарные решения. Далее, была рассмотрена векторизация автоматического контрольного закона, например, в системах автономного вождения. Это позволяет расширить Ethics2Vec на более сложные ситуации, где решения зависят от многих переменных. ## Результаты Для проверки концепции были проведены эксперименты с бинарными решениями, в которых Ethics2Vec позволил выявить мотивы и приоритеты, проявляемые агентом. Для комплексных решений, таких как автоматический контроль, было продемонстрировано, как векторное представление может отражать ценности, которые следует учитывать при принятии решений в условиях неопределенности и ситуативных зависимостей. Научные результаты показали, что Ethics2Vec может выступать как инструмент для сравнения различных систем этических решений, а также для оценки того, насколько хорошо агент выравнивает свои решения с человеческими предпочтениями. ## Значимость Ethics2Vec может быть применен в различных областях, в том числе в медицине, в сфере автоматизированных систем и даже в системах рекомендаций. Его основное преимущество заключается в том, что он предоставляет метрику для оценки ценностных приоритетов, которая может быть использована для выявления проблем в выравнивании и для улучшения решений. Потенциально, это может привести к более мотивированно

Annotation:

Though intelligent agents are supposed to improve human experience (or make it more efficient), it is hard from a human perspective to grasp the ethical values which are explicitly or implicitly embedded in an agent behaviour. This is the well-known problem of alignment, which refers to the challenge of designing AI systems that align with human values, goals and preferences. This problem is particularly challenging since most human ethical considerations refer to \emph{incommensurable} (i.e. no...

ID: 2508.07673v1 cs.AI, cs.LG

arXiv PDF

📄 MORE-CLEAR: Multimodal Offline Reinforcement learning for Clinical notes Leveraged Enhanced State Representation

2025-08-13

Авторы:

Yooseok Lim, ByoungJun Jeon, Seong-A Park, Jisoo Lee, Sae Won Choi, Chang Wook Jeong, Ho-Geol Ryu, Hongyeol Lee, Hyun-Lim Yang

## Контекст Sepsis, жизненноопасная воспалительная реакция на инфекцию, может привести к осложнениям и органовому недостатку, что делает критически важной проработку эффективных стратегий ее детектирования и лечения. Основные проблемы в этой области заключаются в затруднениях с получением полной картины пациентского состояния, в ограниченности существующих методов в том, что они опираются лишь на структурированные данные, такие как лабораторные исследования и клинические показатели. Более того, недостаточное использование неструктурированных клинических заметок, которые могут содержать важные сведения о состоянии пациента, является одной из основных узких мест. Это способствует появлению моделей, не в состоянии эффективно рассмотреть контекст в составе своих решений. Наша мотивация заключается в разработке подхода, который бы включил всестороннюю информацию из клинических заметок, улучшил представление статуса пациента и способствовал более точному диагностированию и лечению сепсиса. ## Метод Для решения данных проблем мы предлагаем MORE-CLEAR (Multimodal Offline Reinforcement learning for Clinical notes Leveraged Enhanced State Representation), многомодальный подход к офлайн-реинфорсменту с использованием крупномасштабных языковых моделей (LLMs). Эта модель обращается к неструктурированным клиническим заметкам, используя предварительно обученные модели языкового моделирования для извлечения разнородных клинических признаков. Архитектура MORE-CLEAR включает в себя гибкий механизм управления весами, основанный на gated fusion и cross-modal attention, которые позволяют эффективно объединять информацию из различных модальностей в зависимости от временных характеристик. Это позволяет улучшить представление состояния пациента, которое, в свою очередь, способствует более точному определению возможных действий. ## Результаты Мы провели тщательные эксперименты, используя данные из двух открытых (MIMIC-III и MIMIC-IV) и одного частного наборов данных. Результаты показали, что MORE-CLEAR сокращает ошибки оценки временных рядов и улучшает показатели политики управления сепсисом в сравнении с моделями, основанными только на структурированных данных. Например, оценка ожидаемого времени ожидания в МИМИК-III показала значительное увеличение выживаемости, что говорит о том, что MORE-CLEAR действительно улучшает понимание состояния пациента и позволяет сделать более точные рекомендации. ## Значимость MORE-CLEAR открывает новые горизонты в области офлайн-реинфорсментного управления клиническими процессами. Он может быть применен не только к сепсису, но и к другим жизненно опасным ситуациям в медицинской практике. Из-за своей

Annotation:

Sepsis, a life-threatening inflammatory response to infection, causes organ dysfunction, making early detection and optimal management critical. Previous reinforcement learning (RL) approaches to sepsis management rely primarily on structured data, such as lab results or vital signs, and on a dearth of a comprehensive understanding of the patient's condition. In this work, we propose a Multimodal Offline REinforcement learning for Clinical notes Leveraged Enhanced stAte Representation (MORE-CLEA...

ID: 2508.07681v1 cs.LG, cs.AI

arXiv PDF

📄 TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding

2025-08-13

Авторы:

Chaohong Guo, Xun Mo, Yongwei Nie, Xuemiao Xu, Chao Xu, Fei Yu, Chengjiang Long

## Контекст Temporal Video Grounding (TVG) — это критическая задача в области понимания длительных видео, которая предполагает точное определение видео-сегментов, соответствующих натуральным языковым запросам. Несмотря на то, что существующие подходы, основанные на различных моделях, показывают достижения в этой области, они либо не достаточно эффективны, либо не обеспечивают достаточную точность результатов. Это вызвано тем, что причинительные модели часто пропускают важные этапы рассуждений, что приводит к неточностям в темпоральных предсказаниях. Мотивация для данного исследования заключается в развитии более точной модели TVG, которая бы оптимально решала эту проблему. ## Метод Для решения этой проблемы мы предлагаем фреймворк TAR-TVG (Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding). Методология состоит в введении timestamp anchors (тайм-стамп-заместителей) в процесс рассуждений, чтобы обеспечить дополнительный механизм контроля качества. Эти заместители функционируют как интермедиарии в процессе вывода, принуждая модель выполнять последовательные шаги рассуждений, которые приводят к все более точным темпоральным оценкам. Для повышения эффективности, мы предлагаем трехэтапную стратегию обучения: начальное генеративно-распространяющее обучение (GRPO) для создания высококачественных трасс рассуждений, супервизированное оптимизационное тренирование (SFT) на сгенерированных данных, и, наконец, дополнительное генеративно-распространяющее обучение на улучшенной модели. ## Результаты В ходе экспериментов мы проверили TAR-TVG на различных датасетах, таких как ActivityNet Captions и Charades-STA. Наши результаты показывают, что TAR-TVG не только превышает текущие лидеры по точности результатов, но и обеспечивает интерпретируемые, выверяемые логические цепочки рассуждений. Мы также провели анализ того, как различные компоненты фреймворка влияют на качество результатов, включая вклад каждого из этапов обучения. ## Значимость Заключается в том, что TAR-TVG может быть применено в различных сценариях, включая автоматический текстовый описательный анализ видео, мониторинг видео-трансляций, и поиск информации в видео. Этот подход не только улучшает точность, но и обеспечивает прозрачность и возможность верификации работы модели, что является критическим для применения в реальных ситуациях. ## Выводы Мы предложили новую модель TVG, которая включает timestamp anchors в процесс рассуждений. Это позволяет повысить точность и обеспечить возможность проверки работы модели. Таким образом, TAR-TVG обеспечивает новый шаг в развитии методологий для точного темпорального видео-разминки. В дальнейшем мы планируем расширить мо

Annotation:

Temporal Video Grounding (TVG) aims to precisely localize video segments corresponding to natural language queries, which is a critical capability for long-form video understanding. Although existing reinforcement learning approaches encourage models to generate reasoning chains before predictions, they fail to explicitly constrain the reasoning process to ensure the quality of the final temporal predictions. To address this limitation, we propose Timestamp Anchor-constrained Reasoning for Tempo...

ID: 2508.07683v1 cs.CV, cs.AI

arXiv PDF

1
2
1406
1407
1408
1409
1410
1482
1483

Показано 14071 - 14080 из 14827 записей