📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two comple...
ID: 2512.01822v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA
Авторы:

Yuzhi Chen, Yuanchang Xie, Lei Zhao, Pan Liu, Yajie Zou, Chen Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Multimodal trajectory prediction generates multiple plausible future trajectories to address vehicle motion uncertainty from intention ambiguity and execution variability. However, HD map-dependent models suffer from costly data acquisition, delayed updates, and vulnerability to corrupted inputs, causing prediction failures. Map-free approaches lack global context, with pairwise attention over-amplifying straight patterns while suppressing transitional patterns, resulting in motion-intention mis...
ID: 2511.18874v1 cs.AI, cs.CV, cs.LG, cs.MA, cs.RO, cs.SI
Авторы:

Jizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Despite their remarkable capabilities, Large Language Models (LLMs) struggle to effectively leverage historical interaction information in dynamic and complex environments. Memory systems enable LLMs to move beyond stateless interactions by introducing persistent information storage, retrieval, and utilization mechanisms. However, existing memory systems often introduce substantial time and computational overhead. To this end, we introduce a new memory system called LightMem, which strikes a bal...
ID: 2510.18866v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA
Авторы:

Maral Doctorarastoo, Katherine A. Flanigan, Mario Bergés, Christopher McComb

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The capacity to predict human spatial preferences within built environments is instrumental for developing Cyber-Physical-Social Infrastructure Systems (CPSIS). A significant challenge in this domain is the generalizability of preference models, particularly their efficacy in predicting preferences within environmental configurations not encountered during training. While deep learning models have shown promise in learning complex spatial and contextual dependencies, it remains unclear which neu...
ID: 2510.10954v1 cs.CE, cs.CV, cs.LG, cs.MA
Авторы:

Xiuyuan Chen, Jian Zhao, Yuchen Yuan, Tianle Zhang, Huilin Zhou, Zheng Zhu, Ping Hu, Linghe Kong, Chi Zhang, Weiran Huang, Xuelong Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Existing safety evaluation methods for large language models (LLMs) suffer from inherent limitations, including evaluator bias and detection failures arising from model homogeneity, which collectively undermine the robustness of risk evaluation processes. This paper seeks to re-examine the risk evaluation paradigm by introducing a theoretical framework that reconstructs the underlying risk concept space. Specifically, we decompose the latent risk concept space into three mutually exclusive subsp...
ID: 2509.25271v1 cs.AI, cs.CV, cs.LG, cs.MA
Авторы:

Haichao Zhang, Yi Xu, Yun Fu

## Контекст Трактории (trajectories) — это ключевое понятие в области компьютерного зрения и автономных систем. Они играют важную роль в таких приложениях, как автономное вождение, робототехника, наблюдение за объектами и виртуальная реальность. Однако многие существующие методы для прогнозирования траекторий основываются на полных и безупречных данных об объектах. Это приводит к серьезным проблемам при работе с неполными и шумными сигналами, которые могут возникнуть в результате ограниченного поля зрения камер, препятствий и отсутствия точных данных для оценки траекторий. Эти проблемы снижают точность и надежность прогнозов в реальных условиях. В этой работе призвано рассмотреть эти проблемы, расширив понятие Out-of-Sight Trajectory (OST) — задачу, которая предсказывает шумозависимые траектории вне поля зрения объектов, используя шумные данные из сенсоров. ## Метод **Out-of-Sight Trajectory Prediction (OOSTraj)** — это расширенная модель, которая использует многослойную архитектуру, включающую Vision-Positioning Denoising Module (VPDM). Этот модуль использует калибровочные данные камеры для установления масштабированного визуального-позиционного проекционного отображения. Он эффективно де noise-ит шумные данные сенсоров независимо от того, используется ли полный текст данных или только часть. Данная модель также включает адаптированные алгоритмы, которые могут работать в режиме реального времени, даже при ограниченной наличием данных. Этот подход позволяет улучшить прогнозирование траекторий в трудных условиях, таких как препятствия, помехи и неполные данные. ## Результаты Для оценки эффективности модели OOSTraj проведены эксперименты на двух датасетах: Vi-Fi и JRDB. Модель была сравнена с другими методами, такими как Kalman Filter и другие модели траекторий. Результаты показали, что OOSTraj дает значительно более точные прогнозы траекторий в сравнении с другими моделями. Были проведены эксперименты, показавшие, что OOSTraj лучше справляется с шумными данными, а также обеспечивает более точные прогнозы в ситуациях, когда объекты находятся вне области видимости камеры. Эти результаты подкрепляются графиками, сравнивающими производительность модели с другими подходами. ## Значимость Модель OOSTraj имеет широкие возможности применения в таких областях, как автономное вождение, робототехника, наблюдение и виртуальная реальность. Она обеспечивает более достоверное и точное прогнозирование траекторий, даже в условиях с шумом и неполной информацией. Это может существенно повысить надежность автономных систем и улучшить безопасность в таких приложениях. Данный подход также мож
Annotation:
Trajectory prediction is a critical task in computer vision and autonomous systems, playing a key role in autonomous driving, robotics, surveillance, and virtual reality. Existing methods often rely on complete and noise-free observational data, overlooking the challenges associated with out-of-sight objects and the inherent noise in sensor data caused by limited camera coverage, obstructions, and the absence of ground truth for denoised trajectories. These limitations pose safety risks and hind...
ID: 2509.15219v1 cs.CV, cs.LG, cs.MA, cs.MM, cs.RO, 68T45, 68U10, 68T07, 68T40, 93C85, 93E11, 62M20, 62M10, 68U05, 94A12, F.2.2; I.2.9; I.2.10; I.4.1; I.4.8; I.4.9; I.5.4; I.3.7
Авторы:

Xiangxiang Wang, Xuanyu Wang, YiJia Luo, Yongbin Yu, Manping Fan, Jingtao Zhang, Liyong Ren

## Контекст В последние годы становится все важнее развивать технологии, которые могут помогать людям с ограниченными возможностями. Одним из таких направлений является создание систем, которые могут помогать людям с ограниченным зрением. Эти системы должны обеспечивать реальной помощи в решении каждыйдневных задач, таких как распознавание объектов, чтение текста и навигация в окружающем пространстве. Однако существуют серьезные технические и экономические вызовы, связанные с созданием таких систем, в частности, высокими требованиями к памяти и вычислительным ресурсам. Этот уникальный контекст побудил авторов разработать новую модель, которая не только эффективна с точки зрения памяти, но и может обеспечивать реальное временное помощью людям с ограниченным зрением. ## Метод Так называемая **Scene-Aware Vectorized Memory Multi-Agent Framework** является объединением нескольких инновационных технологий. Во-первых, она включает в себя **cross-modal differentiated quantization framework**, который способен эффективно уменьшить объем памяти, необходимого для хранения модели, без ущерба к ее качеству. Во-вторых, архитектура **scene-aware vectorized memory** позволяет многоагентной системе классифицировать сцены, хранить векторные представления в памяти и взаимодействовать многомодально. Эта система включает в себя рабочий процесс связанных с **perception-memory-reasoning**, который позволяет модели не только производить анализ окружающей среды в реальном времени, но и использовать исторические данные для супервазии и расширения видимого пространства. ## Результаты В ходе экспериментов был продемонстрирован то, что модель с поддержкой **quantization**, уменьшившихся до 16GB, по-прежнему сохраняет высокую точность работы. На примере MMBench, модель с 19 миллиардами параметров демонстрирует лишь небольшой ущерб в производительности (2.05%), сохраняя высокий уровень точности на задаче OCR-VQA (63.7%, в сравнении с 64.9% для более больших моделей). Благодаря применению многоагентной системы, модель обеспечивает быстрый ответ (от 2.83 до 3.52 секунд) для сцены, при этом выполняя процесс свертки в реальном времени. Это означает, что модель не только эффективна, но и может обеспечить реальное временное потребность в ряде приложений для помощи людям с ограниченным зрением. ## Значимость Система может применяться в различных сценариях, включая помощь в ориентировании по окружающей среде, распознавание текстов и предоставление краткого обзора сцен. Особенно важно, что модель эффективна в плане памяти и вычислительных ресурсов, что делает её привлекательной для реализации в реальном времени. Данная технология имеет
Annotation:
This study proposes the dual technological innovation framework, including a cross-modal differ entiated quantization framework for vision-language models (VLMs) and a scene-aware vectorized memory multi-agent system for visually impaired assistance. The modular framework was developed implementing differentiated processing strategies, effectively reducing memory requirements from 38GB to 16GB while maintaining model performance. The multi-agent architecture combines scene classification...
ID: 2508.18177v1 cs.CV, cs.LG, cs.MA
Авторы:

Sayan Nag, K J Joseph, Koustava Goswami, Vlad I Morariu, Balaji Vasan Srinivasan

#### Контекст Оценка графических дизайнов требует оценки из нескольких ракурсов, включая аллигейшн, композицию, эстетику и выбор цветов. Этот процесс часто затрудняется личными предъявлениями и несогласованностью мнений. Настоящая работа адресована этим проблемам, предлагая Agentic Design Review System (AgenticDRS), где несколько агентов совместно анализируют дизайн под управлением мета-агента. Такой подход позволяет объединить различные взгляды и получить более объективную оценку. #### Метод AgenticDRS использует несколько центральных технологий. Во-первых, **новый метод выбора примеров в контексте**, основанный на графическом соотнешении, позволяет каждому агенту понять контекст своего выбора. Во-вторых, **метод расширения запросов**, применяемый для уточнения информации, помогает агентам адаптироваться к конкретным дизайнам. Мета-агент организует работу всех агентов, обеспечивая согласованность и точность результатов. #### Результаты Для проверки системы был разработан DRS-BENCH, который включает в себя разнообразные типы дизайнов и формулирований. Агенты AgenticDRS были сравнены с текущими состояниями технологии, и результаты показали, что система демонстрирует значительный прогресс в оценке дизайнов и формировании понятных, действительных рекомендаций. Эксперименты также подтвердили улучшение точности и уменьшение времени, необходимого для обработки задачи. #### Значимость AgenticDRS может быть применим в различных областях, включая дизайн, маркетинг и UX-дизайн. Его преимущества заключаются в том, что он обеспечивает более точную, объективную и многогранную оценку дизайна, что может повысить качество программных продуктов и уменьшить время разработки. #### Выводы AgenticDRS представляет собой эффективное решение для проблем оценки графических дизайнов, достигая этого с помощью современных методов машинного обучения и интеллектуальной организации работы. Будущие исследования будут сосредоточены на расширении функциональности системы, улучшении точности и её использовании в реальных задачах.
Annotation:
Evaluating graphic designs involves assessing it from multiple facets like alignment, composition, aesthetics and color choices. Evaluating designs in a holistic way involves aggregating feedback from individual expert reviewers. Towards this, we propose an Agentic Design Review System (AgenticDRS), where multiple agents collaboratively analyze a design, orchestrated by a meta-agent. A novel in-context exemplar selection approach based on graph matching and a unique prompt expansion method plays...
ID: 2508.10745v1 cs.AI, cs.CV, cs.LG, cs.MA, cs.MM
Авторы:

Chen Shen, Wanqing Zhang, Kehan Li, Erwen Huang, Haitao Bi, Aiying Fan, Yiwen Shen, Hongmei Dong, Ji Zhang, Yuming Shao, Zengjia Liu, Xinshe Liu, Tao Li, Chunxia Yan, Shuanliang Fan, Di Wu, Jianhua Ma, Bin Cong, Zhenyuan Wang, Chunfeng Lian

## Контекст В современной медико-правовой системе существуют серьезные проблемы, связанные с нехваткой квалифицированных специалистов, несогласованностью диагностики и высоким объемом работы. Эти факторы способствуют ошибкам в определении причины смерти и могут привести к неправомерным выводам в правосудии. Одним из главных участников этих проблем является медико-легальная система Китая, где возрастающий набор данных и огромный объем работы становятся крайне трудно управляемыми. Чтобы решить эти проблемы, необходимо автоматизировать процессы анализа и вывода, улучшив точность и скорость диагностики. Наша мотивация заключается в разработке системы, которая могла бы оптимизировать работу значительного числа специалистов и обеспечить консистентность в диагностике. ## Метод Мы предлагаем FEAT (ForEnsic AgenT), многоагентную систему, основанную на доменно-адаптированном размеченном текстовом модели. Эта система включает: (i) **Planner** для декомпозиции задач, (ii) **Local Solvers** для анализа отдельных свидетельств, (iii) **Memory & Reflection Module** для итеративного улучшения и (iv) **Global Solver** для синтеза заключений. Мы использовали **tool-augmented reasoning**, **retrieval-augmented generation**, **forensic-tuned LLMs** и **human-in-the-loop feedback** для обеспечения высокой точности и соответствия правовым и медицинским стандартам. Данная многоуровневая архитектура позволяет гарантировать корректность и эффективность решений, даже при высоком количестве данных. ## Результаты Мы проводили эксперименты на многочисленных коллекциях китайских дел, где FEAT показал значительное превосходство по сравнению с текущими AI-системами в области медико-правового анализа. Мы проверили его в области длинных записей аутопсий и компактных выводов причин смерти. FEAT также продемонстрировал высокую общину в шести различных регионах Китая и высокую согласованность с выводами человеческих экспертов в безуглубленных проверках. Несколько старейшин медицины одобрили результаты FEAT, считая их эквивалентными результатам квалифицированных специалистов, в то же время выделяя лучшую обнаруживаемость тонких элементов доказательств. ## Значимость FEAT может быть применен в многих медико-правовых системах для улучшения эффективности и консистентности работы. Он обеспечивает автоматизацию рутинных процессов, повышает точность диагностики и уменьшает нагрузку на команды экспертов. Это может привести к более справедливому доступу к медицинским услугам и сократить пробелы в медико-легальных процессах. Будущие исследования будут фокусироваться на расширении FEAT для других областей медико-правового анализа и улучшении интеграци
Annotation:
Forensic cause-of-death determination faces systemic challenges, including workforce shortages and diagnostic variability, particularly in high-volume systems like China's medicolegal infrastructure. We introduce FEAT (ForEnsic AgenT), a multi-agent AI framework that automates and standardizes death investigations through a domain-adapted large language model. FEAT's application-oriented architecture integrates: (i) a central Planner for task decomposition, (ii) specialized Local Solvers for evi...
ID: 2508.07950v1 cs.AI, cs.CV, cs.LG, cs.MA
Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.
Annotation:
Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...
ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA
Показано 1 - 10 из 11 записей