📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 InnoGym: Benchmarking the Innovation Potential of AI Agents

2025-12-03

Авторы:

Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two comple...

ID: 2512.01822v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction

2025-11-26

Авторы:

Yuzhi Chen, Yuanchang Xie, Lei Zhao, Pan Liu, Yajie Zou, Chen Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal trajectory prediction generates multiple plausible future trajectories to address vehicle motion uncertainty from intention ambiguity and execution variability. However, HD map-dependent models suffer from costly data acquisition, delayed updates, and vulnerability to corrupted inputs, causing prediction failures. Map-free approaches lack global context, with pairwise attention over-amplifying straight patterns while suppressing transitional patterns, resulting in motion-intention mis...

ID: 2511.18874v1 cs.AI, cs.CV, cs.LG, cs.MA, cs.RO, cs.SI

arXiv PDF

📄 LightMem: Lightweight and Efficient Memory-Augmented Generation

2025-10-23

Авторы:

Jizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite their remarkable capabilities, Large Language Models (LLMs) struggle to effectively leverage historical interaction information in dynamic and complex environments. Memory systems enable LLMs to move beyond stateless interactions by introducing persistent information storage, retrieval, and utilization mechanisms. However, existing memory systems often introduce substantial time and computational overhead. To this end, we introduce a new memory system called LightMem, which strikes a bal...

ID: 2510.18866v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration

2025-10-02

Авторы:

Xiuyuan Chen, Jian Zhao, Yuchen Yuan, Tianle Zhang, Huilin Zhou, Zheng Zhu, Ping Hu, Linghe Kong, Chi Zhang, Weiran Huang, Xuelong Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Existing safety evaluation methods for large language models (LLMs) suffer from inherent limitations, including evaluator bias and detection failures arising from model homogeneity, which collectively undermine the robustness of risk evaluation processes. This paper seeks to re-examine the risk evaluation paradigm by introducing a theoretical framework that reconstructs the underlying risk concept space. Specifically, we decompose the latent risk concept space into three mutually exclusive subsp...

ID: 2509.25271v1 cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Agentic Design Review System

2025-08-16

Авторы:

Sayan Nag, K J Joseph, Koustava Goswami, Vlad I Morariu, Balaji Vasan Srinivasan

#### Контекст Оценка графических дизайнов требует оценки из нескольких ракурсов, включая аллигейшн, композицию, эстетику и выбор цветов. Этот процесс часто затрудняется личными предъявлениями и несогласованностью мнений. Настоящая работа адресована этим проблемам, предлагая Agentic Design Review System (AgenticDRS), где несколько агентов совместно анализируют дизайн под управлением мета-агента. Такой подход позволяет объединить различные взгляды и получить более объективную оценку. #### Метод AgenticDRS использует несколько центральных технологий. Во-первых, **новый метод выбора примеров в контексте**, основанный на графическом соотнешении, позволяет каждому агенту понять контекст своего выбора. Во-вторых, **метод расширения запросов**, применяемый для уточнения информации, помогает агентам адаптироваться к конкретным дизайнам. Мета-агент организует работу всех агентов, обеспечивая согласованность и точность результатов. #### Результаты Для проверки системы был разработан DRS-BENCH, который включает в себя разнообразные типы дизайнов и формулирований. Агенты AgenticDRS были сравнены с текущими состояниями технологии, и результаты показали, что система демонстрирует значительный прогресс в оценке дизайнов и формировании понятных, действительных рекомендаций. Эксперименты также подтвердили улучшение точности и уменьшение времени, необходимого для обработки задачи. #### Значимость AgenticDRS может быть применим в различных областях, включая дизайн, маркетинг и UX-дизайн. Его преимущества заключаются в том, что он обеспечивает более точную, объективную и многогранную оценку дизайна, что может повысить качество программных продуктов и уменьшить время разработки. #### Выводы AgenticDRS представляет собой эффективное решение для проблем оценки графических дизайнов, достигая этого с помощью современных методов машинного обучения и интеллектуальной организации работы. Будущие исследования будут сосредоточены на расширении функциональности системы, улучшении точности и её использовании в реальных задачах.

Annotation:

Evaluating graphic designs involves assessing it from multiple facets like alignment, composition, aesthetics and color choices. Evaluating designs in a holistic way involves aggregating feedback from individual expert reviewers. Towards this, we propose an Agentic Design Review System (AgenticDRS), where multiple agents collaboratively analyze a design, orchestrated by a meta-agent. A novel in-context exemplar selection approach based on graph matching and a unique prompt expansion method plays...

ID: 2508.10745v1 cs.AI, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 FEAT: A Multi-Agent Forensic AI System with Domain-Adapted Large Language Model for Automated Cause-of-Death Analysis

2025-08-13

Авторы:

Chen Shen, Wanqing Zhang, Kehan Li, Erwen Huang, Haitao Bi, Aiying Fan, Yiwen Shen, Hongmei Dong, Ji Zhang, Yuming Shao, Zengjia Liu, Xinshe Liu, Tao Li, Chunxia Yan, Shuanliang Fan, Di Wu, Jianhua Ma, Bin Cong, Zhenyuan Wang, Chunfeng Lian

## Контекст В современной медико-правовой системе существуют серьезные проблемы, связанные с нехваткой квалифицированных специалистов, несогласованностью диагностики и высоким объемом работы. Эти факторы способствуют ошибкам в определении причины смерти и могут привести к неправомерным выводам в правосудии. Одним из главных участников этих проблем является медико-легальная система Китая, где возрастающий набор данных и огромный объем работы становятся крайне трудно управляемыми. Чтобы решить эти проблемы, необходимо автоматизировать процессы анализа и вывода, улучшив точность и скорость диагностики. Наша мотивация заключается в разработке системы, которая могла бы оптимизировать работу значительного числа специалистов и обеспечить консистентность в диагностике. ## Метод Мы предлагаем FEAT (ForEnsic AgenT), многоагентную систему, основанную на доменно-адаптированном размеченном текстовом модели. Эта система включает: (i) **Planner** для декомпозиции задач, (ii) **Local Solvers** для анализа отдельных свидетельств, (iii) **Memory & Reflection Module** для итеративного улучшения и (iv) **Global Solver** для синтеза заключений. Мы использовали **tool-augmented reasoning**, **retrieval-augmented generation**, **forensic-tuned LLMs** и **human-in-the-loop feedback** для обеспечения высокой точности и соответствия правовым и медицинским стандартам. Данная многоуровневая архитектура позволяет гарантировать корректность и эффективность решений, даже при высоком количестве данных. ## Результаты Мы проводили эксперименты на многочисленных коллекциях китайских дел, где FEAT показал значительное превосходство по сравнению с текущими AI-системами в области медико-правового анализа. Мы проверили его в области длинных записей аутопсий и компактных выводов причин смерти. FEAT также продемонстрировал высокую общину в шести различных регионах Китая и высокую согласованность с выводами человеческих экспертов в безуглубленных проверках. Несколько старейшин медицины одобрили результаты FEAT, считая их эквивалентными результатам квалифицированных специалистов, в то же время выделяя лучшую обнаруживаемость тонких элементов доказательств. ## Значимость FEAT может быть применен в многих медико-правовых системах для улучшения эффективности и консистентности работы. Он обеспечивает автоматизацию рутинных процессов, повышает точность диагностики и уменьшает нагрузку на команды экспертов. Это может привести к более справедливому доступу к медицинским услугам и сократить пробелы в медико-легальных процессах. Будущие исследования будут фокусироваться на расширении FEAT для других областей медико-правового анализа и улучшении интеграци

Annotation:

Forensic cause-of-death determination faces systemic challenges, including workforce shortages and diagnostic variability, particularly in high-volume systems like China's medicolegal infrastructure. We introduce FEAT (ForEnsic AgenT), a multi-agent AI framework that automates and standardizes death investigations through a domain-adapted large language model. FEAT's application-oriented architecture integrates: (i) a central Planner for task decomposition, (ii) specialized Local Solvers for evi...

ID: 2508.07950v1 cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Chain of Questions: Guiding Multimodal Curiosity in Language Models

2025-08-09

Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.

Annotation:

Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...

ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF