📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation

2025-08-09

Авторы:

Radhika Dua, Young Joon, Kwon, Siddhant Dogra, Daniel Freedman, Diana Ruan, Motaz Nashawaty, Danielle Rigau, Daniel Alexander Alber, Kang Zhang, Kyunghyun Cho, Eric Karl Oermann

**Резюме** Авторы предлагают **ICARE** (Interpretable and Clinically-grounded Agent-based Report Evaluation) — инновационный подход для оценки качества автоматически сгенерированных радиологических отчетов. Одной из основных проблем в этой области является отсутствие интерпретируемых метрик, которые бы стабильно отражали грамотность отчета с точки зрения клинической актуальности и точности. ICARE основывается на динамическом методе, использующем вопрос-ответ с помощью LLMs-агентов: каждый агент выступает с двумя версиями отчета (генерируемой и истинной) и проводит клинически содержательный диалог, сравнивая ответы. Это заставляет ICARE выделяться за счет прозрачности и понимаемости его результатов. Испытания на клинических экспертах показали, что ICARE намного более точно отражает их оценки по сравнению с предыдущими методами. Анализы пертурбаций подтвердили результаты как надежные и репродуцируемые. ICARE представляет собой значительный шаг в обеспечении надёжности и точности оценки радиологических отчетов.

Annotation:

Radiological imaging is central to diagnosis, treatment planning, and clinical decision-making. Vision-language foundation models have spurred interest in automated radiology report generation (RRG), but safe deployment requires reliable clinical evaluation of generated reports. Existing metrics often rely on surface-level similarity or behave as black boxes, lacking interpretability. We introduce ICARE (Interpretable and Clinically-grounded Agent-based Report Evaluation), an interpretable evalu...

ID: 2508.02808v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Evaluation and Analysis of Deep Neural Transformers and Convolutional Neural Networks on Modern Remote Sensing Datasets

2025-08-09

Авторы:

J. Alex Hurt, Trevor M. Bajkowski, Grant J. Scott, Curt H. Davis

Мы исследовали производительность трансформеров и современных сверточных сетей (DCNN) на современных данных ремутного зрения (remote sensing). Несмотря на то, что DCNNs стали стандартом в обработке изображений, в том числе ремутного зрения, появление трансформеров позволило наблюдать второй скачок в развитии компьютерного зрения. Однако их производительность на больших данных ремутного зрения еще не до конца изучена. Мы сравнили 11 моделей детектирования объектов, включая 5 трансформеров и 6 DCNNs, на трех больших датасетах ремутного зрения. Наши результаты показали, что трансформеры показывают статус-кво в задаче детектирования объектов на сложных данных ремутного зрения, превосходя DCNNs в разных аспектах. Этот результат подкрепляет роль трансформеров в новых технологиях для обработки изображений.

Annotation:

In 2012, AlexNet established deep convolutional neural networks (DCNNs) as the state-of-the-art in CV, as these networks soon led in visual tasks for many domains, including remote sensing. With the publication of Visual Transformers, we are witnessing the second modern leap in computational vision, and as such, it is imperative to understand how various transformer-based neural networks perform on satellite imagery. While transformers have shown high levels of performance in natural language pr...

ID: 2508.02871v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Engineered over Emergent Communication in MARL for Scalable and Sample-Efficient Cooperative Task Allocation in a Partially Observable Grid

2025-08-09

Авторы:

Brennen A. Hill, Mant Koh En Wei, Thangavel Jishnuanandh

**Резюме** В данной работе рассматривается сравнение инженерного подхода к коммуникации (Engineered Communication) с инструментом под названием Learned Direct Communication (LDC) в рамках кооперативной многоагентной оркестрации задач в частично наблюдаемых средах. Инженерный подход включает в себя модель Imagined Trajectory Generation Module (ITGM) и Message Generation Network (MGN), которые формируют сообщения на основе прогнозированных будущих состояний. Исследование проводилось на задачах с различным уровнем сложности и видов наблюдаемости. Основным выводом является то, что инженерный подход демонстрирует более высокую эффективность и масштабируемость по сравнению с инструментом LDC. Это открытие показывает, что дизайн коммуникационных стратегий может опередить подходы, основанные на научном исследовании, в сложных, многоагентных средах.

Annotation:

We compare the efficacy of learned versus engineered communication strategies in a cooperative multi-agent reinforcement learning (MARL) environment. For the learned approach, we introduce Learned Direct Communication (LDC), where agents generate messages and actions concurrently via a neural network. Our engineered approach, Intention Communication, employs an Imagined Trajectory Generation Module (ITGM) and a Message Generation Network (MGN) to formulate messages based on predicted future stat...

ID: 2508.02912v1 cs.MA, cs.AI, cs.LG, cs.SY, eess.SY, 68T42, 68T05, 90C40, 93E35, 68T07, I.2.11; I.2.6; I.2.8

arXiv PDF

📄 Realizing Scaling Laws in Recommender Systems: A Foundation-Expert Paradigm for Hyperscale Model Deployment

2025-08-09

Авторы:

Dai Li, Kevin Course, Wei Li, Hongwei Li, Jie Hua, Yiqi Chen, Zhao Zhu, Rui Jian, Xuan Cao, Bi Xue, Yu Shi, Jing Qian, Kai Ren, Matt Ma, Qunshu Zhang, Rui Li

**Резюме** Современные рекомендательные системы сталкиваются с значительными вызовами при масштабировании моделей, включая необходимость учитывать структуру потоковых данных, адаптироваться к различным рекомендательным поверхностям и соблюдать жесткие ограничения по задержке и вычислительной сложности. Для решения этих проблем предлагается **Foundation-Expert Paradigm**, ориентированная на развитие и развертывание масштабных моделей рекомендаций. Центральная модель обучается на кросс-сурфасной, мультимодальной данной для извлечения общей значимости, которая потом эффективно передается "экспертным" моделям, специально подготовленным для конкретных поверхностей и задач рекомендаций. Это решение реализовано в системе HyperCast, которая перерабатывает тренировку, развертывание и логирование, при этом сохраняя высокую производительность. Исследования показали, что данная модель улучшает онлайнные показатели и эффективность развертывания, являясь первым успешным примером такого подхода на масштабе Meta, предлагая эффективный и практичный метод для реализации сценариев масштабирования в рекомендательных системах.

Annotation:

While scaling laws promise significant performance gains for recommender systems, efficiently deploying hyperscale models remains a major unsolved challenge. In contrast to fields where FMs are already widely adopted such as natural language processing and computer vision, progress in recommender systems is hindered by unique challenges including the need to learn from online streaming data under shifting data distributions, the need to adapt to different recommendation surfaces with a wide dive...

ID: 2508.02929v2 cs.IR, cs.AI, cs.LG, 68T05, 68T07, 68T30, H.3.3; I.2.6

arXiv PDF

📄 LLM-based IR-system for Bank Supervisors

2025-08-09

Авторы:

Ilias Aarab

**Резюме** В статье представлена LLM-based IR-система, разработанная для поддержки банковских надзорных органов в создании консистентных и эффективных мер. Банковские надзорные органы часто сталкиваются с проблемой учета исторических прецедентов при выработке новых мер. Проектируемая система решает эту проблему, позволяя надзорным органам получить сведения из базы данных научных работ по аналогичным случаям. Она использует множественные методы поиска, включая лексический, семантический и fuzzy set matching по модели CRR, для точного выявления наиболее подходящих документов. Система проверена с помощью Monte Carlo-метода на частично отмеченных данных, показала высокую точность и устойчивость. Использование Transformer-based Denoising AutoEncoder для тюнинга позволило достичь высоких результатов: Mean Average Precision (MAP@100) — 0.83 и Mean Reciprocal Rank (MRR@100) — 0.92. Эти показатели превышают результаты однородных моделей BM25 и BERT-подобных. Таким образом, предложенная система является эффективным инструментом для повышения качества и согласованности нормативных мер в банковском надзоре.

Annotation:

Bank supervisors face the complex task of ensuring that new measures are consistently aligned with historical precedents. To address this challenge, we introduce a novel Information Retrieval (IR) System tailored to assist supervisors in drafting both consistent and effective measures. This system ingests findings from on-site investigations. It then retrieves the most relevant historical findings and their associated measures from a comprehensive database, providing a solid basis for supervisor...

ID: 2508.02945v1 cs.IR, cs.AI, cs.LG, stat.AP, stat.CO, 68P20, 68T50, 68T05, 62P20, 91G80, H.3.3; I.2.6; I.2.7; J.1

arXiv PDF

📄 Autonomous Inorganic Materials Discovery via Multi-Agent Physics-Aware Scientific Reasoning

2025-08-09

Авторы:

Alireza Ghafarollahi, Markus J. Buehler

**Резюме** Одним из основных задачей в области разработки инновационных материалов является создание эффективных систем, которые могут автономно выполнять весь круговой процесс от генерирования предложений и планирования до экспериментального исследования и рефинемента. В статье представлена модель SparksMatter — мультиагентная AI-система, способная автономно проводить полный цикл разработки инновационных материалов. Она может генерировать идеи, разрабатывать экспериментальные рабочие процессы, анализировать результаты и предлагать новые варианты, а также оценивать свои ответы, указывать на недостатки и предлагать дополнительные этапы валидации, включая DFT-измерения и синтез. Модель оценивалась на случаях использования в области термоэлектрики, полупроводников и перовскитовых оксидов, показав высокую релевантность, новизну и научную ценность своих решений. Выявлено, что SparksMatter превосходит другие модели в новизне и качестве предложенных решений. Эти результаты показывают, что SparksMatter является мощным инструментом для автономного инновационного материаловедения.

Annotation:

Conventional machine learning approaches accelerate inorganic materials design via accurate property prediction and targeted material generation, yet they operate as single-shot models limited by the latent knowledge baked into their training data. A central challenge lies in creating an intelligent system capable of autonomously executing the full inorganic materials discovery cycle, from ideation and planning to experimentation and iterative refinement. We introduce SparksMatter, a multi-agent...

ID: 2508.02956v1 cond-mat.mtrl-sci, cond-mat.dis-nn, cond-mat.mes-hall, cs.AI, cs.LG

arXiv PDF

📄 Polymath: A Self-Optimizing Agent with Dynamic Hierarchical Workflow

2025-08-09

Авторы:

Chia-Tung Ho, Jing Gong, Xufeng Yao, Yunsheng Bai, Abhishek B Akkur, Haoxing Ren

**Резюме** Проблема: хотя большие языковые модели (LLMs) показали великолепные результаты в решении сложных задач, построение широкомасштабных агентных систем через ручное внедрение LLMs в структурированные рабочие процессы оказывается неэффективным и нескалярным. Большинство существующих подходов для автоматизации генерации и оптимизации таких рабочих процессов не замыкаются на решение реальных, динамически изменяющихся задач, требующих эффективности и гибкости в адаптации. Решение: предлагается Polymath — самооптимизирующийся агент с динамической иерархической рабочей программой, который использует гибкость графов потока задач и кодовые представления рабочих процессов. Методология оптимизации основывается на многоуровневой графовой оптимизации и саморефлексионно-руководящем алгоритме эволюционной оптимизации, которые обеспечивают гибкость в решении задач без нужды в учитываемых данных. Основные выводы: экспериментальные результаты на шести бенчмарк-датасетах по кодингу, математике и многократным вопросам показали, что Polymath превышает состояние технологии базиса на 8.1% в среднем, демонстрируя способность эффективно решать динамические, реальномасштабные задачи.

Annotation:

Large language models (LLMs) excel at solving complex tasks by executing agentic workflows composed of detailed instructions and structured operations. Yet, building general-purpose agents by manually embedding foundation models into agentic systems such as Chain-of-Thought, Self-Reflection, and ReACT through text interfaces limits scalability and efficiency. Recently, many researchers have sought to automate the generation and optimization of these workflows through code-based representations. ...

ID: 2508.02959v2 cs.AI, cs.LG

arXiv PDF

📄 GeoFlow: Agentic Workflow Automation for Geospatial Tasks

2025-08-09

Авторы:

Amulya Bhattaram, Justin Chung, Stanley Chung, Ranit Gupta, Janani Ramamoorthy, Kartikeya Gullapalli, Diana Marculescu, Dimitrios Stamoulis

Мы предлагаем GeoFlow, метод автоматической генерации agentic workflow для решения задач геоспациальной природы. В отличие от существующих подходов, которые ограничиваются разбором задач и оставляют выбор инструментов в неявном виде, GeoFlow предоставляет каждому агенту подробные цели при вызове специфических API. Это позволяет улучшить успешность выполнения задач на 6.8% и снизить потребление токенов до четырьмя раз, в сравнении с аналогичными подходами. Наши результаты показывают, что GeoFlow эффективно решает проблему необходимости вручную настраивать инструменты для геоспациальных задач, а также улучшает интеллектуальную работу систем на базе трансформаторных моделей, повышая их эффективность и точность решения.

Annotation:

We present GeoFlow, a method that automatically generates agentic workflows for geospatial tasks. Unlike prior work that focuses on reasoning decomposition and leaves API selection implicit, our method provides each agent with detailed tool-calling objectives to guide geospatial API invocation at runtime. GeoFlow increases agentic success by 6.8% and reduces token usage by up to fourfold across major LLM families compared to state-of-the-art approaches.

ID: 2508.04719v1 cs.AI, cs.LG

arXiv PDF

📄 Development of management systems using artificial intelligence systems and machine learning methods for boards of directors (preprint, unofficial translation)

2025-08-09

Авторы:

Anna Romanova

Растущее влияние искусственного интеллекта (ИИ) в корпоративном управлении вызывает новые проблемы, связанные с нехваткой достаточного юридического и этического регулирования. Авторы статьи предлагают новую структуру для развития и реализации автономных ИИ-систем в управлении компаниями. Основной идеей является создание "компьютерного права" — алгоритмической системы права, где правила закона представлены в машиночитаемом виде. Исследование подчеркивает необходимость "операционного контекста" для ИИ, подобно операционному домену для автономных автомобилей, чтобы обеспечить безопасность и эффективность. Авторы предлагают использовать синтетические данные для обучения ИИ и применять игровую теорию для оптимизации решений в рамках этических и юридических ограничений. Ключевой акцент делается на "исправительном ИИ" (explainable AI) для достижения прозрачности и ответственности решений. Основным выводом является, что только через такие системы можно обеспечить доверие и соответствие новым юридическим и этическим стандартам.

Annotation:

The study addresses the paradigm shift in corporate management, where AI is moving from a decision support tool to an autonomous decision-maker, with some AI systems already appointed to leadership roles in companies. A central problem identified is that the development of AI technologies is far outpacing the creation of adequate legal and ethical guidelines. The research proposes a "reference model" for the development and implementation of autonomous AI systems in corporate management. This ...

ID: 2508.03769v1 cs.CY, cs.AI, cs.LG

arXiv PDF

📄 Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

2025-08-09

Авторы:

Chenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu

Научная статья Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following рассматривает проблему неэффективного выполнения команд сложным управляющим языковыми моделями (LLMs). Авторы выявляют недостаточное внимание к процессу рассуждения в модели как главную причину несоответствия командам. Решением становится разработка протокола под названием Light-IF, включающего стратегии предварительного просмотра и самопроверки. Эти механизмы включены в тренировочный процесс, который позволяет модели лучше учитывать требования задачи и повышать уровень общей пригодности решений для различных сложностей. Авторы используют сложность задач, реJECTION-семплинг и расширенный финатный тонкий тюнинг с внедрением опорных свойств логического рассуждения. Эксперименты показывают, что Light-IF оказывается эффективной для обучения моделей различных размеров, включая модель Light-IF-32B, которая показывает лучшие результаты по сравнению с опубликованными моделями с меньшим и большим количеством параметров.

Annotation:

While advancements in the reasoning abilities of LLMs have significantly enhanced their performance in solving mathematical problems, coding tasks, and general puzzles, their effectiveness in accurately adhering to instructions remains inconsistent, particularly with more complex directives. Our investigation identifies lazy reasoning during the thinking stage as the primary factor contributing to poor instruction adherence. To mitigate this issue, we propose a comprehensive framework designed t...

ID: 2508.03178v1 cs.CL, cs.AI, cs.LG

arXiv PDF

Показано 1641 - 1650 из 1687 записей