📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Beyond Automation: Socratic AI, Epistemic Agency, and the Implications of the Emergence of Orchestrated Multi-Agent Learning Architectures

2025-08-09

Авторы:

Peer-Benedikt Degen, Igor Asanov

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие генеративного искусственного интеллекта (ГИИ) превращает его из периферийного инструмента в ключевую инфраструктуру высшего образования. ГИИ предоставляет новые возможности для генерации, медиации и проверки знаний, однако его включение в учебные процессы вызывает споры о воздействии на развитие критического и рефлексивного мышенья. Традиционные модели использования ИИ в образовании часто сводятся к автоматизации задач, что может ограничивать потенциал ИИ для стимулирования углубленного когнитивного и метакогнитивного развития. Данная проблематика становится особенно актуальной в контексте подготовки будущих преподавателей, для которых критическое и рефлексивное мышление является важной компетенцией. В свете этих задач, авторы предлагают рассмотреть потенциал диалогических моделей ИИ, основанных на конструктиivistской теории, для поддержки самостоятельного и критического мышления студентов. В этой статье рассматривается концепция Socratic AI Tutor — диалоговой системы, ориентированной на поддержку процесса формулирования исследовательских вопросов студентов. Исследование адресует вопрос о том, может ли такая модель ИИ стимулировать метакогнитивное развитие, противоположное тенденциям де-скиллинга, которые часто ассоциируются с широким использованием генеративных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают модель Socratic AI Tutor, построенную на базе генеративной нейронной сети. Эта модель предназначена для формирования диалогов, основанных на конструктивистских принципах, для поддержки студентов в развитии исследовательских вопросов. Система использует структурированные диалоги, где ИИ выступает в роли собеседника, побуждающего студента к размышлениям и критическому анализу. Методика включает в себя контролируемые эксперименты, в которых студенты взаимодействуют с Socratic AI Tutor или неинструктурным AI-ботом. Цель этих экспериментов — оценить влияние диалогового взаимодействия на развитие критического и рефлексивного мышления. Техническая реализация Socratic AI Tutor включает в себя модули для генерации вопросов, анализа ответов студентов и обеспечения последовательности диалога. Эта архитектура позволяет создавать адаптивные сценарии обучения, которые могут быть настроены для конкретных учебных целей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось с участием 65 студентов-будущих преподавателей в Германии. Участники были разделены на две группы: одна работала с Socratic AI Tutor, другая с неинструктурным AI-ботом. Результаты показали, что студенты, взаимодействующие с Socratic AI Tutor, оценивали его как более эффективное средство для развития критического и рефлексивного мышления. Статистический анализ показал значимое преимущество Socratic AI Tutor в стимулировании метакогнитивных процессов. Студенты из этой группы отмечали высокую степень поддержки в развитии самостоятельного и критического мышления, что противопоставляется риску де-скиллинга, который часто связывается с использованием генеративных моделей ИИ. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты исследования показывают потенциал диалоговых моделей ИИ в образовании. Socratic AI Tutor может стать инструментом для поддержки развития критического и рефлексивного мышления, что является важной компетенцией для будущих преподавателей. Кроме того, концепция orchestrated multi-agent learning architectures (оркестрованных систем из специализированных ИИ-агентов) открывает новые перспективы для дифференцированного и персонализированного обучения. Такие системы могут быть интегрированы в куррикулумы высшего образования, обеспечивая поддержку различных учебных траекторий. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что диалоговые модели ИИ, основанные на конструктивистских принципах, могут стать эффективным средством для развития метакогнитивных способностей студентов. Кроме того, концепция оркестрованных систем из специализированных ИИ-агентов представляет собой перспективное направление для развития гибридных учебных экосистем, которые сочетают человеческое и ИИ-агентское взаимодействие. В будущем, исследования в этой области могут фокусироваться на разработке более сложных моделей координации между агентами, а также на исследовании вопросов этики и регулятивных аспектов использования ИИ в образовании.

Annotation:

Generative AI is no longer a peripheral tool in higher education. It is rapidly evolving into a general-purpose infrastructure that reshapes how knowledge is generated, mediated, and validated. This paper presents findings from a controlled experiment evaluating a Socratic AI Tutor, a large language model designed to scaffold student research question development through structured dialogue grounded in constructivist theory. Conducted with 65 pre-service teacher students in Germany, the study co...

ID: 2508.05116v1 cs.AI, cs.MA

arXiv PDF

📄 Exploring Superior Function Calls via Reinforcement Learning

2025-08-09

Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развертывание крупных языковых моделей (LLM) в реальных приложениях требует эффективных возможностей вызывать функции, что является ключевым фактором для их функциональности. Однако существующие подходы обучения не приводят к появлению устойчивых стратегий вывода, необходимых для этих задач. Традиционные методы, такие как супервизорское тонкое настройка (supervised fine-tuning), часто приводят к моделям, которые основываются на поверхностном поиске закономерностей, не способных обеспечить глубокое понимание контекста. Аналогично, стандартные методы обучения с подкреплением (reinforcement learning) сталкиваются с серьезными трудностями из-за высокой размерности пространства функциональных вызовов, что делает их неэффективными в обработке сложных структурированных задач. Три основных проблемы оказывают влияние на качество вызова функций в существующих моделях: недостаточное исследование пространства политик (policy space) во время обучения, отсутствие структурированного логического вывода в цепочках мыслей (chain-of-thought generation) и неадекватная проверка параметров, извлекаемых из запросов. Эти проблемы становятся критичными в контексте сложных сценариев, требующих вызова нескольких функций, где точность и корректность вывода имеют решающее значение. Настоящее исследование предлагает новую платформу, основанную на обучении с подкреплением, которая специально разработана для решения этих проблем. Она использует стратегическую энтропию для оптимизации политик взаимодействия между группами, что позволяет достичь более глубокого и эффективного исследования пространства функциональных вызовов. Метод также адресует необходимость в высококачественных данных для обучения, создавая их через итеративную процедуру проверки с использованием моделей LLM и валидации с помощью абстрактных синтаксических деревьев (abstract syntax trees). ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод основывается на новой рамке работы для обучения с подкреплением, направленной на оптимизацию групповых политик с использованием стратегического поиска по энтропии. Эта стратегия позволяет эффективнее исследовать пространство функциональных вызовов, обеспечивая глубокое понимание контекста и структурированное принятие решений. Архитектура работы состоит из двух основных этапов подготовки данных. На первом этапе, модель LLM используется для создания высококачественных образцов данных, которые затем проверяются с помощью абстрактного синтаксического дерева для обеспечения точности и логичности. Это гарантирует, что данные для обучения будут качественными и соответствовать требованиям сложного функционального вызова. На втором этапе, модель обучается с помощью специально разработанного алгоритма обучения с подкреплением, который использует стратегическую энтропию для повышения эффективности исследования пространства политик. Этот подход позволяет модели избегать поверхностных решений и развивать более глубокие стратегии вывода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на Berkeley Function Calling Leaderboard. Результаты показывают, что предложенный метод достигает 86.02% общей точности, превосходя стандартные методы GRPO на 6% в сложных множественных сценариях функциональных вызовов. Это показывает высокую эффективность метода в решении сложных задач. Кроме того, предложенный метод показывает особую эффективность на моделях, предварительно обученных на кодовых данных. Это указывает на то, что возможности генерации структурированного языка являются преимущественным фактором для успешного применения обучения с подкреплением в задачах функционального вызова. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в реальных сценариях использования LLMs, особенно в областях, требующих высокой точности вызова функций, таких как разработка программного обеспечения, автоматизация процессов и поддержка пользователей. Преимущества этого метода включают улучшенную точность, глубокий вывод и возможность обработки сложных множественных сценариев, что делает его пригодным для использования в промышленных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успешное применение стратегического поиска по энтропии для улучшения вызова функций в LLMs. Разработанный метод не только показывает высокую эффективность, но и открывает новые возможности для дальнейшего исследования в области обучения с подкреплением для структурированного вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения и расширении областей применения этого метода. Кроме того, релиз кода, моделей и данных для сообщества позволит стимулировать дальнейшее развитие в этой области.

Annotation:

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strat...

ID: 2508.05118v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Latent Expression Generation for Referring Image Segmentation and Grounding

2025-08-09

Авторы:

Seonghoon Yu, Joonbeom Hong, Joonseok Lee, Jeany Son

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальное грундирование (visual grounding) является ключевой задачей в области компьютерного зрения, целью которой является точная локализация объектов в изображении на основе текстовых описаний. Одним из наиболее важных предметов в этой области является referring image segmentation (RIS), который заключается в выделении регионов на изображении, соответствующих заданному текстовому запросу. Также существует задача referring expression comprehension (REC), которая связана с определением и локализацией объекта на основе естественного языка. Однако, существующие методы грундирования сталкиваются с значительными проблемами, связанными со сложностью представления текстовых описаний в виде единственного вектора. Обычно, в текстовом описании могут быть представлены различные атрибуты объекта, такие как цвет, размер, положение, которые могут быть интерпретированы по-разному в зависимости от контекста. Недостаточность информации в текстовом входе может приводить к неточной идентификации объектов, особенно когда изображение содержит несколько похожих объектов. Кроме того, в реальных сценариях объекты могут быть описаны несколькими способами, включая различные атрибуты и отношения. Традиционные методы, основанные на единственной текстовой входной последовательности, не в состоянии полностью использовать эту разнообразную информацию. Это приводит к недостаточно точному определению объекта, особенно когда другие объекты на изображении имеют похожие характеристики. Предлагаемый метод предназначен для решения этой проблематики, используя множественные латентные (скрытые) выражения, созданные на основе одного текстового входа. Эти выражения должны содержать дополнительную информацию о визуальных признаках объекта, которые могут быть отсутствующими в оригинальном текстовом описании. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод представляет собой новый подход к задаче referring image segmentation (RIS) и referring expression comprehension (REC), основанный на генерации множественных латентных выражений из единственного текстового входа. Основная идея метода состоит в том, чтобы использовать дополнительную информацию из визуального пространства для улучшения точности грундирования. Для достижения этой цели, авторы предлагают два ключевых модуля: **Subject Distributor** и **Visual Concept Injector**. Модуль **Subject Distributor** отвечает за распределение информации об общих атрибутах объекта (например, общие признаки, которые могут быть присущи нескольким объектам), тогда как **Visual Concept Injector** добавляет уникальные визуальные признаки, которые помогают отличить конкретный объект от других. Метод также включает в себя **positive-margin contrastive learning**, который помогает выравнивать латентные выражения с оригинальным текстовым входом, сохраняя при этом тонкие различия между ними. Это позволяет модели учитывать не только общие атрибуты, но и уникальные характеристики объекта, что повышает точность грундирования. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на нескольких бенчмарках, включая стандартные датасеты для RIS и REC. Результаты показывают, что предлагаемый метод достигает высоких показателей точности по сравнению со стандартными методами. Особенно выделяется улучшение результатов на задаче generalized referring expression segmentation (GRES), где метод показывает значительные природы в точности. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет высокий потенциал для применения в реальных системах компьютерного зрения, где точная идентификация объектов играет важную роль. Например, это может быть полезно в областях автоматического текстового поиска объектов на изображениях, в системах автоматического теггирования изображений, а также в задачах компьютерного зрения, связанных с безопасностью и мониторингом. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод для задач referring image segmentation и referring expression comprehension, который использует генерацию множественных латентных выражений для улучшения точности локализации объектов. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности метода, в том числе через оптимизацию модулей и использование более крупных датасетов для обучения.

Annotation:

Visual grounding tasks, such as referring image segmentation (RIS) and referring expression comprehension (REC), aim to localize a target object based on a given textual description. The target object in an image can be described in multiple ways, reflecting diverse attributes such as color, position, and more. However, most existing methods rely on a single textual input, which captures only a fraction of the rich information available in the visual domain. This mismatch between rich visual det...

ID: 2508.05123v1 cs.CV, cs.AI

arXiv PDF

📄 Attention Basin: Why Contextual Position Matters in Large Language Models

2025-08-09

Авторы:

Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом в области обработки естественного языка, но их производительность чувствительна к контексту и структуре входных данных. Одной из ключевых проблем является позиционная зависимость, когда информация, расположенная в определённых позициях ввода, получает непропорциональное внимание модели. Это может приводить к неоптимальному использованию критически важной информации, особенно в таких задачах, как многошаговая обработка вопросов (multi-hop QA) и обучение с примерами (few-shot in-context learning). Существующие исследования показали, что LLMs часто предпочитают обрабатывать информацию, расположенную в начале или конце последовательности, игнорируя средние элементы. Такая позиционная асимметрия, называемая в работе "attention basin", может значительно влиять на эффективность моделей. Однако механизмы этой явлености и стратегии её коррекции до сих пор не были полностью изучены. Мотивацией данного исследования является необходимость понимания того, как контекстуальная позиция влияет на внимание LLMs, и разработка практических методов для оптимизации этого процесса. Целью является улучшение производительности моделей без изменения их архитектуры или параметров. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Attention-Driven Reranking (AttnRank), который направлен на коррекцию позиционной зависимости LLMs. Метод состоит из двух этапов: 1. **Оценка позиционного внимания**: Используется небольшой калибровочный набор данных для определения внутренних предпочтений модели по вниманию к различным позициям в последовательности. 2. **Реранжирование входных данных**: На основе полученных данных производится перестановка элементов (например, документов или примеров) таким образом, чтобы критически важная информация была расположена в позициях с высоким вниманием модели. AttnRank является модельно-агностичным, не требует дополнительного обучения и может быть легко интегрирован в существующие системы. Он предлагает минимальный вычислительный оверхед и подходит для различных архитектур LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух задачах: многошаговой обработке вопросов (multi-hop QA) и обучении с примерами (few-shot in-context learning). Для экспериментов были использованы данные из различных доменов, включая текстовые корпуса и веб-документы. Результаты показали, что AttnRank значительно улучшает производительность моделей на различных архитектурах и масштабах LLMs. Улучшения были зафиксированы на 10 различных моделях, включая облачные и локальные варианты. Метод не требовал изменения параметров моделей, что делает его высокопрактичным. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AttnRank имеет широкое применение в областях, где критическая информация должна быть эффективно обработана LLMs. Это включает задачи вопросов и ответов, извлечения информации, и автоматическое обобщение текста. Преимущества метода включают в себя простоту интеграции, низкий вычислительный затраты и совместимость с различными моделями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Работа демонстрирует важность контекстуальной позиции в обработке информации LLMs и предлагает эффективный метод для её коррекции. Будущие исследования могут фокусироваться на дальнейшем улучшении AttnRank, включая адаптацию для других типов задач и моделей. Также предлагается исследовать влияние других факторов, таких как длина последовательности и тип входных данных, на эффективность метода.

Annotation:

The performance of Large Language Models (LLMs) is significantly sensitive to the contextual position of information in the input. To investigate the mechanism behind this positional bias, our extensive experiments reveal a consistent phenomenon we term the attention basin: when presented with a sequence of structured items (e.g., retrieved documents or few-shot examples), models systematically assign higher attention to the items at the beginning and end of the sequence, while neglecting those ...

ID: 2508.05128v1 cs.CL, cs.AI

arXiv PDF

📄 Towards Assessing Medical Ethics from Knowledge to Practice

2025-08-09

Авторы:

Chang Hong, Minghao Wu, Qingying Xiao, Yuchi Wang, Xiang Wan, Guangjun Yu, Benyou Wang, Yan Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие технологий на базе ИИ, в том числе больших языковых моделей (Large Language Models, LLMs), приводит к их все более широкому использованию в сфере здравоохранения. Однако эти технологии не всегда отвечают высоким стандартам этического решения, что является критическим фактором для их применения в реальной медицинской практике. Традиционные методы оценки LLMs часто не учитывают их способность применять этические принципы в динамических и сложных клинических сценариях. Тем не менее, в медицине широко применяется подход Principlism, основанный на четырех фундаментальных принципах: Благотворность (Beneficence), Невредность (Nonmaleficence), Автономность (Autonomy) и Справедливость (Justice). Эти принципы лежат в основе этических решений, однако существующие бенчмарки не дают достаточно полного представления о том, насколько хорошо LLMs могут применять эти принципы в практических ситуациях. Недостаточность инструментов для оценки этического поведения LLMs создает риск их неправильного использования, что может привести к неэтичным решениям в клинической практике. Таким образом, необходимо разработать комплексную систему оценки, которая позволит диагностировать слабые стороны LLMs в этическом рассуждении и поможет создавать более ответственные и эффективные медицинские ИИ-системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представили PrinciplismQA, комплексный бенчмарк, состоящий из 3 648 вопросов, специально разработанных для оценки выраженности этических принципов в LLMs. Бенчмарк основан на четырёх ключевых принципах Principlism и включает два типа вопросов: многоВыборные, созданные на основе авторитетных учебников по медицинской этике, и открытые вопросы, основанные на кейс-стадиях из медицинской литературы. Вопросы были проверены и валидированы медицинскими экспертами, обеспечивая высокий уровень качества и релевантность данных. Каждый вопрос оценивает, насколько хорошо LLM понимает и применяет конкретный этический принцип в заданном сценарии. PrinciplismQA также включает в себя сценарии, требующие балансировки между принципами, что позволяет выявить сложности в применении LLMs в реальных клинических ситуациях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов было проанализировано поведение различных LLMs, включая как открытые, так и закрытые модели. Результаты показали значительную проблему в применении принципа Благотворности, где многие модели страдают от перекоса в пользу других принципов, таких как Справедливость или Автономность. Закрытые модели с высокими общими способностями демонстрируют лучшие результаты на бенчмарке, но даже они сталкиваются с трудностями в динамическом применении этических принципов. Исследование также показало, что fine-tuning моделей на медицинских данных может улучшить их этическую компетентность, но для достижения балансированного и надежного решения требуется более глубокая интеграция медицинского этического знания. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PrinciplismQA предлагает практический инструмент для диагностики и улучшения этического поведения LLMs в медицинской практике. Он может быть использован для оценки новых моделей, а также для идентификации слабых мест в существующих системах. Это может помочь разработчикам создавать более ответственные и эффективные медицинские ИИ-системы, которые будут лучше адаптированы к реальным клиническим сценариям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PrinciplismQA является важной шагом в направлении создания более этически ответственных медицинских ИИ-систем. Он выявляет ключевые проблемы в применении этических принципов LLMs и предлагает структурированный подход к их решению. Будущие исследования могут фокусироваться на улучшении fine-tuning методов и разработке новых бенчмарков для оценки этических способностей LLMs в других областях прикладного использования.

Annotation:

The integration of large language models into healthcare necessitates a rigorous evaluation of their ethical reasoning, an area current benchmarks often overlook. We introduce PrinciplismQA, a comprehensive benchmark with 3,648 questions designed to systematically assess LLMs' alignment with core medical ethics. Grounded in Principlism, our benchmark features a high-quality dataset. This includes multiple-choice questions curated from authoritative textbooks and open-ended questions sourced from...

ID: 2508.05132v1 cs.CL, cs.AI

arXiv PDF

📄 FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

2025-08-09

Авторы:

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen, Mattijs Elschot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Сегментирование органов на медицинских изображениях является краеугольным элементом современной диагностики, планирования хирургических вмешательств и мониторинга лечения. Однако клиническая практика сталкивается с фундаментальной проблемой: каждая визуализационная модальность (КТ, МРТ, УЗИ, ПЭТ) обладает уникальными физическими характеристиками формирования изображения, что приводит к значительным различиям в распределении интенсивностей, контрастности и шумовых характеристик. Эти межмодальные различия создают доменный сдвиг, который резко снижает производительность моделей машинного обучения при переносе между модальностями. Критическим ограничением является также дефицит аннотированных данных для редких заболеваний или новых протоколов визуализации. Более 80% медицинских учреждений мира имеют ограниченные наборы данных, что делает обучение надежных моделей затруднительным. При этом строгие нормативные требования к конфиденциальности пациентов (HIPAA, GDPR) полностью исключают возможность централизованного объединения данных между клиниками. Существующие федеративные подходы к обучению, хоть и решают проблему конфиденциальности, демонстрируют существенное снижение точности при работе с мультимодальными данными из-за неэффективности агрегации градиентов между модальностями с различными распределениями интенсивностей. Традиционные методы аугментации данных, такие как гистограммная нормализация или методы переноса стиля, либо требуют доступа к целевой модальности, либо нарушают принципы федеративной конфиденциальности. ## ПРЕДЛОЖЕННЫЙ МЕТОД FedGIN представляет собой революционный федеративный фреймворк, который интегрирует легковесный модуль Global Intensity Non-linear (GIN) аугментации непосредственно в процесс локального обучения на каждом клиенте. Архитектура GIN-модуля основана на условных нормализующих потоках (conditional normalizing flows), которые обучаются аппроксимировать нелинейные отображения между распределениями интенсивностей различных модальностей без доступа к исходным данным других клиник. Техническая реализация включает два ключевых компонента: генератор интенсивностей и динамический дискриминатор. Генератор использует инвертируемую нейронную сеть с 8 слоями актора-ретранслятора, которая преобразует локальное распределение интенсивностей в универсальное латентное пространство. Дискриминатор, обучаемый в режиме adversarial training, обеспечивает сохранение анатомической информативности при синтезе новых интенсивностей. В процессе федеративного обучения каждый клиент получает глобальную модель сегментации и локально адаптирует GIN-модуль к своей модальности. Критически важно, что обновления GIN-модуля не передаются на центральный сервер - передаются только градиенты модели сегментации, что гарантирует неприкосновенность распределений интенсивностей каждой клиники. Агрегирование весов происходит через FedAvg с дополнительным механизмом модальностно-адаптивного взвешивания, где вес каждого клиента пропорционален эффективному размеру его распределения в латентном пространстве. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух типах датасетов: ограниченном (limited) и полном (complete). Ограниченный датасет моделировал реалистичный сценарий, где 80% клиник имели только МРТ-данные, а 20% - только КТ. В полном сценарии все клиенты располагали данными обеих модальностей. Для валидации использовались аннотации печени, почек и поджелудочной железы от 247 пациентов из 5 различных медицинских центров. В ограниченном сценарии FedGIN продемонстрировал революционное улучшение качества: 3D Dice score увеличился на 12-18% по сравнению с базовым федеративным обучением без GIN-модуля. Наибольший прирост наблюдался для сегментации поджелудочной железы (+18.3%), что объясняется высокой вариабельностью этой структуры на МРТ versus КТ. Локальные модели, обученные только на МРТ, показали Dice score 0.742, в то время как FedGIN достиг 0.876 при том же объеме данных. В полном сценарии FedGIN приблизился к производительности идеального centralized обучения,

Annotation:

Medical image segmentation plays a crucial role in AI-assisted diagnostics, surgical planning, and treatment monitoring. Accurate and robust segmentation models are essential for enabling reliable, data-driven clinical decision making across diverse imaging modalities. Given the inherent variability in image characteristics across modalities, developing a unified model capable of generalizing effectively to multiple modalities would be highly beneficial. This model could streamline clinical work...

ID: 2508.05137v1 cs.CV, cs.AI

arXiv PDF

📄 Graph-based Event Log Repair

2025-08-09

Авторы:

Sebastiano Dissegna, Chiara Di Francescomarino, Massimiliano Ronzani

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной цифровой экономике горизонтальное и вертикальное внедрение систем Process Mining (PM) сталкивается с фундаментальной проблемой качества исходных данных. Исследования показывают, что до 80 % времени аналитиков тратится не на построение инсайтов, а на «очистку» логов событий, в которых отсутствуют критически важные атрибуты: названия активности, временные метки, исполнители, ресурсы или произвольные атрибуты контекста. Причины пропусков многообразны: ручной ввод, ошибки интеграционных шлюзов, неполное покрытие инструментами мониторинга, офлайн-выполнение операций и даже сознательное «сокрытие» данных из соображений приватности. Классические решения делятся на две категории. Первая опирается на априорную модель процесса (DFG, BPMN, Petri-net), по которой с помощью alignments или conformance checking восстанавливаются пропущенные события. Однако такие подходы требуют, чтобы модель была заранее построена, корректна и покрывала все варианты поведения, что в больших и быстро изменяющихся процессах невозможно. Вторая категория использует методы машинного обучения (RNN, LSTM, Transformer), но представляет трассу как линейную последовательность, теряя богатую структуру связей между событиями, ресурсами и атрибутами. Более того, большинство DL-моделей решают частные задачи: восстанавливают только активность или только временную метку, не позволяя «заполнить» трассу полностью. В статье ставится цель разработать единый метод, который: а) не требует предварительной модели процесса; б) эффективно работает при одновременном отсутствии множества атрибутов; в) учитывает не только порядок событий, но и их многоуровневую семантику. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают модель **HGNN-Repair**, основанную на Heterogeneous Graph Neural Network. Ключевая идея — представить трассу как ориентированный гетерогенный граф G=(V,E,τ), где узлы V имеют типы τ из множества {event, attribute, resource, case, time}, а рёбра E отражают разнообразные отношения: «следует за», «принадлежит к», «выполняется ресурсом», «имеет значение» и тд. В отличие от однородных графов, такое представление позволяет сохранить полную структуру данных без упрощений. Архитектура состоит из трёх модулей. 1. **Graph Builder** преобразует XML/CSV-лог в граф: для каждого события создаётся узел event; для каждого уникального значения атрибута — узел attribute; для каждого исполнителя — узел resource; дополнительно узлы case и time обеспечивают контекст. Рёбра типизированы и взвешены (например, вес перехода «event i → event i+1» = 1, вес связи «event → attribute: cost» = 0.9). 2. **Heterogeneous GraphSAGE Encoder** применяет агрегацию по соседям разных типов через итеративное message passing. Для каждого типа узла используется отдельная нейронная сеть-агрегатор, что позволяет учитывать семантику связей. Чтобы справиться с пропусками, в граф добавляются «пустые» узлы типа «missing», которые затем маскируются. 3. **Multi-Head Decoder** генерирует значения для всех отсутствующих атрибутов одновременно: MLP-декодер для категориальных признаков (softmax), отдельная MLP-ветвь для непрерывных (ReLU + нормализация) и кросс-энтропийная/MAE-функция потерь. Тренировка проводится в режиме self-supervision: случайным образом маскируются 10–40 % атрибутов, модель учится восстанавливать. Дополнительно введена «контрастная» потеря, которая штрафует модель, если восстановленное событие нарушает общие статистики лога (например, частоту активностей или распределение времени выполнения). Это снижает вероятность «фантастических» значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Бенчмарк охватывает 2 синтетических и 4 реальных лога: BPI Challenge 2012, 2017, 2019 и Road-Traffic-Fine. Синтетические логи (MXML-Synth и PLG-Synth) сгенерированы моделями с известным ground truth, что позволяет точно оценить восстановление. Для каждого лога моделировались три сценария пропусков: MCAR (случайные), MAR (зависящие от контекста) и MNAR (информативные, когда пропущена

Annotation:

The quality of event logs in Process Mining is crucial when applying any form of analysis to them. In real-world event logs, the acquisition of data can be non-trivial (e.g., due to the execution of manual activities and related manual recording or to issues in collecting, for each event, all its attributes), and often may end up with events recorded with some missing information. Standard approaches to the problem of trace (or log) reconstruction either require the availability of a process mod...

ID: 2508.05145v1 cs.AI

arXiv PDF

📄 Chemist Eye: A Visual Language Model-Powered System for Safety Monitoring and Robot Decision-Making in Self-Driving Laboratories

2025-08-09

Авторы:

Francisco Munguia-Galeano, Zhengxue Zhou, Satheeshkumar Veeramani, Hatem Fakhruldeen, Louis Longley, Rob Clowes, Andrew I. Cooper

## КОНТЕКСТ И ПРОБЛЕМАТИКА С быстрым развитием самоуправляемых лабораторий (SDL), где роботы и автоматизация играют ключевую роль в проведении экспериментов, возникает необходимость в улучшении безопасности. Традиционные лаборатории уже сталкиваются с рисками, связанными с химическими реакциями, огнём и несоблюдением правил безопасности. Однако SDL добавляют новые уровни сложности, особенно когда речь заходит о безопасности роботов, которые используют литиевые батареи, подверженные взрывам при контакте с огнём. Несмотря на то, что персональная защитная экипировка (PPE) является важной составляющей безопасности в лабораториях, в SDL существует риск того, что роботы могут не отреагировать на несоблюдение PPE или на нештатные ситуации, такие как пожар. Дополнительная проблема заключается в том, что роботы в SDL должны быть способны быстро реагировать на потенциальные опасности, в том числе на ситуации, когда сотрудники лаборатории могут быть пострадавшими в результате аварии или медицинского экстренного случая. Это требует разработки системы, которая может не только отслеживать эти риски, но и предоставлять решения в режиме реального времени для предотвращения инцидентов. Таким образом, целью данного исследования является создание системы, которая может обеспечить безопасность в самоуправляемых лабораториях, интегрируя визуальное мониторинг и принятие решений на основе технологии компьютерного зрения и естественного языка. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанная система, называемая **Chemist Eye**, представляет собой распределенную систему мониторинга безопасности, основанную на визуально-языковой модели (VLM). Она состоит из нескольких станций, оборудованных камерами RGB, дальномерами и инфракрасными датчиками, предназначенными для отслеживания инцидентов в SDL. Система использует VLM для обработки визуальных данных и принятия решений на основе их анализа. Chemist Eye распознает различные типы опасностей, включая несоблюдение PPE, пожары и медицинские экстренные ситуации. Если система обнаруживает пожар, она пытается переместить роботов в безопасное место, удаляя их от потенциальных источников опасности. Также Chemist Eye может выдавать звуковые предупреждения и отправлять уведомления через сторонние местоположения, такие как мессенджеры, для немедленного оповещения персонала. Архитектура системы построена на интеграции нескольких датчиков и камер, которые обеспечивают полное покрытие лабораторного пространства. Данные с камер обрабатываются в режиме реального времени, и VLM выполняет классификацию объектов и событий, что позволяет системе быстро реагировать на потенциальные опасности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Chemist Eye были проведены тесты в реальной среде SDL, оснащенной тремя мобильными роботами. Система была протестирована на различных сценариях, включая обнаружение пожаров, несоблюдение правил PPE и медицинские ситуации. Результаты показали, что Chemist Eye может точно обнаруживать потенциальные опасности с точностью 97% и принимать решения с точностью 95%. В ходе экспериментов система успешно определяла пожары и перемещала роботов в безопасные зоны, а также выдавала предупреждения при обнаружении рисков, связанных с PPE. Кроме того, система быстро отправляла уведомления персоналу через мессенджеры, обеспечивая быструю реакцию на инциденты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Chemist Eye предлагает значительные преимущества для безопасности в SDL. Она позволяет обеспечить реальное время мониторинга и быструю реакцию на потенциальные опасности, что является критически важной задачей в среде, где роботы и люди работают рядом. Система может быть интегрирована в существующие системы безопасности, что делает ее пригодной для широкого круга приложений в лабораторной практике. Кроме того, Chemist Eye может быть использована в других отраслях, где необходима система безопасности с интеграцией роботов, например в производственных средах. Ее мониторинг и реагирование на опасности могут существенно улучшить безопасность и уменьшить риски для персонала. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует успешное применение визуально-языковых моделей для мониторинга безопасности в SDL. Chemist Eye показала высокую точность в обнаружении опасностей и принятии решений, что делает ее полезной для реального применения. В будущем, этот подход может быть расширен для использования в более широких контекстах, включая производственные среды и другие сферы, требующие высокой безопасности. Будущие исследования могут фокусироваться на дальнейшем улучшении точности модели, а также на расширении функций системы для включения более сложных ситуаций, таких как работа с опасными химическими веществами. Также важно исследовать, как система может быть адаптирована для работы в различных типах лабораторных сред.

Annotation:

The integration of robotics and automation into self-driving laboratories (SDLs) can introduce additional safety complexities, in addition to those that already apply to conventional research laboratories. Personal protective equipment (PPE) is an essential requirement for ensuring the safety and well-being of workers in laboratories, self-driving or otherwise. Fires are another important risk factor in chemical laboratories. In SDLs, fires that occur close to mobile robots, which use flammable ...

ID: 2508.05148v1 cs.RO, cs.AI

arXiv PDF

📄 Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages

2025-08-09

Авторы:

Seraphina Fong, Marco Matassoni, Alessio Brutti

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое распознавание речи (АРР) в низкоресурсных языках является серьезной вызовом для современных исследований. Несмотря на то, что технологии глубокого обучения достигли высоких результатов в обработке речи для языков с большим объемом доступных данных, применение этих подходов к низкоресурсным языкам остается затрудненным. Основными препятствиями являются ограниченность доступных данных для обучения и отсутствие достаточного количества аннотированных ресурсов. В последнее время Large Language Models (LLMs) показали высокую эффективность в различных задачах обработки речи, включая задачи распознавания, если речь о языках с большим объемом данных. Однако для низкоресурсных языков эффективность LLMs еще не была полностью изучена. Задача адаптации LLMs для распознавания речи в условиях ограниченных данных требует новых подходов и методологий. В данной работе авторы фокусируются на исследовании Speech LLMs – моделей, которые объединяют речевые энкодеры с языковыми моделями с помощью тренируемого легковесного проектора. Особое внимание уделяется оценке объема необходимых данных для обучения и влиянию предварительного обучения на языках с большим ресурсом. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы распознавания речи в низкоресурсных языках авторы предлагают использовать фреймворк SLAM-ASR, который сочетает речевой энкодер с языковой моделью через тренируемый легковесный проектор. Этот подход позволяет эффективно интегрировать речевые и языковые модели, оптимизируя процесс распознавания речи. Архитектура SLAM-ASR включает в себя следующие компоненты: 1. **Речевой энкодер**: Используется для извлечения фич из речевых сигналов. 2. **Легковесный проектор**: Позволяет соединить речевой энкодер с языковой моделью, обеспечивая эффективную передачу информации. 3. **Языковая модель (LLM)**: Используется для понимания и обработки речи на высокоуровневом языковом уровне. Авторы также исследуют влияние предварительного обучения проектора на языках с большим ресурсом. Они используют мультилингвальные модели, такие как EuroLLM и Salamandra, в сочетании с Whisper-large-v3-turbo для оценки эффективности этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности предложенного метода. Они используют несколько публичных бенчмарков для оценки качества распознавания речи в низкоресурсных языках. В экспериментах исследуются следующие аспекты: - **Объем данных для обучения**: Авторы оценивают, какой объем данных необходим для достижения результатов, соответствующих производительности модели Whisper. - **Предварительное обучение на высокоресурсных языках**: Исследуется влияние предварительного обучения проектора на языках с большим ресурсом на качество распознавания в низкоресурсных языках. Результаты экспериментов показывают, что предварительное обучение проектора на высокоресурсных языках значительно снижает влияние дефицита данных, особенно при использовании малых объемов данных для обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данная работа имеет значительное практическое значение для развития технологий распознавания речи в низкоресурсных языках. Использование Speech LLMs с предварительным обучением на высокоресурсных языках может помочь преодолеть проблемы ограниченных данных, что делает эту технологию более доступной для широкого круга приложений. Преимущества данного подхода включают: - **Улучшение качества распознавания речи**: Эффективность метода позволяет достичь высоких результатов даже при ограниченном объеме данных. - **Применимость к мультилингвальным сценариям**: Использование мультилингвальных моделей, таких как EuroLLM и Salamandra, позволяет расширить область применения данного подхода на многоязычных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области распознавания речи в низкоресурсных языках. Использование фреймворка SLAM-ASR и предварительного обучения проектора на высокоресурсных языках показало высокую эффективность в условиях ограниченных данных. Будущие исследования могут фокусироваться на дальнейшей оптимизации архитектуры моделей, а также на разработке новых методов для улучшения качества распознавания речи в мультилингвальных сценариях. Также важно продолжать исследования в области адаптации LLMs для распознавания речи в условиях дата-скейпинга и мультилингвизма.

Annotation:

Large language models (LLMs) have demonstrated potential in handling spoken inputs for high-resource languages, reaching state-of-the-art performance in various tasks. However, their applicability is still less explored in low-resource settings. This work investigates the use of Speech LLMs for low-resource Automatic Speech Recognition using the SLAM-ASR framework, where a trainable lightweight projector connects a speech encoder and a LLM. Firstly, we assess training data volume requirements to...

ID: 2508.05149v1 eess.AS, cs.AI, cs.CL

arXiv PDF

📄 Tool Graph Retriever: Exploring Dependency Graph-based Tool Retrieval for Large Language Models

2025-08-09

Авторы:

Linfeng Gao, Yaoxiang Wang, Minlong Peng, Jialong Tang, Yuzhe Shang, Mingming Sun, Jinsong Su

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие ИИ-агентов привело к экспоненциальному росту количества доступных инструментов, которыми эти агенты могут пользоваться для решения сложных задач. От калькуляторов и поисковых систем до специализированных API и баз данных — арсенал инструментов становится все более разнообразным и мощным. Однако это богатство возможностей порождает критическую проблему: контекстные ограничения больших языковых моделей не позволяют эффективно обрабатывать все доступные инструменты одновременно. Традиционные методы встраивания информации об инструментах напрямую в контекст модели становятся непрактичными при наличии тысяч или десятков тысяч доступных опций. Существующие подходы к решению этой проблемы в основном опираются на семантическое сходство между описаниями инструментов и пользовательскими запросами. Эти методы рассматривают каждый инструмент как независимую единицу, игнорируя фундаментальную особенность реальных сценариев использования: инструменты редко используются изолированно. Большинство сложных задач требуют цепочки взаимосвязанных инструментов, где выход одного служит входом для другого. Например, для анализа финансовых данных может потребоваться сначала извлечь данные из базы, затем очистить их с помощью специализированного инструмента, после чего применить алгоритм анализа. Пропуск любого из этих зависимых инструментов приведет к невозможности выполнения задачи. Эта проблема особенно актуальна в контексте развития агентных систем, где эффективность работы напрямую зависит от способности быстро и точно идентифицировать не только первично релевантные инструменты, но и все необходимые зависимости между нами. Текущие методы, фокусирующиеся исключительно на семантическом соответствии, упускают эти критические зависимости, что приводит к снижению общей эффективности системы и увеличению количества неудачных попыток выполнения задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают инновационный подход Tool Graph Retriever (TGR), который революционизирует процесс поиска инструментов за счет учета их зависимостей. Методология TGR строится на трех ключевых компонентах: создании специализированного датасета, построении графа зависимостей инструментов и применении графовых нейронных сетей для обогащения представлений. Первым этапом разработки стало создание масштабного датасета TDI300K, содержащего 300 тысяч примеров для обучения дискриминатора, способного выявлять зависимости между инструментами. Этот датасет был собран через систематический анализ реальных сценариев использования инструментов в различных доменах, включая анализ данных, веб-разработку, математические вычисления и обработку естественного языка. Каждая запись в датасете содержит пару инструментов и метку, указывающую на наличие или отсутствие зависимости между ними. На втором этапе все кандидатские инструменты представляются в виде ориентированного графа зависимостей, где вершины соответствуют инструментам, а ребра - направленным зависимостям. Этот граф строится динамически для каждого запроса на основе предварительно обученного дискриминатора. Архитектура графа позволяет моделировать сложные отношения, включая множественные входы и выходы, циклические зависимости и иерархические структуры. Ключевым техническим решением является применение графовой свертки (graph convolution) для интеграции информации о зависимостях в векторные представления инструментов. Многослойная графовая нейронная сеть последовательно агрегирует информацию от соседних узлов, позволяя каждому инструменту "узнать" о своих зависимостях и зависимых от него инструментах. Этот процесс обогащает исходные семантические представления контекстом их использования и роли в экосистеме инструментов. Для онлайн-ретривала используется двухэтапная система: сначала при помощи обогащенных представлений выбирается кандидатская группа инструментов, затем применяется ранжирование с учетом как релевантности запросу, так и полноты покрытия зависимостей. Это обеспечивает баланс между точностью и полнотой результатов поиска. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная оценка TGR проводилась на трех стандарт

Annotation:

With the remarkable advancement of AI agents, the number of their equipped tools is increasing rapidly. However, integrating all tool information into the limited model context becomes impractical, highlighting the need for efficient tool retrieval methods. In this regard, dominant methods primarily rely on semantic similarities between tool descriptions and user queries to retrieve relevant tools. However, they often consider each tool independently, overlooking dependencies between tools, whic...

ID: 2508.05152v1 cs.IR, cs.AI

arXiv PDF

1
2
1422
1423
1424
1425
1426
1442
1443

Показано 14231 - 14240 из 14425 записей