📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Integrated Influence: Data Attribution with Baseline

2025-08-09

Авторы:

Linxiao Yang, Xinyu Gu, Liang Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение вопросы интерпретируемости и прозрачности моделей машинного обучения приобрели особую актуальность. Одним из ключевых направлений в этой области является **data attribution**, то есть определение влияния отдельных обучающих примеров на результаты модели. Это позволяет лучше понять, как модель принимает решения, и повысить её прозрачность. Однако существующие методы data attribution сталкиваются с некоторыми проблемами. Первая проблема — это **локализованность объяснений**. Многие методы, основанные на методе leave-one-out (LOO), анализируют влияние только одного обучающего примера, игнорируя коллективное влияние всего набора данных. Это ограничивает глубину и точность объяснений, так как реальное влияние обучающих данных часто является результатом взаимодействия множества примеров. Вторая проблема — **отсутствие базового уровня (baseline)** во многих методах. Базовый уровень позволяет сравнивать текущий набор данных с каким-либо начальным состоянием, что может быть полезно для построения контрфактуальных объяснений. Например, без базового уровня невозможно оценить, как изменение набора данных может повлиять на результат модели. Наконец, многие существующие методы недостаточно гибкие и не позволяют эффективно идентифицировать проблемы, такие как ошибочно отмеченные примеры. Это ограничивает их практическую применимость. Таким образом, требуется новый подход, который бы учитывал коллективное влияние данных и предоставлял более гибкие возможности для объяснений. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый метод под названием **Integrated Influence**, который решает проблемы существующих подходов. Основная идея заключается в том, чтобы определить **базовый набор данных** и провести процесс **дегенерации данных**, при котором текущий набор данных переходит к этому базовому состоянию. Во время этого процесса вычисляется влияние каждого обучающего примера. Технически, метод основан на **теоретическом рамках**, который позволяет формализовать процесс дегенерации данных. Базовый набор данных определяется как начальное состояние, к которому текущий набор данных должен сходиться. Процесс дегенерации описывается как последовательное удаление или изменение обучающих примеров, при котором вычисляется их влияние на модель. Кроме того, метод **Integrated Influence** показывает, что некоторые существующие методы, такие как **influence functions**, могут быть рассмотрены как специальные случаи этого подхода. Это подчеркивает теоретическую значимость и гибкость предлагаемого метода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Чтобы провести оценку метода, были проведены эксперименты на различных наборах данных. Авторы сравнили **Integrated Influence** с другими популярными методами data attribution, такими как LOO-based методы и influence functions. В экспериментах было показано, что **Integrated Influence** дает более **надёжные и точные объяснения** по сравнению с другими методами. Он лучше справляется с задачей идентификации ошибочно отмеченных примеров и позволяет получить более информативные объяснения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где необходима прозрачность и интерпретируемость моделей машинного обучения. Он может быть использован для **обнаружения ошибочно отмеченных данных**, что критически важно для повышения качества моделей. Кроме того, **Integrated Influence** может быть применен в задачах **контрфактуального объяснения**, которые позволяют понять, как изменения в данных могут повлиять на результат модели. Преимущества метода заключаются в его **гибкости** и **надёжности**. Он позволяет получить более глубокие и точные объяснения, что может быть полезно в таких областях, как медицина, финансы и автономные транспортные системы, где прозрачность решений критически важна. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод **Integrated Influence**, который решает проблемы существующих подходов к data attribution. Он позволяет учитывать коллективное влияние данных и предоставляет более гибкие возможности для объяснений. Экспериментальные результаты показали, что этот метод является более надёжным и точным по сравнению с другими подходами. В будущем можно рассмотреть дальнейшее развитие этого метода, в том числе его применение к более сложным моделям и наборам данных. Также можно исследовать возможности интеграции этого метода в различные практические приложения, где прозрачность моделей играет ключевую роль.

Annotation:

As an effective approach to quantify how training samples influence test sample, data attribution is crucial for understanding data and model and further enhance the transparency of machine learning models. We find that prevailing data attribution methods based on leave-one-out (LOO) strategy suffer from the local-based explanation, as these LOO-based methods only perturb a single training sample, and overlook the collective influence in the training set. On the other hand, the lack of baseline ...

ID: 2508.05089v1 cs.LG, cs.AI

arXiv PDF

📄 Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS

2025-08-09

Авторы:

Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala

## КОНТЕКСТ И ПРОБЛЕМАТИКА Неартрическая речь, вызваная неврологическими расстройствами, представляет значительные трудности для разработки помощительных технологий речи. Основной проблемой является ограниченность доступных данных, что существенно ограничивает возможности обучения моделей речи. В последнее время, нейронные модели речевого синтеза, особенно технологии нулевого выстреливания голоса (zero-shot voice cloning), позволяют создавать синтезированную речь для дополнения данных (data augmentation). Однако эти модели могут ввести существенные предубеждения (biases) в отношении неартрической речи, что может повлиять на качество синтезированной речи. В данном исследовании рассматривается проблема несправедливости (unfairness) в синтезированной речи, особенно при анализе речи с различными степенями неартрии. Исследование фокусируется на том, как модели синтеза речи воспроизводят речь людей с неартрией, и на том, как можно оценить качество синтеза с точки зрения интеллектуальности (intelligibility), подобия голоса (speaker similarity) и сохранения просодических особенностей (prosody preservation). Кроме того, в работе проводится анализ возможных смещений (bias) с помощью метрик справедливости, таких как Disparate Impact и Parity Difference, чтобы определить возможные неравенства в синтезированной речи для разных степеней неартрии. ## ПРЕДЛОЖЕННЫЙ МЕТОД В качестве базового метода для синтеза речи используется F5-TTS, современная модель нейронного синтеза речи, которая позволяет реализовывать нулевое выстреливание голоса (zero-shot voice cloning). Метод основывается на использовании датасета TORGO, который содержит записи речи людей с неартрией различной степени тяжести. Модель F5-TTS обучается на этих данных с целью воспроизведения речи, сохраняя как можно больше информации о голосе и просодии. Для оценки биасов (bias) в синтезированной речи используются метрики справедливости, такие как Disparate Impact и Parity Difference. Эти метрики позволяют оценивать, насколько синтезированная речь отражает реальные различия в речи людей с разными степенями неартрии, и выявлять возможные недостатки в модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было использовано датасет TORGO, который включает в себя записи речи людей с неартрией разной степени. Результаты показали, что модель F5-TTS демонстрирует высокую точность в воспроизведении интеллектуальной речи (intelligibility), однако с недостаточной точностью в сохранении голоса говорящего (speaker similarity) и просодии (prosody). Это может указывать на существование биасов в модели, которые предпочли бы сохранение интеллектуальности речи над другими аспектами. Кроме того, использование метрик справедливости показало, что модель F5-TTS может демонстрировать неравенство в отношении разных степеней неартрии, где речь более выразительная (intelligible) людей с более легкой формой неартрии получает более высокий рейтинг качества. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты этого исследования могут быть использованы для разработки более справедливых и инклюзивных технологий речевого синтеза, особенно для людей с неартрией. Особенно важно обеспечить, чтобы синтезированная речь была доступна и понятна для всех пользователей, независимо от степени неартрии. Информация, полученная из этого исследования, может помочь в создании моделей, которые будут учитывать различные аспекты речи, включая интеллектуальность, голос и просодию, чтобы создавать более качественную и справедливую речь. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что модель F5-TTS имеет сильный биас в отношении интеллектуальности речи при синтезировании речи людей с неартрией. Это может быть важно для будущих исследований, особенно в контексте разработки более справедливых моделей речи. Будущие исследования могут фокусироваться на том, как улучшить модели речи так, чтобы они были более справедливыми и учитывали различные аспекты речи, не только интеллектуальность, но и голос и просодию. Кроме того, можно рассмотреть возможность использования более разнообразных данных для обучения моделей, чтобы снизить возможное влияние биасов.

Annotation:

Dysarthric speech poses significant challenges in developing assistive technologies, primarily due to the limited availability of data. Recent advances in neural speech synthesis, especially zero-shot voice cloning, facilitate synthetic speech generation for data augmentation; however, they may introduce biases towards dysarthric speech. In this paper, we investigate the effectiveness of state-of-the-art F5-TTS in cloning dysarthric speech using TORGO dataset, focusing on intelligibility, speake...

ID: 2508.05102v1 eess.AS, cs.AI

arXiv PDF

📄 EasySize: Elastic Analog Circuit Sizing via LLM-Guided Heuristic Search

2025-08-09

Авторы:

Xinyue Wu, Fan Hu, Shaik Jani Babu, Yi Zhao, Xinfei Guo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Аналоговый конструирование является ключевой, но трудоемкой частью процесса разработки чипов. Он требует большого количества опыта и зачастую занимает значительное время в разработке. Несмотря на значительные достижения в области искусственного интеллекта, создание универсальных, быстрых и стабильных методов для размещения логических элементов (gate sizing) в аналоговых конструкциях остается серьезной проблемой. Существующие подходы часто используют большие нейронные сети или модели, которые требуют значительных вычислительных ресурсов. Это создает проблемы с портативностью и универсальностью, особенно когда речь заходит о различных технологических процессах (technology nodes). Кроме того, многие существующие методы требуют специальной подготовки для каждого конкретного процесса, что делает их менее эффективными и менее пригодными для широкого применения. Для решения этих проблем необходим метод, который мог бы обеспечить универсальность, стабильность и эффективность в различных условиях и технологических процессах. Это может значительно ускорить процесс разработки аналоговых конструкций, снизить затраты на вычислительные ресурсы и сделать процесс более доступным для разработчиков. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается EasySize – первый легковесный фреймворк для размещения логических элементов в аналоговых конструкциях, основанный на модели Qwen3-8B, которая была дообучена (fine-tuned) на данных технологического процесса 350 нм. Основная идея EasySize заключается в динамическом конструировании задачно-специфических функций потерь (loss functions) на основе понятия Ease of Attainability (EOA) различных метрик производительности. EasySize использует глобальный поиск на основе Differential Evolution (DE) и локальный поиск с помощью Particle Swarm Optimization (PSO), которые работают в совокупности с обратной связью для улучшения результатов. Это позволяет эффективно оптимизировать размещение логических элементов в различных условиях, не требуя дополнительной подготовки или дообучения на каждом конкретном процессе. Фреймворк EasySize был протестирован на различных технологических узлах, включая 180 нм, 45 нм и 22 нм, и показал высокую эффективность. Он также показал превосходство над AutoCkt, другим популярным фреймворком, основанным на Reinforcement Learning, снизив затраты на вычислительные ресурсы более чем на 96%. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЮЛЬТАТЫ В рамках экспериментов EasySize был применен к пяти различным схемам операционных усилителей (Op-Amp) на технологических узлах 180 нм, 45 нм и 22 нм. Несмотря на то, что модель была дообучена только на данных 350 нм, она показала высокую эффективность на всех тестируемых процессах. В результате экспериментов EasySize достиг результатов, превосходящих AutoCkt в 86,67% задач, при этом снижая потребление вычислительных ресурсов более чем на 96%. Это показывает высокую эффективность и универсальность предложенного метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ EasySize может быть применен в различных областях разработки аналоговых конструкций, где необходимо быстро и эффективно оптимизировать размещение логических элементов. Благодаря своей универсальности и стабильности, он может существенно сократить время и затраты на разработку, что делает его привлекательным для индустрии чипов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен EasySize – новый фреймворк для аналогового конструирования, который обеспечивает высокую эффективность и универсальность. Будущие исследования могут фокусироваться на дальнейшем улучшении модели и ее применении в других областях разработки аналоговых конструкций.

Annotation:

Analog circuit design is a time-consuming, experience-driven task in chip development. Despite advances in AI, developing universal, fast, and stable gate sizing methods for analog circuits remains a significant challenge. Recent approaches combine Large Language Models (LLMs) with heuristic search techniques to enhance generalizability, but they often depend on large model sizes and lack portability across different technology nodes. To overcome these limitations, we propose EasySize, the first...

ID: 2508.05113v1 cs.AI

arXiv PDF

📄 Beyond Automation: Socratic AI, Epistemic Agency, and the Implications of the Emergence of Orchestrated Multi-Agent Learning Architectures

2025-08-09

Авторы:

Peer-Benedikt Degen, Igor Asanov

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие генеративного искусственного интеллекта (ГИИ) превращает его из периферийного инструмента в ключевую инфраструктуру высшего образования. ГИИ предоставляет новые возможности для генерации, медиации и проверки знаний, однако его включение в учебные процессы вызывает споры о воздействии на развитие критического и рефлексивного мышенья. Традиционные модели использования ИИ в образовании часто сводятся к автоматизации задач, что может ограничивать потенциал ИИ для стимулирования углубленного когнитивного и метакогнитивного развития. Данная проблематика становится особенно актуальной в контексте подготовки будущих преподавателей, для которых критическое и рефлексивное мышление является важной компетенцией. В свете этих задач, авторы предлагают рассмотреть потенциал диалогических моделей ИИ, основанных на конструктиivistской теории, для поддержки самостоятельного и критического мышления студентов. В этой статье рассматривается концепция Socratic AI Tutor — диалоговой системы, ориентированной на поддержку процесса формулирования исследовательских вопросов студентов. Исследование адресует вопрос о том, может ли такая модель ИИ стимулировать метакогнитивное развитие, противоположное тенденциям де-скиллинга, которые часто ассоциируются с широким использованием генеративных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают модель Socratic AI Tutor, построенную на базе генеративной нейронной сети. Эта модель предназначена для формирования диалогов, основанных на конструктивистских принципах, для поддержки студентов в развитии исследовательских вопросов. Система использует структурированные диалоги, где ИИ выступает в роли собеседника, побуждающего студента к размышлениям и критическому анализу. Методика включает в себя контролируемые эксперименты, в которых студенты взаимодействуют с Socratic AI Tutor или неинструктурным AI-ботом. Цель этих экспериментов — оценить влияние диалогового взаимодействия на развитие критического и рефлексивного мышления. Техническая реализация Socratic AI Tutor включает в себя модули для генерации вопросов, анализа ответов студентов и обеспечения последовательности диалога. Эта архитектура позволяет создавать адаптивные сценарии обучения, которые могут быть настроены для конкретных учебных целей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось с участием 65 студентов-будущих преподавателей в Германии. Участники были разделены на две группы: одна работала с Socratic AI Tutor, другая с неинструктурным AI-ботом. Результаты показали, что студенты, взаимодействующие с Socratic AI Tutor, оценивали его как более эффективное средство для развития критического и рефлексивного мышления. Статистический анализ показал значимое преимущество Socratic AI Tutor в стимулировании метакогнитивных процессов. Студенты из этой группы отмечали высокую степень поддержки в развитии самостоятельного и критического мышления, что противопоставляется риску де-скиллинга, который часто связывается с использованием генеративных моделей ИИ. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты исследования показывают потенциал диалоговых моделей ИИ в образовании. Socratic AI Tutor может стать инструментом для поддержки развития критического и рефлексивного мышления, что является важной компетенцией для будущих преподавателей. Кроме того, концепция orchestrated multi-agent learning architectures (оркестрованных систем из специализированных ИИ-агентов) открывает новые перспективы для дифференцированного и персонализированного обучения. Такие системы могут быть интегрированы в куррикулумы высшего образования, обеспечивая поддержку различных учебных траекторий. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что диалоговые модели ИИ, основанные на конструктивистских принципах, могут стать эффективным средством для развития метакогнитивных способностей студентов. Кроме того, концепция оркестрованных систем из специализированных ИИ-агентов представляет собой перспективное направление для развития гибридных учебных экосистем, которые сочетают человеческое и ИИ-агентское взаимодействие. В будущем, исследования в этой области могут фокусироваться на разработке более сложных моделей координации между агентами, а также на исследовании вопросов этики и регулятивных аспектов использования ИИ в образовании.

Annotation:

Generative AI is no longer a peripheral tool in higher education. It is rapidly evolving into a general-purpose infrastructure that reshapes how knowledge is generated, mediated, and validated. This paper presents findings from a controlled experiment evaluating a Socratic AI Tutor, a large language model designed to scaffold student research question development through structured dialogue grounded in constructivist theory. Conducted with 65 pre-service teacher students in Germany, the study co...

ID: 2508.05116v1 cs.AI, cs.MA

arXiv PDF

📄 Exploring Superior Function Calls via Reinforcement Learning

2025-08-09

Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развертывание крупных языковых моделей (LLM) в реальных приложениях требует эффективных возможностей вызывать функции, что является ключевым фактором для их функциональности. Однако существующие подходы обучения не приводят к появлению устойчивых стратегий вывода, необходимых для этих задач. Традиционные методы, такие как супервизорское тонкое настройка (supervised fine-tuning), часто приводят к моделям, которые основываются на поверхностном поиске закономерностей, не способных обеспечить глубокое понимание контекста. Аналогично, стандартные методы обучения с подкреплением (reinforcement learning) сталкиваются с серьезными трудностями из-за высокой размерности пространства функциональных вызовов, что делает их неэффективными в обработке сложных структурированных задач. Три основных проблемы оказывают влияние на качество вызова функций в существующих моделях: недостаточное исследование пространства политик (policy space) во время обучения, отсутствие структурированного логического вывода в цепочках мыслей (chain-of-thought generation) и неадекватная проверка параметров, извлекаемых из запросов. Эти проблемы становятся критичными в контексте сложных сценариев, требующих вызова нескольких функций, где точность и корректность вывода имеют решающее значение. Настоящее исследование предлагает новую платформу, основанную на обучении с подкреплением, которая специально разработана для решения этих проблем. Она использует стратегическую энтропию для оптимизации политик взаимодействия между группами, что позволяет достичь более глубокого и эффективного исследования пространства функциональных вызовов. Метод также адресует необходимость в высококачественных данных для обучения, создавая их через итеративную процедуру проверки с использованием моделей LLM и валидации с помощью абстрактных синтаксических деревьев (abstract syntax trees). ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод основывается на новой рамке работы для обучения с подкреплением, направленной на оптимизацию групповых политик с использованием стратегического поиска по энтропии. Эта стратегия позволяет эффективнее исследовать пространство функциональных вызовов, обеспечивая глубокое понимание контекста и структурированное принятие решений. Архитектура работы состоит из двух основных этапов подготовки данных. На первом этапе, модель LLM используется для создания высококачественных образцов данных, которые затем проверяются с помощью абстрактного синтаксического дерева для обеспечения точности и логичности. Это гарантирует, что данные для обучения будут качественными и соответствовать требованиям сложного функционального вызова. На втором этапе, модель обучается с помощью специально разработанного алгоритма обучения с подкреплением, который использует стратегическую энтропию для повышения эффективности исследования пространства политик. Этот подход позволяет модели избегать поверхностных решений и развивать более глубокие стратегии вывода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на Berkeley Function Calling Leaderboard. Результаты показывают, что предложенный метод достигает 86.02% общей точности, превосходя стандартные методы GRPO на 6% в сложных множественных сценариях функциональных вызовов. Это показывает высокую эффективность метода в решении сложных задач. Кроме того, предложенный метод показывает особую эффективность на моделях, предварительно обученных на кодовых данных. Это указывает на то, что возможности генерации структурированного языка являются преимущественным фактором для успешного применения обучения с подкреплением в задачах функционального вызова. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в реальных сценариях использования LLMs, особенно в областях, требующих высокой точности вызова функций, таких как разработка программного обеспечения, автоматизация процессов и поддержка пользователей. Преимущества этого метода включают улучшенную точность, глубокий вывод и возможность обработки сложных множественных сценариев, что делает его пригодным для использования в промышленных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успешное применение стратегического поиска по энтропии для улучшения вызова функций в LLMs. Разработанный метод не только показывает высокую эффективность, но и открывает новые возможности для дальнейшего исследования в области обучения с подкреплением для структурированного вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения и расширении областей применения этого метода. Кроме того, релиз кода, моделей и данных для сообщества позволит стимулировать дальнейшее развитие в этой области.

Annotation:

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strat...

ID: 2508.05118v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Latent Expression Generation for Referring Image Segmentation and Grounding

2025-08-09

Авторы:

Seonghoon Yu, Joonbeom Hong, Joonseok Lee, Jeany Son

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальное грундирование (visual grounding) является ключевой задачей в области компьютерного зрения, целью которой является точная локализация объектов в изображении на основе текстовых описаний. Одним из наиболее важных предметов в этой области является referring image segmentation (RIS), который заключается в выделении регионов на изображении, соответствующих заданному текстовому запросу. Также существует задача referring expression comprehension (REC), которая связана с определением и локализацией объекта на основе естественного языка. Однако, существующие методы грундирования сталкиваются с значительными проблемами, связанными со сложностью представления текстовых описаний в виде единственного вектора. Обычно, в текстовом описании могут быть представлены различные атрибуты объекта, такие как цвет, размер, положение, которые могут быть интерпретированы по-разному в зависимости от контекста. Недостаточность информации в текстовом входе может приводить к неточной идентификации объектов, особенно когда изображение содержит несколько похожих объектов. Кроме того, в реальных сценариях объекты могут быть описаны несколькими способами, включая различные атрибуты и отношения. Традиционные методы, основанные на единственной текстовой входной последовательности, не в состоянии полностью использовать эту разнообразную информацию. Это приводит к недостаточно точному определению объекта, особенно когда другие объекты на изображении имеют похожие характеристики. Предлагаемый метод предназначен для решения этой проблематики, используя множественные латентные (скрытые) выражения, созданные на основе одного текстового входа. Эти выражения должны содержать дополнительную информацию о визуальных признаках объекта, которые могут быть отсутствующими в оригинальном текстовом описании. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод представляет собой новый подход к задаче referring image segmentation (RIS) и referring expression comprehension (REC), основанный на генерации множественных латентных выражений из единственного текстового входа. Основная идея метода состоит в том, чтобы использовать дополнительную информацию из визуального пространства для улучшения точности грундирования. Для достижения этой цели, авторы предлагают два ключевых модуля: **Subject Distributor** и **Visual Concept Injector**. Модуль **Subject Distributor** отвечает за распределение информации об общих атрибутах объекта (например, общие признаки, которые могут быть присущи нескольким объектам), тогда как **Visual Concept Injector** добавляет уникальные визуальные признаки, которые помогают отличить конкретный объект от других. Метод также включает в себя **positive-margin contrastive learning**, который помогает выравнивать латентные выражения с оригинальным текстовым входом, сохраняя при этом тонкие различия между ними. Это позволяет модели учитывать не только общие атрибуты, но и уникальные характеристики объекта, что повышает точность грундирования. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на нескольких бенчмарках, включая стандартные датасеты для RIS и REC. Результаты показывают, что предлагаемый метод достигает высоких показателей точности по сравнению со стандартными методами. Особенно выделяется улучшение результатов на задаче generalized referring expression segmentation (GRES), где метод показывает значительные природы в точности. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет высокий потенциал для применения в реальных системах компьютерного зрения, где точная идентификация объектов играет важную роль. Например, это может быть полезно в областях автоматического текстового поиска объектов на изображениях, в системах автоматического теггирования изображений, а также в задачах компьютерного зрения, связанных с безопасностью и мониторингом. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод для задач referring image segmentation и referring expression comprehension, который использует генерацию множественных латентных выражений для улучшения точности локализации объектов. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности метода, в том числе через оптимизацию модулей и использование более крупных датасетов для обучения.

Annotation:

Visual grounding tasks, such as referring image segmentation (RIS) and referring expression comprehension (REC), aim to localize a target object based on a given textual description. The target object in an image can be described in multiple ways, reflecting diverse attributes such as color, position, and more. However, most existing methods rely on a single textual input, which captures only a fraction of the rich information available in the visual domain. This mismatch between rich visual det...

ID: 2508.05123v1 cs.CV, cs.AI

arXiv PDF

📄 Attention Basin: Why Contextual Position Matters in Large Language Models

2025-08-09

Авторы:

Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом в области обработки естественного языка, но их производительность чувствительна к контексту и структуре входных данных. Одной из ключевых проблем является позиционная зависимость, когда информация, расположенная в определённых позициях ввода, получает непропорциональное внимание модели. Это может приводить к неоптимальному использованию критически важной информации, особенно в таких задачах, как многошаговая обработка вопросов (multi-hop QA) и обучение с примерами (few-shot in-context learning). Существующие исследования показали, что LLMs часто предпочитают обрабатывать информацию, расположенную в начале или конце последовательности, игнорируя средние элементы. Такая позиционная асимметрия, называемая в работе "attention basin", может значительно влиять на эффективность моделей. Однако механизмы этой явлености и стратегии её коррекции до сих пор не были полностью изучены. Мотивацией данного исследования является необходимость понимания того, как контекстуальная позиция влияет на внимание LLMs, и разработка практических методов для оптимизации этого процесса. Целью является улучшение производительности моделей без изменения их архитектуры или параметров. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Attention-Driven Reranking (AttnRank), который направлен на коррекцию позиционной зависимости LLMs. Метод состоит из двух этапов: 1. **Оценка позиционного внимания**: Используется небольшой калибровочный набор данных для определения внутренних предпочтений модели по вниманию к различным позициям в последовательности. 2. **Реранжирование входных данных**: На основе полученных данных производится перестановка элементов (например, документов или примеров) таким образом, чтобы критически важная информация была расположена в позициях с высоким вниманием модели. AttnRank является модельно-агностичным, не требует дополнительного обучения и может быть легко интегрирован в существующие системы. Он предлагает минимальный вычислительный оверхед и подходит для различных архитектур LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух задачах: многошаговой обработке вопросов (multi-hop QA) и обучении с примерами (few-shot in-context learning). Для экспериментов были использованы данные из различных доменов, включая текстовые корпуса и веб-документы. Результаты показали, что AttnRank значительно улучшает производительность моделей на различных архитектурах и масштабах LLMs. Улучшения были зафиксированы на 10 различных моделях, включая облачные и локальные варианты. Метод не требовал изменения параметров моделей, что делает его высокопрактичным. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AttnRank имеет широкое применение в областях, где критическая информация должна быть эффективно обработана LLMs. Это включает задачи вопросов и ответов, извлечения информации, и автоматическое обобщение текста. Преимущества метода включают в себя простоту интеграции, низкий вычислительный затраты и совместимость с различными моделями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Работа демонстрирует важность контекстуальной позиции в обработке информации LLMs и предлагает эффективный метод для её коррекции. Будущие исследования могут фокусироваться на дальнейшем улучшении AttnRank, включая адаптацию для других типов задач и моделей. Также предлагается исследовать влияние других факторов, таких как длина последовательности и тип входных данных, на эффективность метода.

Annotation:

The performance of Large Language Models (LLMs) is significantly sensitive to the contextual position of information in the input. To investigate the mechanism behind this positional bias, our extensive experiments reveal a consistent phenomenon we term the attention basin: when presented with a sequence of structured items (e.g., retrieved documents or few-shot examples), models systematically assign higher attention to the items at the beginning and end of the sequence, while neglecting those ...

ID: 2508.05128v1 cs.CL, cs.AI

arXiv PDF

📄 Towards Assessing Medical Ethics from Knowledge to Practice

2025-08-09

Авторы:

Chang Hong, Minghao Wu, Qingying Xiao, Yuchi Wang, Xiang Wan, Guangjun Yu, Benyou Wang, Yan Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие технологий на базе ИИ, в том числе больших языковых моделей (Large Language Models, LLMs), приводит к их все более широкому использованию в сфере здравоохранения. Однако эти технологии не всегда отвечают высоким стандартам этического решения, что является критическим фактором для их применения в реальной медицинской практике. Традиционные методы оценки LLMs часто не учитывают их способность применять этические принципы в динамических и сложных клинических сценариях. Тем не менее, в медицине широко применяется подход Principlism, основанный на четырех фундаментальных принципах: Благотворность (Beneficence), Невредность (Nonmaleficence), Автономность (Autonomy) и Справедливость (Justice). Эти принципы лежат в основе этических решений, однако существующие бенчмарки не дают достаточно полного представления о том, насколько хорошо LLMs могут применять эти принципы в практических ситуациях. Недостаточность инструментов для оценки этического поведения LLMs создает риск их неправильного использования, что может привести к неэтичным решениям в клинической практике. Таким образом, необходимо разработать комплексную систему оценки, которая позволит диагностировать слабые стороны LLMs в этическом рассуждении и поможет создавать более ответственные и эффективные медицинские ИИ-системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представили PrinciplismQA, комплексный бенчмарк, состоящий из 3 648 вопросов, специально разработанных для оценки выраженности этических принципов в LLMs. Бенчмарк основан на четырёх ключевых принципах Principlism и включает два типа вопросов: многоВыборные, созданные на основе авторитетных учебников по медицинской этике, и открытые вопросы, основанные на кейс-стадиях из медицинской литературы. Вопросы были проверены и валидированы медицинскими экспертами, обеспечивая высокий уровень качества и релевантность данных. Каждый вопрос оценивает, насколько хорошо LLM понимает и применяет конкретный этический принцип в заданном сценарии. PrinciplismQA также включает в себя сценарии, требующие балансировки между принципами, что позволяет выявить сложности в применении LLMs в реальных клинических ситуациях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов было проанализировано поведение различных LLMs, включая как открытые, так и закрытые модели. Результаты показали значительную проблему в применении принципа Благотворности, где многие модели страдают от перекоса в пользу других принципов, таких как Справедливость или Автономность. Закрытые модели с высокими общими способностями демонстрируют лучшие результаты на бенчмарке, но даже они сталкиваются с трудностями в динамическом применении этических принципов. Исследование также показало, что fine-tuning моделей на медицинских данных может улучшить их этическую компетентность, но для достижения балансированного и надежного решения требуется более глубокая интеграция медицинского этического знания. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PrinciplismQA предлагает практический инструмент для диагностики и улучшения этического поведения LLMs в медицинской практике. Он может быть использован для оценки новых моделей, а также для идентификации слабых мест в существующих системах. Это может помочь разработчикам создавать более ответственные и эффективные медицинские ИИ-системы, которые будут лучше адаптированы к реальным клиническим сценариям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PrinciplismQA является важной шагом в направлении создания более этически ответственных медицинских ИИ-систем. Он выявляет ключевые проблемы в применении этических принципов LLMs и предлагает структурированный подход к их решению. Будущие исследования могут фокусироваться на улучшении fine-tuning методов и разработке новых бенчмарков для оценки этических способностей LLMs в других областях прикладного использования.

Annotation:

The integration of large language models into healthcare necessitates a rigorous evaluation of their ethical reasoning, an area current benchmarks often overlook. We introduce PrinciplismQA, a comprehensive benchmark with 3,648 questions designed to systematically assess LLMs' alignment with core medical ethics. Grounded in Principlism, our benchmark features a high-quality dataset. This includes multiple-choice questions curated from authoritative textbooks and open-ended questions sourced from...

ID: 2508.05132v1 cs.CL, cs.AI

arXiv PDF

📄 FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

2025-08-09

Авторы:

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen, Mattijs Elschot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Сегментирование органов на медицинских изображениях является краеугольным элементом современной диагностики, планирования хирургических вмешательств и мониторинга лечения. Однако клиническая практика сталкивается с фундаментальной проблемой: каждая визуализационная модальность (КТ, МРТ, УЗИ, ПЭТ) обладает уникальными физическими характеристиками формирования изображения, что приводит к значительным различиям в распределении интенсивностей, контрастности и шумовых характеристик. Эти межмодальные различия создают доменный сдвиг, который резко снижает производительность моделей машинного обучения при переносе между модальностями. Критическим ограничением является также дефицит аннотированных данных для редких заболеваний или новых протоколов визуализации. Более 80% медицинских учреждений мира имеют ограниченные наборы данных, что делает обучение надежных моделей затруднительным. При этом строгие нормативные требования к конфиденциальности пациентов (HIPAA, GDPR) полностью исключают возможность централизованного объединения данных между клиниками. Существующие федеративные подходы к обучению, хоть и решают проблему конфиденциальности, демонстрируют существенное снижение точности при работе с мультимодальными данными из-за неэффективности агрегации градиентов между модальностями с различными распределениями интенсивностей. Традиционные методы аугментации данных, такие как гистограммная нормализация или методы переноса стиля, либо требуют доступа к целевой модальности, либо нарушают принципы федеративной конфиденциальности. ## ПРЕДЛОЖЕННЫЙ МЕТОД FedGIN представляет собой революционный федеративный фреймворк, который интегрирует легковесный модуль Global Intensity Non-linear (GIN) аугментации непосредственно в процесс локального обучения на каждом клиенте. Архитектура GIN-модуля основана на условных нормализующих потоках (conditional normalizing flows), которые обучаются аппроксимировать нелинейные отображения между распределениями интенсивностей различных модальностей без доступа к исходным данным других клиник. Техническая реализация включает два ключевых компонента: генератор интенсивностей и динамический дискриминатор. Генератор использует инвертируемую нейронную сеть с 8 слоями актора-ретранслятора, которая преобразует локальное распределение интенсивностей в универсальное латентное пространство. Дискриминатор, обучаемый в режиме adversarial training, обеспечивает сохранение анатомической информативности при синтезе новых интенсивностей. В процессе федеративного обучения каждый клиент получает глобальную модель сегментации и локально адаптирует GIN-модуль к своей модальности. Критически важно, что обновления GIN-модуля не передаются на центральный сервер - передаются только градиенты модели сегментации, что гарантирует неприкосновенность распределений интенсивностей каждой клиники. Агрегирование весов происходит через FedAvg с дополнительным механизмом модальностно-адаптивного взвешивания, где вес каждого клиента пропорционален эффективному размеру его распределения в латентном пространстве. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух типах датасетов: ограниченном (limited) и полном (complete). Ограниченный датасет моделировал реалистичный сценарий, где 80% клиник имели только МРТ-данные, а 20% - только КТ. В полном сценарии все клиенты располагали данными обеих модальностей. Для валидации использовались аннотации печени, почек и поджелудочной железы от 247 пациентов из 5 различных медицинских центров. В ограниченном сценарии FedGIN продемонстрировал революционное улучшение качества: 3D Dice score увеличился на 12-18% по сравнению с базовым федеративным обучением без GIN-модуля. Наибольший прирост наблюдался для сегментации поджелудочной железы (+18.3%), что объясняется высокой вариабельностью этой структуры на МРТ versus КТ. Локальные модели, обученные только на МРТ, показали Dice score 0.742, в то время как FedGIN достиг 0.876 при том же объеме данных. В полном сценарии FedGIN приблизился к производительности идеального centralized обучения,

Annotation:

Medical image segmentation plays a crucial role in AI-assisted diagnostics, surgical planning, and treatment monitoring. Accurate and robust segmentation models are essential for enabling reliable, data-driven clinical decision making across diverse imaging modalities. Given the inherent variability in image characteristics across modalities, developing a unified model capable of generalizing effectively to multiple modalities would be highly beneficial. This model could streamline clinical work...

ID: 2508.05137v1 cs.CV, cs.AI

arXiv PDF

📄 Graph-based Event Log Repair

2025-08-09

Авторы:

Sebastiano Dissegna, Chiara Di Francescomarino, Massimiliano Ronzani

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной цифровой экономике горизонтальное и вертикальное внедрение систем Process Mining (PM) сталкивается с фундаментальной проблемой качества исходных данных. Исследования показывают, что до 80 % времени аналитиков тратится не на построение инсайтов, а на «очистку» логов событий, в которых отсутствуют критически важные атрибуты: названия активности, временные метки, исполнители, ресурсы или произвольные атрибуты контекста. Причины пропусков многообразны: ручной ввод, ошибки интеграционных шлюзов, неполное покрытие инструментами мониторинга, офлайн-выполнение операций и даже сознательное «сокрытие» данных из соображений приватности. Классические решения делятся на две категории. Первая опирается на априорную модель процесса (DFG, BPMN, Petri-net), по которой с помощью alignments или conformance checking восстанавливаются пропущенные события. Однако такие подходы требуют, чтобы модель была заранее построена, корректна и покрывала все варианты поведения, что в больших и быстро изменяющихся процессах невозможно. Вторая категория использует методы машинного обучения (RNN, LSTM, Transformer), но представляет трассу как линейную последовательность, теряя богатую структуру связей между событиями, ресурсами и атрибутами. Более того, большинство DL-моделей решают частные задачи: восстанавливают только активность или только временную метку, не позволяя «заполнить» трассу полностью. В статье ставится цель разработать единый метод, который: а) не требует предварительной модели процесса; б) эффективно работает при одновременном отсутствии множества атрибутов; в) учитывает не только порядок событий, но и их многоуровневую семантику. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают модель **HGNN-Repair**, основанную на Heterogeneous Graph Neural Network. Ключевая идея — представить трассу как ориентированный гетерогенный граф G=(V,E,τ), где узлы V имеют типы τ из множества {event, attribute, resource, case, time}, а рёбра E отражают разнообразные отношения: «следует за», «принадлежит к», «выполняется ресурсом», «имеет значение» и тд. В отличие от однородных графов, такое представление позволяет сохранить полную структуру данных без упрощений. Архитектура состоит из трёх модулей. 1. **Graph Builder** преобразует XML/CSV-лог в граф: для каждого события создаётся узел event; для каждого уникального значения атрибута — узел attribute; для каждого исполнителя — узел resource; дополнительно узлы case и time обеспечивают контекст. Рёбра типизированы и взвешены (например, вес перехода «event i → event i+1» = 1, вес связи «event → attribute: cost» = 0.9). 2. **Heterogeneous GraphSAGE Encoder** применяет агрегацию по соседям разных типов через итеративное message passing. Для каждого типа узла используется отдельная нейронная сеть-агрегатор, что позволяет учитывать семантику связей. Чтобы справиться с пропусками, в граф добавляются «пустые» узлы типа «missing», которые затем маскируются. 3. **Multi-Head Decoder** генерирует значения для всех отсутствующих атрибутов одновременно: MLP-декодер для категориальных признаков (softmax), отдельная MLP-ветвь для непрерывных (ReLU + нормализация) и кросс-энтропийная/MAE-функция потерь. Тренировка проводится в режиме self-supervision: случайным образом маскируются 10–40 % атрибутов, модель учится восстанавливать. Дополнительно введена «контрастная» потеря, которая штрафует модель, если восстановленное событие нарушает общие статистики лога (например, частоту активностей или распределение времени выполнения). Это снижает вероятность «фантастических» значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Бенчмарк охватывает 2 синтетических и 4 реальных лога: BPI Challenge 2012, 2017, 2019 и Road-Traffic-Fine. Синтетические логи (MXML-Synth и PLG-Synth) сгенерированы моделями с известным ground truth, что позволяет точно оценить восстановление. Для каждого лога моделировались три сценария пропусков: MCAR (случайные), MAR (зависящие от контекста) и MNAR (информативные, когда пропущена

Annotation:

The quality of event logs in Process Mining is crucial when applying any form of analysis to them. In real-world event logs, the acquisition of data can be non-trivial (e.g., due to the execution of manual activities and related manual recording or to issues in collecting, for each event, all its attributes), and often may end up with events recorded with some missing information. Standard approaches to the problem of trace (or log) reconstruction either require the availability of a process mod...

ID: 2508.05145v1 cs.AI

arXiv PDF

1
2
3381
3382
3383
3384
3385
3402
3403

Показано 33821 - 33830 из 34022 записей