📚 Саммари научных статей из arXiv

Найдено 14827 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities

2025-08-13

Авторы:

Anindya Bijoy Das, Shahnewaz Karim Sakib, Shibbir Ahmed

## Контекст Модели языка (LLMs) в настоящее время применяются в различных медицинских областях, включая анализ изображений и генерацию синтетических изображений. Однако они часто создают "халлуцинации", то есть выдают уверенные, но неверные ответы, которые могут привести к ошибкам в клинических решениях. Это затрудняет доверие к таким системам в клинической практике. В нашем исследовании мы экспериментально рассматриваем две стороны LLM применения в медицинских изображениях: интерпретацию изображений (image-to-text) и генерацию изображений (text-to-image). Наша мотивация заключается в изучении ошибок, таких как фактические несоответствия и анатомические неточности, и в оценке качества вывода моделей с помощью критериев, разработанных экспертами. Таким образом, мы нацелены на улучшение надежности и безопасности LLM-движений в области медицинской импровизации. ## Метод Мы использовали две основные методики для подробного изучения "халлуцинаций" в LLM-движениях. В первой, интерпретация изображений, мы использовали ряд синтетических и реальных медицинских изображений (X-ray, CT, MRI) и сравнили выводы моделей с экспертной оценкой. Во второй, генерация изображений, мы выдавали моделям клинические задачи и анализировали генерируемые изображения в сравнении с исходными клиническими данными. Для оценки качества мы использовали критерии, основанные на знаниях экспертов. Наши методы учитывают различные аспекты, включая тип модели, тип изображения и характер ошибок. Эта кросс-модальная оценка позволяет краткосрочно проанализировать и выявить типичные модели халлуцинаций, а также помочь сформировать рекомендации для улучшения медицинских LLM-систем. ## Результаты Мы провели эксперименты с несколькими моделями LLM, включая общего назначения и медицинские конкретные. Наши результаты показали, что модели часто создают фактические ошибки и анатомические неточности, даже когда выводы выглядят уверенными. Например, в интерпретации изображений, модели часто забывали упомянуть ключевые детали, а в генерации изображений, создавали неточные структуры. Ошибки различались в зависимости от типа изображения и модели. Мы также выявили зависимость ошибок от размера модели, а также от характера обучающих данных. Наши результаты подтверждают, что халлуцинации являются такими же распространенными в интерпретации, как и в генерации, и что они могут привести к серьезным последствиям в клинической практике. ## Значимость Наши результаты имеют важное значение для разных сфер применения. Мы показали, что "халлуцина

Annotation:

Large Language Models (LLMs) are increasingly applied to medical imaging tasks, including image interpretation and synthetic image generation. However, these models often produce hallucinations, which are confident but incorrect outputs that can mislead clinical decisions. This study examines hallucinations in two directions: image to text, where LLMs generate reports from X-ray, CT, or MRI scans, and text to image, where models create medical images from clinical prompts. We analyze errors such...

ID: 2508.07031v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Balancing Privacy and Efficiency: Music Information Retrieval via Additive Homomorphic Encryption

2025-08-13

Авторы:

William Zerong Wang, Dongfang Zhao

#### Контекст В эпоху развития умственных технологий, таких как генерирующая AI, возникают уникальные проблемы с защитой конфиденциальности музыкальных данных. Музыка, в отличие от статичных искусств, таких как изображения, является временной и мультимодальной сущностью. Она изменяется, цифровой воспроизведением и перемешиванием на масштабе, без прецедента. Такие характеристики делают векторные представления музыкальных файлов (embeddings) особенно уязвимыми для несанкционированного изучения, неправомерного использования или кражи без непосредственного доступа к оригинальным аудиофайлам. Традиционные методы, такие как авторское право или цифровые водяные засечки, обеспечивают только ограниченную защиту этих абстрактных математических представлений. Необходима защита на более высоком уровне, например, криптографической. Однако шифрование, например AES, творит данные нечитаемыми для вычислений, что ставит под угрозу практическую возможность поиска и анализа. Хотя Fully Homomorphic Encryption (FHE) обеспечивает вычисления над зашифрованными данными, его высокая стоимость вычислительных ресурсов сделала его неприменимым для больших масштабных поисков векторных сходств. #### Метод Чтобы решить эти проблемы, мы предлагаем использовать Additive Homomorphic Encryption (AHE) для поиска векторных сходств в системах информационного восприятия музыки. AHE позволяет выполнять операции сложения над зашифрованными данными без расшифровки. Мы анализировали угрозы, специфичные для систем информационного восприятия музыки, и предложили эффективную стратегию для решения проблемы внутренних произведений музыкальных векторов, позволяющую выполнять правильные поисковые запросы на сходство, сохраняя при этом конфиденциальность данных. Разработанная архитектура включает оптимизированные методы для оценки внутренних произведений на зашифрованных данных, используя AHE. Эта стратегия обеспечивает баланс между защитой конфиденциальности и вычислительной эффективностью. #### Результаты Мы проводили эксперименты с реальными данными в формате MP3, сравнивая нашу реализацию AHE с существующими FHE-решениями. Результаты показали, что наш подход обеспечивает более высокую производительность в поиске векторных сходств, сохраняя при этом конфиденциальность данных. Особенно выдающимися оказались результаты в сравнении с FHE-решениями, где AHE показала значительно низкий ввод и вывод времени, благодаря его более эффективной структуре вычислений. Эти результаты доказывают применимость AHE для решения задач информационного восприятия музыки, обеспечивая защиту конфид

Annotation:

In the era of generative AI, ensuring the privacy of music data presents unique challenges: unlike static artworks such as images, music data is inherently temporal and multimodal, and it is sampled, transformed, and remixed at an unprecedented scale. These characteristics make its core vector embeddings, i.e, the numerical representations of the music, highly susceptible to being learned, misused, or even stolen by models without accessing the original audio files. Traditional methods like copy...

ID: 2508.07044v1 cs.DB, cs.AI, cs.CR

arXiv PDF

📄 Whisfusion: Parallel ASR Decoding via a Diffusion Transformer

2025-08-13

Авторы:

Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Nam-Joon Kim, Jangchan Kim, Hyun Gon Ryu, Hyuk-Jae Lee

## Контекст Поиск эффективных решений для автоматического распознавания речи (ASR) является ключевым заданием в современной технике, особенно в задачах необходимости реального времени, таких как реального времени генерации субтитров и транскрибирования мероприятий. Несмотря на прогресс в этой области, существуют серьезные вызовы, связанные с тем, чтобы достичь низкой задержки и высокой точности в реальном времени. Традиционные последовательные авторегрессионные (AR) декодеры часто сталкиваются с проблемой задержек из-за того, что каждый токен генерируется последовательно. Неавторегрессионные (NAR) методы, с другой стороны, снимают эту задержку но не всегда обеспечивают высокую точность. Этот контекст поднимает вопрос о создании архитектур, которые объединяют выгоды архитектур AR и NAR для решения задачи ASR. ## Метод Whisfusion представляет собой инновационный подход к решению этой проблемы, объединяя предварительно обученный Whisper-encoder (текстовой модели) с диффузионным декодером (для генерации речи). Диффузионный подход отличается тем, что он предполагает работу с всем акустическим контекстом одновременно в каждом шаге декодирования, что позволяет решить проблему задержек, связанных с AR-декодерами. Для улучшения понимания между двумя моделями (текстовой и звуковой) в Whisfusion введена лёгкая сеть cross-attention adapter, которая позволяет эффективно изменять репрезентации данных. Также введена новая стратегия многошагового декодирования, которая позволяет увеличить число кандидатов для поиска токена, увеличивая точность без существенного влияния на скорость работы. ## Результаты Для оценки эффективности Whisfusion проводились эксперименты с использованием данных из набора LibriSpeech (960 часов). Это позволило сравнить результаты с другими моделями, включая Whisper-tiny. Результаты показали, что Whisfusion достигает ниже среднего Word Error Rate (WER) в сравнении с Whisper-tiny (8.3% vs. 9.7%), при этом сохраняя почти одинаковую задержку для коротких аудиофрагментов. Особенно заметное преимущество Whisfusion проявляется при работе с длинными аудиозаписями, где оно значительно ускоряется по сравнению с AR-декодерами, достигая до 2.6x быстрее. Эти результаты показывают, что Whisfusion может стать эффективной альтернативой для решения задач ASR в сценариях с длинными аудио. ## Значимость Whisfusion открывает новые перспективы для ASR-систем, особенно в области реального времени, где необходима высокая скорость и точность. Он может быть применен в различных сферах, включая реального времени генерацию субтитров, транскрибирование мероприятий и устройства с низким потреблением ресурсов

Annotation:

Fast Automatic Speech Recognition (ASR) is critical for latency-sensitive applications such as real-time captioning and meeting transcription. However, truly parallel ASR decoding remains challenging due to the sequential nature of autoregressive (AR) decoders and the context limitations of non-autoregressive (NAR) methods. While modern ASR encoders can process up to 30 seconds of audio at once, AR decoders still generate tokens sequentially, creating a latency bottleneck. We propose Whisfusion,...

ID: 2508.07048v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

2025-08-13

Авторы:

Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou

## Контекст Поиск и сортировка актуальной информации является важной задачей в различных областях, от поисковых систем до рекомендательных систем. Несмотря на успех глубоко обученных моделей, проблемы с недостаточной силой логического моделирования и ограниченным доступом к качественному обучающему данным существуют. Эти проблемы сказываются на качестве результатов поиска, особенно при работе с сложными запросами. Обеспечение сильной логической модели и создание методологии, позволяющей улучшить качество рейтинга, являются целями этого исследования. ## Метод Разработана модель ReasonRank, которая использует широкомасштабное моделирование слов с помощью Large Language Models (LLM) для выполнения рейтинга. Для повышения модели силами логического моделирования, разработана методика автоматического синтеза тренировочных данных на основе DeepSeek-R. Данные подвергаются фильтрации с помощью системы самоконсистентности, чтобы обеспечить их качество. Далее, применена последовательная постобучениевая методика. В первой стадии используется супервизированное тренирование для выделения шаблонов успешного логического моделирования. Во второй стадии применяется развитие модели через глубокое обучение с подкреплением (RL), где используется многообзорная оценка результатов для повышения рейтинга. ## Результаты Реализованная модель протестирована на нескольких наборах данных, в том числе BRIGHT. Эксперименты показали, что ReasonRank превосходит существующие модели по метрикам качества рейтинга. На BRIGHT leaderboard ReasonRank достиг рекордного результата 40.6, показав значительное превосходство по сравнению с другими решениями. Благодаря использованию многообзорной оценки, модель достигла лучшего баланса между точностью и скоростью работы. ## Значимость Предложенная модель ReasonRank устанавливает новый стандарт в области развития логического моделирования в пассаж-рейтинге. Она применима не только в поисковых системах, но и в рекомендательных системах, во временной динамике. Модель отличается низкой задержкой, что делает её привлекательной для реального времени. Будущие исследования будут фокусированы на расширении модели для более сложных сценариев и улучшении её универсальности для различных приложений.

Annotation:

Large Language Model (LLM) based listwise ranking has shown superior performance in many passage ranking tasks. With the development of Large Reasoning Models, many studies have demonstrated that step-by-step reasoning during test-time helps improve listwise ranking performance. However, due to the scarcity of reasoning-intensive training data, existing rerankers perform poorly in many complex ranking scenarios and the ranking ability of reasoning-intensive rerankers remains largely underdevelop...

ID: 2508.07050v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Membership and Memorization in LLM Knowledge Distillation

2025-08-13

Авторы:

Ziqi Zhang, Ali Shahin Shamsabadi, Hanxiao Lu, Yifeng Cai, Hamed Haddadi

#### Контекст В последние годы Large Language Models (LLMs) стали важной частью области машинного обучения, предлагая мощные средства для решения различных задач. Однако их высокая вычислительная сложность и потребление ресурсов ограничивают их применение, особенно на устройствах с ограниченными мощностями. Knowledge Distillation (KD), метод передачи знаний от "большого" мастера к "маленькому" ученику, представляется как эффективное решение для уменьшения требований к вычислительным мощностям. Однако существуют озабоченности по поводу того, что ученики могут приобрести не только знания, но и чувствительные данные знатока. Это особенно актуально, когда LLMs обучаются на частных или конфиденциальных данных. В данном исследовании мы рассмотрим, насколько эти риски восприимчивости присутствуют в различных методах знаний KD для LLMs, и оценим, насколько эти риски могут влиять на защиту персональной информации. #### Метод Мы рассмотрим шесть методов KD для LLMs, рассматривая их настройки инструкций, семь задач естественного языка, три семьи знатоков (GPT-2, LLAMA-2, OPT) и различные модели учеников. Для измерения чувствительности мы используем метрики, относящиеся к членству и запоминанию, которые позволяют определить, в какой степени модель ученика содержит чувствительную информацию из обучающих данных знатока. Мы также рассмотрим, как функции KD-объектива, данные для тренировки учеников и тип задач NLP влияют на эти чувствительности. Будет осуществляться тщательный анализ, показывая как зависимость чувствительности от конкретных моделей, так и различия в чувствительности между разными блоками модели ученика. #### Результаты Мы выявили, что все исследуемые методы KD передают чувствительность от знатока к ученику, но степень этого влияния различна. Например, риски членства и запоминания могут быть вызваны различными сторонами KD-стратегии, такими как функции KD-объектива, данные для тренировки учеников и типы задач NLP. Мы обнаружили, что некоторые методы KD приводят к более высокой чувствительности для каких-то задач, но не для других, что подчеркивает существующую неоднородность в рисках. Также, мы отметили, что чувствительность может различаться в разных блоках модели ученика, что может отразиться на ее общей производительности и безопасности. #### Значимость Наши результаты имеют значимость в различных областях, где защита чувствительной информации является ключевой проблемой. Мы показали, что существует возможность защиты чувствительных данных в процессе KD, что может иметь значительное значение для приложений в сферах здравоохранения, финансов и юриспруденции

Annotation:

Recent advances in Knowledge Distillation (KD) aim to mitigate the high computational demands of Large Language Models (LLMs) by transferring knowledge from a large ''teacher'' to a smaller ''student'' model. However, students may inherit the teacher's privacy when the teacher is trained on private data. In this work, we systematically characterize and investigate membership and memorization privacy risks inherent in six LLM KD techniques. Using instruction-tuning settings that span seven NLP ta...

ID: 2508.07054v1 cs.LG, cs.AI

arXiv PDF

📄 Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach

2025-08-13

Авторы:

Naseem Machlovi, Maryam Saleki, Innocent Ababio, Ruhul Amin

#### Контекст Современные AI-системы вошли во многие аспекты нашего ежедневного быта, в том числе системы модерации контента. Несмотря на невероятные возможности Ланжуажных Моделей Модерации (LLM), они недостаточно эффективны в обнаружении субъективных и контекст-зависимых проблем, таких как откровенное злоупотребление языком, гендерные и расовые предрассудки. Эти недостатки могут привести к возникновению критических рисков в широком кругу приложений. Необходимо новые подходы, которые станим действительно эффективными в поддержке безопасности и интеллектуального потенциала системы. #### Метод Мы разработали SOTA-фреймворк, включающий 49 категорий эмоций, злословий и биас-текстов. Для этого был оптимизирован модельный характер Phi-4 с помощью QLoRA. Этот подход позволил значительно улучшить эмоциональное понимание и уменьшить биазы в модели. Мы провели значительные эксперименты, проверяя модель на соответствии созданным тестам. Затем был разработан SafePhi, демонстрирующий совершенно новый уровень точности в обнаружении злоупотреблений языком. #### Результаты В результате наших экспериментов, модель SafePhi достигла макро-F1-плавающего среднего 0.89. Это выше, чем OpenAI Moderator (0.77) и Llama Guard (0.74). Мы проанализировали результаты на отдельных категориях, выявив слабые места LLM-моделей, такие как отсутствие четкого понимания относительно гендерных и расовых стереотипов. Это позволило определить ключевые направления для дальнейших улучшений. #### Значимость Наша модель SafePhi может применяться в различных областях, таких как модерация социальных сетей, финансовые платформы, новые формы технического обучения. Значительное преимущество SafePhi заключается в более глубоком понимании контекста, лучшем обнаружении гендерных и расовых биаз, что позволяет значительно повысить безопасность и эффективность AI-систем. #### Выводы Полученные результаты подтверждают значительные потенциалы LLM-систем в области модерации, но также выделяют необходимость улучшения моделей для широкого использования. Наша модель SafePhi открывает путь к более эффективной и безопасной модерации, при этом рекомендуется дальнейший использование трансформативной процедуры, включающую Human-in-the-Loop и более широкомасштабные данные, для более точного и универсального понимания субъективных и контекст-зависимых проблем.

Annotation:

As AI systems become more integrated into daily life, the need for safer and more reliable moderation has never been greater. Large Language Models (LLMs) have demonstrated remarkable capabilities, surpassing earlier models in complexity and performance. Their evaluation across diverse tasks has consistently showcased their potential, enabling the development of adaptive and personalized agents. However, despite these advancements, LLMs remain prone to errors, particularly in areas requiring nua...

ID: 2508.07063v1 cs.AI

arXiv PDF

📄 SEADialogues: A Multilingual Culturally Grounded Multi-turn Dialogue Dataset on Southeast Asian Languages

2025-08-13

Авторы:

Muhammad Dehan Al Kautsar, Aswin Candra, Muhammad Alif Al Hakim, Maxalmina Satria Kahfi, Fajri Koto, Alham Fikri Aji, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Genta Indra Winata

## Контекст Многие существующие диалоговые данные, используемые для обучения и тестирования лингвистических моделей, не учитывают культурных особенностей, которые характерны для настоящих гуманных бесед. Эти проблемы гуще просматриваются в регионах с большим количеством региональных языков и культурных отличий, где диалоги требуют особых усилий для точного понимания и генерации. Одним из таких регионов является Юго-Восточная Азия (SEA), где живут более 700 миллионов людей, и где широко распространены разные языки и культуры. Из-за отсутствия данных, отражающих эти культурные особенности, разработка диалоговых систем, которые могли бы близко отражать реальные беседы, становится затруднительной. Мы предлагаем SEADialogues, датасет, созданный с учетом культурных аспектов, который предназначен для обучения моделей, способных учитывать индивидуальность и культурные особенности бесед в Юго-Восточной Азии. ## Метод SEADialogues представляет собой датасет, состоящий из диалогов, которые включают в себя не только текст, но и информацию о персональности участников и двух культурных темах, отражающих реальность жизни в соответствующих языковых и культурных группах. Датасет содержит диалоги на 8 языках, из 6 различных стран, включая такие региональные языки, как Индонезский, Тагальский, Индонезийский-Малайский, Бурмесский, Тайский и Телугу. Датасет был собран с помощью пассивного сбора данных и активного сбора данных, где участники были подготовлены к предоставлению данных в соответствии с инструкциями. Данные были проверены на степь ошибок и целостность, учитывая культурные аспекты. Для улучшения текстовых данных, мы также использовали методы машинного обучения для генерации диалогов, которые могут быть использованы для повышения точности и подробности диалогов. ## Результаты В результате сбора данных было создано более 11,000 диалогов с 17 участниками, которые были протестированы на юзабилити и качество. Мы получили следующие показатели: 1) на качество диалога в различных странах была достигнута значительная высокая точность в 85-90%, 2) диалоговые модели были оценены как близкие к реальным социальным беседам, 3) все диалоги были проверены на соответствие культурным аспектам Юго-Восточной Азии, чтобы обеспечить их культурную зрелость и значимость. Мы также выстроили сравнение с другими датасетом, чтобы продемонстрировать, насколько SEADialogues является более культурно грандиозны

Annotation:

Although numerous datasets have been developed to support dialogue systems, most existing chit-chat datasets overlook the cultural nuances inherent in natural human conversations. To address this gap, we introduce SEADialogues, a culturally grounded dialogue dataset centered on Southeast Asia, a region with over 700 million people and immense cultural diversity. Our dataset features dialogues in eight languages from six Southeast Asian countries, many of which are low-resource despite having siz...

ID: 2508.07069v1 cs.CL, cs.AI

arXiv PDF

📄 Surgical Knowledge Rewrite in Compact LLMs: An 'Unlearn-then-Learn' Strategy with ($IA^3$) for Localized Factual Modulation and Catastrophic Forgetting Mitigation

2025-08-13

Авторы:

Stanley Ngugi

#### Контекст Проблема динамического обновления знаний в больших языковых моделях (LLMs) широко изучается в связи с их статичностью в отношении обученной информации. Новые факты часто конфликтуют со стабилизированными внутренними представлениями, что приводит к проблемам устойчивости к изменениям и экстремальному забыванию существующих знаний. Эти проблемы требуют эффективных методов локализованного модифицирования знаний, чтобы сохранить преимущества модели и обеспечить безопасность при использовании. Наша исследовательская цель состоит в разработке и экспериментальной оценке стратегии "отказ от знаний — повторное обучение" с целью разграничения конфликтующих фактов и минимизации забывания непосредственно связанных знаний. #### Метод Мы предлагаем инновационную методологию, основанную на механистически направленном подходе к локализации внутренних структур модели, ответственных за кодирование конфликтующих фактов. Это реализовано с помощью подхода $IA^3$ ($Infused Adapter by Inhibiting and Amplifying Inner Activations$), построенного на технологии parameter-efficient fine-tuning (PEFT). Метод работает на двух этапах: 1) локализация конфликтующих фактов внутри модели; 2) повторное обучение специфических слоёв модели с целью заменить старый факт на новый. Эта локализованная методика выступает в качестве инструмента безопасного и контролируемого обновления знаний в LLMs. #### Результаты Мы проводили эксперименты на модели microsoft/Phi-3-mini-4k-instruct. Результаты показали, что новая стратегия достигла близкого к идеальному успеха в замене конфликтующих фактов (98.50% точности нового факта), при этом эффективно признаковая модель старые факты (96.00% forget rate). Отметим, что наш подход обеспечил неоднозначную интерпретируемость, позволяющую безопасно и контролируемо обновлять знания. Это продемонстрировано через увеличение аккуратности (F_control accuracy) до 72.00%, что значительно превосходит другие подходы (которые, например, останавливаются на ~20%). Таким образом, мы устанавливаем новый стандарт в области локализованного модифицирования знаний в LLMs. #### Значимость Наш подход открывает новые возможности для безопасного и эффективного обновления знаний в прикладных сценариях, таких как боты с чат-поддержкой, системы поддержки решений, интеллектуальные системы управления, где необходимо надежный и безопасный механизм обновления знаний. Особенно важно это для работ с конфиденциальными или защищёнными данными, где забывание посторонних фактов — критический аспект. Мы также отмечаем потенциал нашей стратеги

Annotation:

Large Language Models (LLMs) struggle with dynamic knowledge updates, especially when new information conflicts with deeply embedded facts. Such conflicting factual edits often lead to two critical issues: resistance to adopting the new fact and severe catastrophic forgetting of unrelated knowledge. This paper introduces and evaluates a novel "unlearn-then-learn" strategy for precise knowledge editing in LLMs, leveraging the parameter-efficient fine-tuning (PEFT) technique, Infused Adapter by In...

ID: 2508.07075v1 cs.LG, cs.AI

arXiv PDF

📄 Model Predictive Control for Crowd Navigation via Learning-Based Trajectory Prediction

2025-08-13

Авторы:

Mohamed Parvez Aslam, Bojan Derajic, Mohamed-Khalil Bouzidi, Sebastian Bernhard, Jan Oliver Ringert

## Контекст Самостоятельная навигация во время перемещения в условиях городских местностей, где существует высокое число пеших движущихся субъектов, является важной задачей для автономных роботов. Особенностью данной области является необходимость обеспечить безопасность поведения робота, а также максимальную эффективность в действиях. Однако возникает проблема оптимального предсказания движения пешеходов, которая может вызывать неточности в движении автономных систем. Из-за этого, развитие систем, основанных на моделировании и контроле, взаимодействующих с глубокой нейронной сетью, является ключевым направлением для решения этой проблемы. ## Метод В работе представлена интеграция модели Model Predictive Control (MPC) с предсказанием траекторий на основе глубокого обучения. Используется Social-Implicit (SI) model для оценки поведения пешеходов в различных условиях плотности. Таким образом, предыдущие технологии, например, Constant Velocity Model (CVM), используются как базовый метод для сравнения. Архитектура SI-MPC базируется на совместном применении нейронных сетей и MPC, чтобы отражать социальные особенности пешеходов в процессе планирования движения. Эта модель позволяет снизить неточности в предсказании движения и улучшить безопасность в условиях высокой плотности. ## Результаты Использовались данные с реальных тестов на физическом роботе Continental Corriere в различных условиях плотности. Результаты показали, что SI-MPC модель существенно улучшает точность предсказания траекторий пешеходов по сравнению с CVM в условиях низкой плотности - снижая ошибки на 76%. В условиях высокой плотности, SI-MPC демонстрирует более широкие и осторожные предсказания, что приводит к улучшению безопасности и гладкости движения. Эти результаты подтверждают преимущества данной модели в реальной среде. ## Значимость Модель SI-MPC может быть применена в различных сферах, включая поддержку автономных транспортных средств в городах, системы поддержки принятия решений в зонах пешеходного движения, а также в развитии безопасных протоколов для роботов в целом. Она обеспечивает более точное и безопасное предсказание траекторий, что может иметь важное значение в условиях сложных динамических сред. ## Выводы Результаты эксперимента показали, что SI-MPC модель является эффективным инструментом для безопасного и эффективного движения в условиях высокой плотности. На основе данных результатов, будущие работы будут сфокусированы на улучшении моделей предсказания и их интеграции с другими системами для достижения более высокой эффективности и надежности в автономной навигаци

Annotation:

Safe navigation in pedestrian-rich environments remains a key challenge for autonomous robots. This work evaluates the integration of a deep learning-based Social-Implicit (SI) pedestrian trajectory predictor within a Model Predictive Control (MPC) framework on the physical Continental Corriere robot. Tested across varied pedestrian densities, the SI-MPC system is compared to a traditional Constant Velocity (CV) model in both open-loop prediction and closed-loop navigation. Results show that SI ...

ID: 2508.07079v1 cs.RO, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 An Evolutionary Game-Theoretic Merging Decision-Making Considering Social Acceptance for Autonomous Driving

2025-08-13

Авторы:

Haolin Liu, Zijun Guo, Yanbo Chen, Jiaqi Chen, Huilong Yu, Junqiang Xi

#### Контекст Автоматизированная система управления транспортом становится все более важной в современном транспортном секторе. Одной из самых сложных задач для автономных транспортных средств (АТС) является решение проблемы автоматического вступления в основную полосу. Многие существующие алгоритмы оптимизации данной задачи проблематизируются тем, что не учитывают взаимодействие автомобиля с окружающим движением. Это приводит к неэффективным решениям, которые могут стать причиной небезопасности. Наша мотивация заключается в разработке методологии решения тонкой задачи комбинирования, учитывающей характеристики взаимодействия, социальную приемлемость и оптимальность. #### Метод Мы предлагаем развить инновационный подход, основанный на теории игр эволюционного типа (EGT). Алгоритм EGT формулируется с учетом баланса интересов между АТС и основными потоками движения (МВ). Мы разработали модель, которая динамически адаптируется к реакциям окружающих транспортных средств. Для решения задачи многоцелевой оптимизации используется динамическое уравнение репликатора (Replicator Dynamics). Это позволяет оптимизировать время вступления на основную полосу, учитывая эффективность, комфорт и безопасность. Также мы предлагаем алгоритм оценки стиля вождения в реальном времени, позволяющий адаптироваться к непредсказуемости окружающего движения. #### Результаты Мы проводим эксперимент на реальных данных, используя множество метрик, включая траектории движения и временные интервалы. Наши результаты показывают, что за счет учета взаимодействия и социальной приемлемости, наше решение превосходит классические алгоритмы. Мы можем улучшать эффективность, комфорт и безопасность взаимодействия АТС и МВ на порядок. Этот подход позволяет нам достичь нового уровня безопасности и эффективности на дорогах. #### Значимость Наш подход может быть применен в ситуациях, где необходимо оптимизировать взаимодействие автомобилей, например, на шоссе или в городских условиях. Этот метод может повысить уровень безопасности и удобства движения, а также способствовать развитию технологий автоматизации транспорта. Этот инновационный подход может стать основой для дальнейшего расширения систем управления транспортом. #### Выводы В результате нашего исследования мы разработали метод, который решает одну из сложных задач в области автоматизации транспорта, оптимизируя взаимодействие АТС и МВ. Мы надеемся, что эта работа станет одной из ступеней в развитии технологий авто

Annotation:

Highway on-ramp merging is of great challenge for autonomous vehicles (AVs), since they have to proactively interact with surrounding vehicles to enter the main road safely within limited time. However, existing decision-making algorithms fail to adequately address dynamic complexities and social acceptance of AVs, leading to suboptimal or unsafe merging decisions. To address this, we propose an evolutionary game-theoretic (EGT) merging decision-making framework, grounded in the bounded rational...

ID: 2508.07080v1 cs.RO, cs.AI

arXiv PDF

1
2
1395
1396
1397
1398
1399
1482
1483

Показано 13961 - 13970 из 14827 записей