📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Multi-Modal Multi-Behavior Sequential Recommendation with Conditional Diffusion-Based Feature Denoising

2025-08-09

Авторы:

Xiaoxi Cui, Weihai Lu, Yu Tong, Yiheng Li, Zhejun Zhao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Секвенциальные системы рекомендаций играют ключевую роль в прогнозировании пользовательских предпочтений, основываясь на истории взаимодействий. Однако существуют существенные проблемы, связанные с интеграцией разнообразных пользовательских поведений и многомодальной информации об элементах. Данная статья фокусируется на мультимодальной секвенциальной рекомендации, которая призвана решить несколько ключевых проблем. Во-первых, неэффективная характеризация модальных предпочтений у разных типов поведения. Пользовательское внимание к разным модальностям (например, изображениям, текстам, видео) может значительно варьироваться в зависимости от типа поведения, что усложняет создание точных моделей. Во-вторых, существует проблема неявного шума в пользовательских данных, такого как случайные клики, которые могут исказить модель предпочтений. Наконец, шум в мультимодальных представлениях может существенно повлиять на качество моделирования пользовательских предпочтений. Эти вызовы демонстрируют необходимость разработки новых подходов, способных эффективно решать проблемы шума в модальных и поведенческих данных, а также точно извлекать интересы пользователя на основе мультимодальной информации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эти проблемы, авторы предлагают новую модель **Multi-Modal Multi-Behavior Sequential Recommendation (M³BSR)**. Она состоит из трех ключевых компонентов. 1. **Conditional Diffusion Modality Denoising Layer**: Этот слой удаляет шум из мультимодальных представлений. Он использует кондиционирующую диффузию для того, чтобы очистить модальные данные от шума, который может влиять на качество моделирования пользовательских предпочтений. 2. **Conditional Diffusion Behavior Denoising**: Этот компонент очищает шум из неявного поведения пользователя, такого как непреднамеренные действия. Он использует глубокую информацию о поведении для того, чтобы руководить очисткой данных, связанных с более поверхностными поведенческими моделями. 3. **Multi-Expert Interest Extraction Layer**: Этот слой моделирует общие и специфические интересы пользователя на основе различных модальностей и типов поведения. Это позволяет модели точнее представлять пользовательские предпочтения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на различных бенчмарк-данных, чтобы оценить эффективность модели M³BSR. Результаты показали, что M³BSR значительно превосходит существующие состояния искусства в секвенциальной рекомендации. Модель демонстрирует высокую точность в прогнозировании пользовательских предпочтений, особенно при работе с мультимодальными данными и при наличии шума в пользовательских поведениях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Модель M³BSR имеет широкое применение в сфере электронной коммерции, рекламы и других областях, где необходимо точно предсказывать пользовательские предпочтения. Она позволяет эффективно обрабатывать мультимодальные данные, уменьшая влияние шума и улучшая качество рекомендаций. Это может привести к более эффективной личностной рекламе, повышенному вовлеченности пользователей и повышенной эффективности рекомендательных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В статье представлена модель M³BSR, которая эффективно решает проблемы шума в модальных и поведенческих данных. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности диффузионных слоев и на применении этого подхода к другим областям, где мультимодальные данные играют ключевую роль.

Annotation:

The sequential recommendation system utilizes historical user interactions to predict preferences. Effectively integrating diverse user behavior patterns with rich multimodal information of items to enhance the accuracy of sequential recommendations is an emerging and challenging research direction. This paper focuses on the problem of multi-modal multi-behavior sequential recommendation, aiming to address the following challenges: (1) the lack of effective characterization of modal preferences ...

ID: 2508.05352v1 cs.IR, cs.AI

arXiv PDF

📄 PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation

2025-08-09

Авторы:

Kang Liu, Zhuoqi Ma, Zikang Fang, Yunan Li, Kun Xie, Qiguang Miao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация медицинских докладов на основе рентгеновских снимков грудной клетки (Chest X-ray Report Generation) является ключевой задачей в медицинском обработке изображений, направленной на сокращение рабочей нагрузки радиологов путем автоматического создания прелмининарных докладов. Эта задача требует не только точного анализа визуальных признаков снимков, но также учета пациентского контекста, такого как симптомы, медицинская история, а также данные из предыдущих обследований. Радиологи используют эту информацию для диагностического рассмотрения и оценки прогрессирования болезни. Тем не менее, большинство существующих методов фокусируются только на анализе отдельных изображений, игнорируя важную пациентскую информацию, что приводит к недостатку в диагностическом контексте и неполноте в отчетах. Существующие методы генерации докладов не учитывают динамику изменений в данных пациента, что может привести к неточностям в отчетах и отсутствию важного диагностического контекста. Это ограничение становится критичным, особенно когда необходимо отследить прогрессирование заболевания или изменения в состоянии пациента. Таким образом, необходимо разработать подход, который бы интегрировал пациентскую информацию в процесс генерации докладов, чтобы улучшить качество и точность полученных отчетов. Предлагаемый подход PriorRG предназначен для решения этой проблемы, внедряя пациентский контекст в процесс генерации докладов. Он использует предварительное обучение с учетом клинического контекста (prior-guided contrastive pre-training) и метод декодирования с учетом предыдущих данных (prior-aware coarse-to-fine decoding) для создания более точных и клинически соответствующих докладов. ## ПРЕДЛОЖЕННЫЙ МЕТОД PriorRG предлагает двухступенчатый подход к генерации докладов по рентгеновским снимкам грудной клетки. **Stage 1: Prior-Guided Contrastive Pre-training** В этом этапе предлагается метод предварительного обучения, который использует пациентский контекст для руководства процессом извлечения пространственно-временных признаков. Это позволяет модели лучше понимать семантические отношения в радиологических отчетах. Метод основывается на контрастивном обучении, где клинический контекст, такой как симптомы и медицинская история, используется для направления извлечения признаков, что позволяет модели лучше выравниваться с семантическими аспектами радиологических докладов. **Stage 2: Prior-Aware Coarse-to-Fine Decoding** На втором этапе предлагается метод декодирования, который постепенно интегрирует пациентскую информацию в процессе генерации докладов. Этот подход работает на основе предыдущих данных пациента, что позволяет модели выравниваться с диагностическим фокусом и отслеживать изменения в состоянии пациента. Декодирование осуществляется в несколько этапов, начиная с общего представления и продвигаясь к более детальному анализу, что повышает качество и точность генерируемых отчетов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: MIMIC-CXR и MIMIC-ABN. Результаты показали, что PriorRG превосходит современные методы по нескольким метрикам. На наборе данных MIMIC-CXR достигнут прирост в 3.6% по BLEU-4 и 3.8% по F1-мере, а на MIMIC-ABN — прирост в 5.9% по BLEU-1. Эти результаты демонстрируют значительное улучшение качества генерируемых докладов благодаря использованию пациентского контекста. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PriorRG может быть применен в клинической практике для автоматизации генерации докладов по рентгеновским снимкам, что позволяет сократить нагрузку на радиологов. Преимущества этого подхода заключаются в более точном отражении диагностического контекста и отслеживании изменений в состоянии пациентов, что может повысить качество медицинского обслуживания. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PriorRG является значительным шагом вперед в области генерации медицинских докладов, улучшая точность и клиническую значимость генерируемых отчетов. Будущие исследования могут фокусироваться на дальнейшем улучшении интеграции пациентского контекста и расширении применения этого подхода к другим областям медицинской диагностики.

Annotation:

Chest X-ray report generation aims to reduce radiologists' workload by automatically producing high-quality preliminary reports. A critical yet underexplored aspect of this task is the effective use of patient-specific prior knowledge -- including clinical context (e.g., symptoms, medical history) and the most recent prior image -- which radiologists routinely rely on for diagnostic reasoning. Most existing methods generate reports from single images, neglecting this essential prior information ...

ID: 2508.05353v1 cs.CV, cs.AI

arXiv PDF

📄 Building Effective Safety Guardrails in AI Education Tools

2025-08-09

Авторы:

Hannah-Beth Clark, Laura Benton, Emma Searle, Margaux Dowland, Matthew Gregory, Will Gayne, John Roberts

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времени генеративные искусственные интеллектуальные (ИИ) инструменты получили широкое распространение в сфере образования, что привело к увеличению их использования преподавателями. Однако этот рост вызвал опасения относительно безопасности и соответствия возрасту генерируемого контента, который предназначен для использования в классах. При разработке таких инструментов возникают сложности, связанные с обеспечением того, чтобы контент соответствовал педагогическим стандартам и был безопасен для учеников в возрасте от 5 до 16 лет. Одним из ключевых вызовов является необходимость защиты от потенциальных угроз, таких как непреднамеренное создание неподходящего контента, а также внедрение мер, которые позволяют обеспечить высокий уровень качества и соответствия учебным целям. Дополнительным фактором является необходимость создания инструментов, которые не только генерируют контент, но и позволяют преподавателям контролировать и проверять его до использования в классе. Таким образом, разработка эффективных механизмов безопасности является ключевым элементом для успешного внедрения генеративных ИИ-инструментов в образовательную практику. В статье рассматривается подход Oak National Academy к разработке первого открытого генеративного ИИ-инструмента для образования, поддерживаемого правительством Великобритании – AI-powered lesson planning assistant (Aila). Целью Aila является поддержка преподавателей в создании уроков, соответствующих национальному учебному плану. Однако, чтобы смягчить риски, связанные с генерируемым контентом, были реализованы четыре ключевые меры безопасности: prompt engineering, защита от угроз входных данных, Independent Asynchronous Content Moderation Agent (IACMA) и подход human-in-the-loop, поощряющий преподавателей к проверке генерируемого контента перед его использованием в классе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработка Aila основывается на четырех основных компонентах безопасности. Во-первых, prompt engineering используется для того, чтобы генерируемый контент оставался в рамках педагогически звучных и учебно-плановых параметров. Во-вторых, система защиты от угроз входных данных (input threat detection) предназначена для предотвращения возможных атак и непреднамеренного использования неправильных запросов. Третьей составляющей является Independent Asynchronous Content Moderation Agent (IACMA), который оценивает генерируемый контент на соответствие предопределенным категориям безопасности. Наконец, подход human-in-the-loop включает преподавателей в процесс проверки и утверждения контента перед его применением в классе. Этот подход позволяет обеспечить дополнительный уровень контроля и ответственности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе оценки эффективности безопасности Aila было проведено ряд экспериментов. Данные, использованные для этих экспериментов, включали различные сценарии использования генерируемого контента в учебной практике. Результаты показали, что prompt engineering значительно повысил точность и соответствие контента учебным целям. Защита от угроз входных данных успешно предотвратила потенциальные атаки. IACMA эффективно оценивал контент на соответствие безопасности, а подход human-in-the-loop позволил преподавателям выявить и исправить потенциальные проблемы перед использованием контента в классе. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость этого исследования заключается в том, что оно предлагает комплексный подход к обеспечению безопасности генеративных ИИ-инструментов в образовании. Реализация таких мер может быть применена в различных образовательных учреждениях, чтобы гарантировать безопасность и качество генерируемого контента. Кроме того, открытые исходные коды, наборы данных и опыт, полученный в процессе разработки Aila, могут стать основой для сотрудничества между различными секторами и улучшения безопасности в будущем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования были выявлены несколько ключевых выводов. При реализации безопасности в генеративных ИИ-инструментах важно постоянно отталкиваться от итеративного процесса улучшения и оценки эффективности мер безопасности. Кроме того, сотрудничество между различными секторами и обмен открытыми ресурсами может способствовать развитию более эффективных методов защиты. Будущие исследования могут фокусироваться на дальнейшем улучшении этих методов и расширении областей их применения.

Annotation:

There has been rapid development in generative AI tools across the education sector, which in turn is leading to increased adoption by teachers. However, this raises concerns regarding the safety and age-appropriateness of the AI-generated content that is being created for use in classrooms. This paper explores Oak National Academy's approach to addressing these concerns within the development of the UK Government's first publicly available generative AI tool - our AI-powered lesson planning ass...

ID: 2508.05360v1 cs.CY, cs.AI

arXiv PDF

📄 Optimal Corpus Aware Training for Neural Machine Translation

2025-08-09

Авторы:

Yi-Hsiu Liao, Cheng Shen, Brenda, Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Нейронные системы машинного перевода (Neural Machine Translation, NMT) достигли высоких результатов в автоматическом переводе, однако они часто сталкиваются с проблемами, связанными с разнообразием и качеством обучающих данных. Традиционные подходы к обучению NMT-моделей не учитывают метаданные корпуса, такие как доменность, качество и характеристики исходных данных. Это может приводить к недостаточной адаптации модели к конкретным доменам или низкому качеству перевода в незнакомых условиях. Одним из предложенных решений является подход Corpus Aware Training (CAT), который интегрирует метаданные корпуса непосредственно в процесс обучения, дополняя каждый пример данными о его происхождении. Этот подход, известный как "тэгирование", позволяет моделиадаптироваться к различным доменам и качественным характеристикам данных. Однако, традиционный CAT требует предварительного выбора высококачественных данных перед началом обучения, что может быть неэффективным и подверженным ошибкам. Кроме того, он может быть чувствителен к гиперпараметрам и иметь риск переобучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают Optimal Corpus Aware Training (OCAT), который является улучшенным вариантом CAT. OCAT основывается на использовании предварительно обученной CAT-модели, но вводит новый этап файн-тюнинга (fine-tuning), в ходе которого замораживаются большинство параметров модели, а только небольшая часть параметров, связанных с корпусом, подвергается дообучению. Этот подход позволяет сохранить общую структуру модели, избежать переобучения и сделать процесс обучения более эффективным. В рамках OCAT используется метод файн-тюнинга, который оптимизирует параметры, связанные только с корпусом, в то время как основная модель остается неизменной. Это позволяет модели эффективно адаптироваться к новым доменам или корпусам без необходимости переобучения всей модели. Авторы также показывают, что OCAT менее чувствителен к выбору гиперпараметров по сравнению с другими методами файн-тюнинга. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на двух наборах данных: WMT23 English to Chinese и WMT23 English to German translation tasks. Результаты показали значительное улучшение качества перевода по метрике chrF. Используя OCAT, модель достигла улучшения на +3.6 chrF для английского-китайского перевода и +1.8 chrF для английского-немецкого перевода по сравнению со стандартным обучением. Кроме того, OCAT показал сравнимые или лучшие результаты по сравнению с другими современными методами файн-тюнинга, при этом оказавшись менее чувствительным к выбору гиперпараметров. Это подтверждает преимущество OCAT в стабильности и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод OCAT имеет широкое применение в области нейронного машинного перевода, особенно в случаях, когда требуется быстрая адаптация модели к новым доменам или корпусам данных. Его легковесная архитектура и устойчивость к переобучению делают его привлекательным для практического использования в промышленных приложениях. OCAT также может быть полезен в ситуациях, где данные имеют различные качественные характеристики, позволяя модели эффективно адаптироваться к разным условиям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен метод Optimal Corpus Aware Training (OCAT), который значительно улучшает качество перевода в нейронных системах машинного перевода, используя метаданные корпуса. Результаты показали, что OCAT не только эффективен, но и менее чувствителен к гиперпараметрам по сравнению с другими методами. В будущем, авторы планируют исследовать применение OCAT на большем количестве языковых пар и доменов, а также исследовать влияние различных стратегий файн-тюнинга на качество перевода.

Annotation:

Corpus Aware Training (CAT) leverages valuable corpus metadata during training by injecting corpus information into each training example, and has been found effective in the literature, commonly known as the "tagging" approach. Models trained with CAT inherently learn the quality, domain and nuance between corpora directly from data, and can easily switch to different inference behavior. To achieve the best evaluation, CAT models pre-define a group of high quality data before training starts wh...

ID: 2508.05364v1 cs.LG, cs.AI

arXiv PDF

📄 StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models

2025-08-09

Авторы:

Xiangxiang Zhang, Jingxuan Wei, Donghong Zhong, Qi Chen, Caijun Jia, Cheng Tan, Jinming Gu, Xiaobo Qin, Zhiping Liu, Liang Hu, Tong Sun, Yuchen Wu, Zewei Sun, Chenwei Lou, Hua Zheng, Tianyang Zhan, Changbao Wang, Shuangzhi Wu, Zefa Lin, Chang Guo, Sihang Yuan, Riwei Chen, Shixiong Zhao, Yingping Zhang, Gaowei Wu, Bihui Yu, Jiahui Wu, Zhehui Zhao, Qianqian Liu, Ruofeng Tang, Xingyue Huang, Bing Zhao, Mengyang Zhang, Youqiang Zhou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы мультимодальные модели зрение-язык проделали значительный путь в понимании и генерации контента, объединяющего визуальную и текстуальную информацию. Однако при переходе к задачам комплексного рассуждения, особенно в STEM-дисциплинах, они сталкиваются с критическим препятствием: неспособностью эффективно обрабатывать многошаговые задачи, где правильность ответа зависит от последовательного решения множества взаимосвязанных подвопросов. Традиционные механизмы вознаграждения, применяемые при обучении с подкреплением от человеческой обратной связи (RLHF), используют единичную бинарную оценку для всего ответа. Этот подход оказывается чрезмерно грубым для сложных задач, где частичная корректность имеет решающее значение для эффективного обучения. Проблема усугубляется тем, что в многокомпонентных заданиях одна ошибка в промежуточном шаге может привести к неправильному финальному ответу, хотя модель могла продемонстрировать правильное понимание значительной части задачи. Существующие системы не способны распознать и вознаградить такие частичные успехи, что приводит к неэффективному использованию обучающих данных и замедленному прогрессу в развитии способностей к рассуждению. Критически важным становится вопрос создания более тонких механизмов обратной связи, способных оценивать правильность на уровне отдельных компонентов сложного ответа, учитывая как семантическую, так и математическую эквивалентность выражений, а не полагаясь на жесткое строковое сопоставление. ## ПРЕДЛОЖЕННЫЙ МЕТОД StructVRM представляет собой революционный подход к выравниванию мультимодального рассуждения через структурированные и проверяемые модели вознаграждений. Ядром метода является обученная модель-верификатор, способная предоставлять детализированную обратную связь на уровне отдельных подвопросов в рамках сложной задачи. В отличие от традиционных систем, оценивающих ответ целиком, StructVRM разбивает сложную задачу на структурированную последовательность проверяемых компонентов. Модель-верификатор обучается распознавать семантическую и математическую эквивалентность между сгенерированным и эталонным ответами, что позволяет избежать ограничений жесткого строкового сопоставления. Это достигается через внедрение продвинутых техник понимания контекста и математического парсинга, которые могут идентифицировать эквивалентные выражения даже при различной формулировке или представлении. Например, алгебраическое выражение может быть записано различными способами, но при этом сохранять математическую эквивалентность. Система внедряет концепцию частичного кредитования, где каждый правильно решенный подкомпонент задачи получает соответствующее вознаграждение, даже если финальный ответ содержит ошибки. Это позволяет модели учиться на промежуточных успехах и постепенно улучшать качество рассуждений. Структурированный подход к вознаграждению создает более информативный сигнал обучения, способствующий развитию более надежных и точных моделей мультимодального рассуждения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Командой проведены обширные эксперименты для валидации эффективности StructVRM. Обученная модель Seed-StructVRM продемонстрировала исключительные результаты, достигнув state-of-the-art производительности на шести из двенадцати публичных мультимодальных бенчмарков. Среди них - сложные задачи по математике, физике и логике, требующие многошаговых рассуждений с использованием визуальной информации. Особенно значимы результаты на новом, специально созданном бенчмарке высокой сложности STEM-Bench, включающем задачи из области наук, технологий, инженерии и математики. Этот бенчмарк был сконструирован для тестирования моделей на пределе их возможностей, включая задачи с множеством взаимосвязанных компонентов и необходимостью точных вычислений. Seed-StructVRM показала значительное превосходство над существующими моделями, особенно в задачах, требующих последовательного решения множества подвопросов. Эксперименты включали сравнение с базовыми линиями, представленными как традиционными моделями зрение-язык, так и специализирован

Annotation:

Existing Vision-Language Models often struggle with complex, multi-question reasoning tasks where partial correctness is crucial for effective learning. Traditional reward mechanisms, which provide a single binary score for an entire response, are too coarse to guide models through intricate problems with multiple sub-parts. To address this, we introduce StructVRM, a method that aligns multimodal reasoning with Structured and Verifiable Reward Models. At its core is a model-based verifier traine...

ID: 2508.05383v1 cs.AI

arXiv PDF

📄 Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

2025-08-09

Авторы:

Jie Xiao, Shaoduo Gan, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные методы обучения с подкреплением (RL) для больших языковых моделей (LLMs) сталкиваются с значительными проблемами в системной эффективности и масштабируемости. Традиционные подходы к обучению RL-политик для LLMs требуют совмещения двух критических фаз — генерации траекторий (inference) и оптимизации политики (training) — на одном и том же кластере GPU. Это приводит к необходимости постоянного переключения между рабочими нагрузками, нарушая принцип single-program-multiple-data (SPMD), лежащий в основе современных распределенных систем обучения. Данная проблема особенно актуальна при работе с крупными моделями и распределенными вычислениями, где эффективное использование ресурсов является ключевым фактором. Существующие решения, такие как Verl, используют колокацию inference и training на одном кластере, что ограничивает возможности использования разнородных вычислительных ресурсов. Кроме того, сериализация этих фаз создает дополнительные узкие места, в том числе повышенную задержку и неэффективное использование ресурсов. Мотивацией данного исследования является разработка системы, которая могла бы эффективно разделять эти фазы на разных типах аппаратных платформ, сохраняя при этом высокую статистическую эффективность обучения. Решение данной проблемы позволило бы расширить область применения RL-методов, в том числе к обучению на распределенных и гетерогенных вычислительных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем была разработка система Echo, которая децентрализирует процессы генерации траекторий и обучения политик на разных типах вычислительных средах. Echo вводит два легковесных протокола синхронизации, позволяющие эффективно координатизировать работу между "inference" и "training" кластерами. Первый протокол — **секундный pull-режим** — обеспечивает периодическое обновление весов семплеров на каждом вызове API, что позволяет минимизировать биас в генерации траекторий. Второй протокол — **асинхронный push-pull-режим** — предназначен для потоковой передачи версионированных траекторий через реплей-буфер, что повышает использование аппаратных ресурсов. Архитектура Echo основывается на использовании гетерогенных сред, включая высокопроизводительные GPU-кластеры для обучения и коммерческие (commodity) ресурсы для генерации траекторий. Это позволяет разгрузить тяжеловесные вычисления на более доступные платформы, сохраняя при этом высокую эффективность обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на трех репрезентативных RL-задачах, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B. Эксперименты проводились на распределенном кластере, расположенном в различных географических регионах. Результаты показали, что Echo сопоставима по скорости сходимости и качеству финального решения с Verl, но при этом использует децентрализованные ресурсы, включая коммерческие платформы. Это демонстрирует возможность достижения высокой производительности RL-систем на распределенных и гетерогенных системах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Echo имеет широкий потенциал применения в областях, требующих больших вычислительных мощностей для обучения RL-политик, в том числе в облачных вычислениях, автономных системах и распределенных вычислительных системах. Децентрализованный подход Echo позволяет эффективно использовать доступные ресурсы, в том числе низкоуровневые коммерческие платформы, что может существенно снизить стоимость и сложность развертывания RL-систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Echo представляет собой значительный шаг вперед в области RL-систем для обучения LLMs. Она показывает, что децентрализованные и гетерогенные системы могут достигать производительности, сопоставимой с традиционными дата-центральными подходами. Будущие исследования могут фокусироваться на дальнейшей оптимизации протоколов синхронизации и расширении области применения Echo на более широкий класс задач.

Annotation:

Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving stati...

ID: 2508.05387v1 cs.LG, cs.AI

arXiv PDF

📄 An Explainable Machine Learning Framework for Railway Predictive Maintenance using Data Streams from the Metro Operator of Portugal

2025-08-09

Авторы:

Silvia García-Méndez, Francisco de Arriba-Pérez, Fátima Leal, Bruno Veloso, Benedita Malheiro, Juan Carlos Burguillo-Rial

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие Интеллюктуальных Транспортных Систем (ИТС) требует эффективных методов предиктивного обслуживания для обеспечения надёжности и безопасности операций. В сфере железнодорожного транспорта, особенно в метрополитенах, быстрое обнаружение и диагностика потенциальных неисправностей критично для снижения временных затрат, снижения рисков и повышения качества обслуживания. Однако, существующие подходы часто сталкиваются с проблемами, такими как нехватка реального времени в обработке данных, неспособность адаптироваться к динамическим изменениям, а также отсутствие прозрачности в процессе принятия решений. Ключевой проблемой в предиктивном обслуживании является необходимость анализа данных потоков в реальном времени, чтобы предоставить точные прогнозы и понятные объяснения для оперативных решений. Традиционные модели машинного обучения могут достигать высокой точности, но их применение в реальных системах часто ограничено из-за невозможности обрабатывать несбалансированные данные, шум и другие внешние факторы. Кроме того, модели часто работают как "черные ящики", что создаёт дополнительные трудности для операторов и технических специалистов в понимании причин ошибок и принятии информированных решений. В данной статье предлагается решение этих проблем путём разработки эксплицируемого машинного обучения для предиктивного обслуживания в метрополитене Порту (MetroPT). Целью исследования является создание комплексного решения, которое не только обеспечивает высокую точность прогнозов, но также предоставляет понятные объяснения решений модели для поддержки операторов в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на конвейере обработки данных, который включает три основных этапа: предварительная обработка, инкрементальная классификация и объяснение результатов. На этапе предварительной обработки, данные потока обрабатываются в реальном времени для извлечения статистических и частотных признаков. Этот модуль позволяет адаптироваться к динамическим изменениям в данных и обеспечивает высокую скорость обработки. Для классификации используются инкрементальные модели машинного обучения, которые обновляются по мере поступления новых данных. Это позволяет модели оставаться актуальной и эффективной в условиях реального времени. Наконец, модуль объяснения предоставляет результаты в виде естественного языка и визуализаций, что упрощает восприятие информации операторами. Архитектура системы ориентирована на обработку несбалансированных данных и шума, что является ключевым моментом для реальных приложений. Модели проверяются на наборе данных MetroPT, который включает различные сценарии неисправностей и нормального функционирования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проведены на данных метрополитена Порту, которые представляют реальные условия работы системы. Модель достигает результатов выше 98% по мере F-measure и 99% по точности. Эти показатели подтверждают высокую эффективность системы в обнаружении неисправностей и снижении ложных срабатываний. Эксперименты также показывают, что система сохраняет высокую производительность даже при наличии несбалансированных данных и шума, что демонстрирует её надёжность в реальных условиях. Визуальные и текстовые объяснения позволяют операторам быстро понять причины ошибок и принять соответствующие меры. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в области железнодорожного транспорта, особенно в метрополитенах и других ИТС. Высокая точность и прозрачность решений позволяют снизить затраты на обслуживание, повысить безопасность и улучшить качество обслуживания пассажиров. Практическая значимость заключается в возможности оперативного обнаружения неисправностей, что позволяет снизить время простоя и стоимость ремонта. Кроме того, прозрачные объяснения повышают доверие операторов к системе и облегчают процесс принятия решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Результаты исследования подтверждают высокую эффективность предлагаемого метода в решении задач предиктивного обслуживания в железнодорожном транспорте. В будущем можно рассмотреть расширение этого подхода на другие области транспорта, а также использование более сложных моделей машинного обучения для дальнейшего повышения производительности. Также важно исследовать возможности интеграции этого метода с другими технологиями ИТС для создания более комплексных решений.

Annotation:

This work contributes to a real-time data-driven predictive maintenance solution for Intelligent Transportation Systems. The proposed method implements a processing pipeline comprised of sample pre-processing, incremental classification with Machine Learning models, and outcome explanation. This novel online processing pipeline has two main highlights: (i) a dedicated sample pre-processing module, which builds statistical and frequency-related features on the fly, and (ii) an explainability modu...

ID: 2508.05388v1 cs.AI

arXiv PDF

📄 Real-Time Iteration Scheme for Diffusion Policy

2025-08-09

Авторы:

Yufei Duan, Hang Yin, Danica Kragic

## КОНТЕКСТ И ПРОБЛЕМАТИКА Диффузионные политики (Diffusion Policies) представляют собой мощный класс методов обучения с подкреплением, демонстрирующий выдающиеся результаты в задачах роботизированной манипуляции. Эти методы основаны на диффузионных моделях, которые генерируют последовательности действий путем итеративного денойзинга (удаления шума) из случайного начального состояния. Однако практическое применение диффузионных политик в реальном времени сталкивается с двумя критическими ограничениями. Первое и основное ограничение - это значительное время инференса, вызванное необходимостью выполнения большого количества итераций денойзинга (обычно 10-100 шагов) для генерации каждой последовательности действий. Этот процесс требует существенных вычислительных ресурсов, что делает затруднительным применение методов в сценариях с жесткими требованиями к латентности, таких как динамичные задачи захвата или манипуляции с быстро движущимися объектами. Второе ограничение связано с особенностью применения диффузионных политик в робототехнике: модель должна сгенерировать "чанк" (порцию) последовательных действий, после чего робот исполняет эти действия полностью, прежде чем будет возможно следующее предсказание. Это ограничение критично для простых задач с коротким временем цикла, где задержка между восприятием и действием должна быть минимальной. Существующие подходы к ускорению диффузионных политик в основном фокусируются на дистилляции моделей в более быстрые архитектуры или полной замене структуры политики. Однако такие методы требуют дополнительного дорогостоящего обучения, что становится особенно проблематичным для крупных моделей с миллионами параметров, распространенных в современной робототехнике. Отсутствие методов, позволяющих ускорить инференс без переобучения модели, создает значительный пробел между теоретическими возможностями диффузионных политик и их практическим применением в реальных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новаторский подход, вдохновленный методом Real-Time Iteration (RTI) из области оптимального управления. RTI-схема традиционно используется для ускорения процессов оптимизации путем использования решений с предыдущих временных шагов как начальных приближений для последующих итераций. В контексте диффузионных политик это означает использование траектории денойзинга с предыдущего временного шага как "теплого старта" для текущего предсказания действия. Ключевой инновацией является адаптация RTI для дискретных действий, типичных для роботизированной манипуляции, таких как двоичные команды захвата. Для этого разработан метод масштабирования (scaling-based method), который эффективно обрабатывает дискретные действия в континуальной схеме денойзинга. Метод преобразует дискретные значения в непрерывные переменные с последующим масштабированием, сохраняя при этом дифференцируемость процесса. Архитектура предложенной системы состоит из нескольких ключевых компонентов. Во-первых, реализован механизм сохранения скрытых состояний между временными шагами, что позволяет использовать информацию о предыдущих денойзинг-траекториях. Во-вторых, разработан адаптивный алгоритм определения оптимального начального шага денойзинга на основе теоретического анализа условий сжатия (contractivity conditions). Теоретический вклад работы включает строгий аналог условий сжатия для диффузионного процесса. Эти условия позволяют оценить минимальное количество итераций денойзинга, необходимое для достижения заданной точности, что критично для оптимального баланса между скоростью и качеством. Условия сжатия выводятся через анализ спектральных свойств оператора денойзинга и обеспечивают математически обоснованный способ выбора параметров алгоритма. Предложенная схема интегрируется в существующие предобученные диффузионные модели без необходимости их переобучения или изменения архитектуры. Это достигается через модификацию только процедуры инференса, оставляя обученные веса модели неизменными. Такой подход особенно важен для крупных моделей, где повторное обучение может потребовать значительных вычислительных ресурсов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного мет

Annotation:

Diffusion Policies have demonstrated impressive performance in robotic manipulation tasks. However, their long inference time, resulting from an extensive iterative denoising process, and the need to execute an action chunk before the next prediction to maintain consistent actions limit their applicability to latency-critical tasks or simple tasks with a short cycle time. While recent methods explored distillation or alternative policy structures to accelerate inference, these often demand addit...

ID: 2508.05396v1 cs.RO, cs.AI

arXiv PDF

📄 UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

2025-08-09

Авторы:

Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) генерация является одной из ключевых областей искусственного интеллекта, которая преобразует текстовое описание в соответствующее визуальное представление. Эта область активно развивалась за последние годы благодаря развитию моделей, таких как Diffusion Models и Autoregressive Models. Однако, несмотря на значительные успехи, создание высококачественных изображений с композиционной точностью остается сложной задачей. Традиционные модели, основанные на Autoregressive Models, страдают от ограничений, вызванных каузальной (последовательной) вниманием и последовательным декодированием, что затрудняет эффективное и качественное генерирование изображений. В последнее время Masked Generative Transformers (MGT) получили широкое распространение как альтернатевная к Autoregressive Models. Они используют бидирекционное внимание и параллельное декодирование, что позволяет достигать более высокой эффективности и качества генерации. Однако, несмотря на эти преимущества, MGT также сталкиваются с проблемой композиционной точности. Например, даже современные модели Diffusion Models часто не могут правильно связать атрибуты и обеспечить точное соответствие текста и изображения. Эта проблема особенно заметна в сложных сценариях, где необходимо точно отображать отдельные объекты и их атрибуты. Несмотря на то, что Diffusion Models были широко исследованы в этом контексте, Masked Generative Transformers не получили такого же уровня внимания. Таким образом, требуется новый подход, который может улучшить композиционную точность в MGT без необходимости дополнительного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод под названием **UNCAGE: Unmasking with Contrastive Attention Guidance**. Этот метод является методом без обучения, который улучшает композиционную точность MGT путем использования attention maps для определения токенов, которые лучше всего представляют отдельные объекты. UNCAGE работает на основе механизма "unmasking", где токены, которые были маскированы во время обучения, выделяются и улучшаются с помощью attention guidance. Ключевой компонент метода заключается в том, чтобы использовать contrastive attention guidance для того, чтобы повысить важность токенов, которые лучше всего соответствуют индивидуальным объектам в изображении. Это позволяет модели лучше фокусироваться на ключевых аспектах изображения, таких как объекты и их атрибуты, и поэтому повышает точность их представления. Техническая реализация UNCAGE включает в себя несколько этапов. Во-первых, модель генерирует изображение на основе заданного текста. Затем, с помощью attention maps, выбираются токены, которые больше всего соответствуют отдельным объектам. Эти токены получают больше веса в процессе декодирования, что приводит к лучшей композиционной точности. Метод не требует дополнительного обучения модели, что делает его высокоэффективным и пригодным для быстрого применения в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UNCAGE, авторы провели ряд экспериментов на различных датасетах, включая COCO и CUB. Использовались различные метрики, такие как FID (Fréchet Inception Distance) и R-Precision, для оценки качества генерированных изображений. Результаты показали, что UNCAGE значительно улучшает композиционную точность генерированных изображений по сравнению со стандартными моделями MGT. Например, в моделях, использующих UNCAGE, было замечено значительное улучшение в плане точности представления отдельных объектов и их атрибутов. Это привело к лучшему FID и R-Precision по сравнению с базовыми моделями. Кроме того, эксперименты показали, что UNCAGE не только повышает качество генерации, но также делает это с незначительным дополнительным расходом ресурсов во время инференса. Это делает метод пригодным для использования в реальных приложениях, где важно сочетание качества и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ UNCAGE имеет широкий спектр практических приложений. Он может быть использован в областях, где важна высокая точность генерации изображений на основе текста, таких как компьютерная графика, дизайн, реклама, и даже в области медицины, где точность визуализации критична. Преимущества метода заключаются в том, что он не только повышает качество генерации, но также делает это без необходимости дополнительного обучения модели, что значительно упрощает его внедрение в существующие системы. Кроме того, UNCAGE может быть использован в сочетании с различными моделями MGT, что делает его универсальным инструментом для улучшения композиционной точности в различных контекстах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод UNCAGE, который улучшает композиционную точность Masked Generative Transformers в задачах текст-в-изображение генерации. Этот метод является безучебным и не требует дополнительного обучения модели, что делает его высокоэффективным и практичным для реального применения. Результаты экспериментов показали значительное улучшение качества генерации, особенно в сложных сценариях, где необходима точная представление отдельных объектов. В будущем, метод может быть дальнейше разработан для улучшения его применимости в более широких контекстах, включая мультимодальные модели и приложения в реальном времени. Кроме того, могут быть исследованы дополнительные способы улучшения attention guidance для еще более точного представления объектов и их атрибутов.

Annotation:

Text-to-image (T2I) generation has been actively studied using Diffusion Models and Autoregressive Models. Recently, Masked Generative Transformers have gained attention as an alternative to Autoregressive Models to overcome the inherent limitations of causal attention and autoregressive decoding through bidirectional attention and parallel decoding, enabling efficient and high-quality image generation. However, compositional T2I generation remains challenging, as even state-of-the-art Diffusion...

ID: 2508.05399v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

2025-08-09

Авторы:

Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng

## КОНТЕКСТ И ПРОБЛЕМАТИКА Vision Language Models (VLMs) являются мощными инструментами в области искусственного интеллекта, обладающими высокими перцептивными способностями и впечатляющими возможностями визуального распознавания. Однако, несмотря на их продвинутые возможности, существуют значительные проблемы в области внимания к деталям и точного планирования действий в сложных, динамических средах. Эти недостатки часто являются причиной понижения эффективности VLMs в реальных задачах, которые требуют сложных взаимодействий, продвинутых пространственных распознаваний, долгосрочного планирования и непрерывного уточнения стратегий. Одна из ключевых проблем заключается в том, что многие реальные задачи требуют глубокого понимания физических принципов, которые лежат в основе работы систем. Например, для того чтобы решать задачи, связанные с планированием движения, управлением объектами или взаимодействием с динамической средой, необходимо иметь точное понимание физических законов, таких как трение, тяга, гравитация и т.д. Однако, на сегодняшний день, многие VLMs не обладают достаточной способностью к преобразованию знаний о физических принципах в точные, предсказуемые действия. Дополнительно, оценка этих возможностей в реальных условиях часто оказывается сложной и затратной. Тестирование VLMs в реальных средах может быть недоступно из-за высоких затрат, сложности установки экспериментальных условий и необходимости обеспечить безопасность. Таким образом, необходимо разработать более доступные и эффективные способы оценки возможностей VLMs в области физического распознавания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают новый бенчмарк DeepPHY, который предназначен для оценки возможностей VLMs в области физического распознавания. DeepPHY представляет собой инновационную платформу, которая использует симулированные среды для моделирования различных физических сценариев. Эти среды разработаны для того, чтобы оценить способность VLMs к пониманию и применению физических законов в реальном времени. DeepPHY состоит из нескольких сред, каждая из которых представляет собой уникальный набор физических задач. Эти задачи включают в себя различные уровни сложности, начиная от базовых физических взаимодействий, таких как столкновения и трение, и заканчивая более сложными задачами, требующими предсказания движения и планирования действий. Кроме того, DeepPHY включает в себя тонкую систему метрик, которая позволяет оценивать не только конечные результаты, но и процесс принятия решений. Это позволяет получить более детальную информацию о том, как VLMs понимают и используют физические законы в своих действиях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов, в которых VLMs были оценены на возможности решать задачи физического распознавания в разных средах DeepPHY. Для этих экспериментов использовались различные наборы данных, которые представляли собой разнообразные физические ситуации. Результаты экспериментов показали, что даже самые продвинутые VLMs сталкиваются с трудностями при попытке преобразовать знания о физических принципах в точные действия. Например, в некоторых случаях, VLMs не смогли правильно предсказать траектории движения объектов или неправильно интерпретировали физические состояния системы. Однако, некоторые модели демонстрировали более высокую эффективность в решении задач, особенно те, которые были более тщательно настроены на конкретные физические сценарии. Это подтверждает важность точной калибровки и настройки VLMs для конкретных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое практическое применение в различных областях, где необходимо понимание физических принципов для управления системами. Например, это может быть использовано в робототехнике для улучшения управления роботами в динамических средах, в автономных транспортных системах для более точного планирования движения, а также в системах автоматического управления производственными процессами. DeepPHY также может быть полезен для разработчиков VLMs, позволяя им более точно оценивать и улучшать возможности своих моделей в области физического распознавания. Это может привести к созданию более надежных и точных систем, которые могут быть использованы в различных приложениях, от медицины до промышленности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В целом, DeepPHY представляет собой важный шаг вперед в области оценки и улучшения физического распознавания VLMs. Он позволяет выявить недостатки существующих моделей и предоставляет инструменты для их улучшения. Будущие исследования могут сосредоточиться на разработке более сложных сред и задач, чтобы дальше продвинуть возможности VLMs в этой области. Кроме того, можно рассмотреть возможность интеграции DeepPHY с другими методами обучения, чтобы создать более комплексные и эффективные системы.

Annotation:

Although Vision Language Models (VLMs) exhibit strong perceptual abilities and impressive visual reasoning, they struggle with attention to detail and precise action planning in complex, dynamic environments, leading to subpar performance. Real-world tasks typically require complex interactions, advanced spatial reasoning, long-term planning, and continuous strategy refinement, usually necessitating understanding the physics rules of the target scenario. However, evaluating these capabilities in...

ID: 2508.05405v1 cs.AI

arXiv PDF

1
2
1427
1428
1429
1430
1431
1442
1443

Показано 14281 - 14290 из 14425 записей