📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control

2025-08-09

Авторы:

Shunlei Li, Longsen Gao, Jin Wang, Chang Che, Xi Xiao, Jiuwen Cao, Yingbai Hu, Hamid Reza Karimi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие робототехники требует создания систем, способных учиться на основе человеческих демонстраций. Однако традиционные подходы, основанные на имитации низкоуровневых траекторий, сталкиваются со сложностями при адаптации к различным типам объектов, пространственным конфигурациям и конфигурациям манипуляторов. Это ограничивает их применимость в реальных сценариях. Особенностью двуруких роботов является необходимость высокоуровневого пространственного и семантического восприятия, чтобы выполнять задачи, требующие координации между руками. Кроме того, существует проблема генерации политик поведения, которые могли бы быть легко интерпретируемыми и при этом эффективными в исполнении. В данной работе авторы решают эти проблемы, предложив фреймворк, который комбинирует визуальное, языковое и действительное восприятие для решения задач двурукого управления. Основная идея заключается в том, чтобы использовать теоретические подходы к обработке информации для выделения ключевых элементов сцены, таких как руки и объекты, и построить иерархические модели поведения, которые могут быть преобразованы в команды для робота. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод, названный **Graph-Fused Vision-Language-Action (GF-VLA)**, состоит из нескольких этапов. В первую очередь, система использует информационно-теоретические критерии для определения ключевых элементов сцены, таких как руки и объекты, с максимальной релевантностью к задаче. Это позволяет создать **временно упорядоченные сценовые графы**, которые захватывают взаимодействия между руками, объектами и другими элементами сцены. Затем, эти графы функционально связываются с языковым контекстом через трансформерную модель, которая генерирует **иерархические поведенческие деревья** (behavior trees). Эти деревья представляют собой структурированные планы действий, которые могут быть легко интерпретируемыми человеком. Для оптимизации исполнения в двуручных системах, авторы предлагают **политику выбора гриферов** (gripper selection policy), которая определяет оптимальное назначение рук для выполнения задачи без необходимости явного геометрического анализа. Это позволяет улучшить эффективность исполнения задач в двуручных конфигурациях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на четырёх задачах двуручного строительства блоков, включая конструирование символических форм, строительство букв и перестройку геометрических форм. Использованы данные из RGB и Depth камер, которые позволяют моделировать реальные условия работы робота. Результаты показали, что метод GF-VLA достигает высокой точности в построении графов (более 95%) и сегментации подзадач (93%). Использование полученных политик поведения приводит к высоким показателям успешности захвата (94%), точности размещения объектов (89%) и общей успешности выполнения задач (90%). ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий круг применений в области робототехники, особенно в задачах, требующих координации двух рук. Он может быть использован для обучения роботов на основе человеческих демонстраций в таких сферах, как производство, логистика и медицина. Одним из ключевых преимуществ является возможность генерировать интерпретируемые политики поведения, что упрощает отладку и модификацию задач. Кроме того, метод показывает высокую устойчивость к изменениям в пространственных и семантических условиях, что делает его применимым в различных сценариях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен фреймворк GF-VLA, который успешно решает задачи двуручного управления роботами на основе визуальных и языковых данных. Будущие исследования могут фокусироваться на расширении этого подхода для более сложных задач, включая работу в неструктурированных средах и с более сложными объектами. Также предлагается исследовать возможности интеграции этого метода с другими технологиями, такими как обучение с подкреплением, для дальнейшего улучшения производительности и автономности роботов.

Annotation:

Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to generalize across object types, spatial layouts, and manipulator configurations. We propose Graph-Fused Vision-Language-Action (GF-VLA), a framework that enables dual-arm robotic systems to perform task-level reasoning and execution directly from RGB and Depth human demonstrations. GF-VLA first extracts Shannon-information-based cues to identify hands and o...

ID: 2508.05342v1 cs.RO, cs.AI

arXiv PDF

📄 NomicLaw: Emergent Trust and Strategic Argumentation in LLMs During Collaborative Law-Making

2025-08-09

Авторы:

Asutosh Hota, Jussi P. P. Jokinen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные крупные языковые модели (LLM) продемонстрировали выдающийся прогресс в решении задач правового толкования, аргументации и стратегического взаимодействия. Однако эмпирическое понимание поведения LLM в открытых многокомпонентных сценариях, особенно связанных с обсуждением правовых и этических дилемм, остается крайне ограниченным. Существующие исследования в основном фокусируются на изолированных задачах и не раскрывают комплексные динамики коллективного принятия решений в правовой сфере. Проблематика статьи заключается в отсутствии систематического подхода к анализу того, как LLM взаимодействуют друг с другом при создании правовых норм в условиях многокомпонентной среды. Особенно актуальными являются вопросы формирования доверия между агентами, проявления реципрокности в голосованиях и использования стратегического языка для влияния на коллективные решения. Эти аспекты критически важны для понимания потенциала LLM в автономной разработке законодательства и правовых норм. Авторы подчеркивают, что ограниченность текущих знаний о поведении LLM в правовых контекстах сдерживает развитие AI-систем, способных к автономной разработке и адаптации правовых норм. Необходимость в создании таких систем возрастает в условиях увеличения сложности правовых регуляций и необходимости динамической адаптации законодательства к новым вызовам. Статья стремится заполнить этот пробел путем создания структурированной многокомпонентной симуляции, в которой LLM участвуют в коллективном правотворчестве. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют NomicLaw - инновационную многокомпонентную симуляцию, в которой LLM участвуют в коллективном правотворчестве. Система структурирована следующим образом: каждый агент-LLM получает сложную правовую виньетту и должен предложить конкретное правило для регулирования описанной ситуации. Процесс включает три ключевых этапа: предложение правил, обоснование принципов и голосование за предложения коллег. Методология измерения доверия и реципрокности основана на квантитативном анализе паттернов голосования. Система отслеживает, как агенты голосуют за предложения других участников, выявляя паттерны взаимной поддержки и предательства доверия. Качественный анализ фокусируется на том, как агенты используют стратегический язык для обоснования своих предложений и влияния на коллективные решения. Архитектура эксперимента включает как однородные группы (агенты на основе одной модели), так и гетерогенные группы (различные модели LLM). Это позволяет исследовать, как различия в архитектуре и обучении моделей влияют на коллективную динамику. Симуляция разработана таким образом, чтобы выявить спонтанное формирование альянсов между агентами, проявления предательства доверия и адаптивное изменение риторики в ответ на действия других участников. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты были проведены с участием десяти открытых LLM, охватывающих различные архитектуры и размеры моделей. Для каждой модели были созданы сценарии с однородными и гетерогенными группами, что позволило сравнить поведение моделей в разных контекстах. Правовые виньетты были тщательно подобраны для представления сложных этико-правовых дилемм, требующих сбалансированного подхода. Квантитативные результаты показали заметные различия в паттернах голосования между различными моделями. Некоторые модели демонстрировали высокие уровни реципрокности, последовательно поддерживая предложения агентов, которые ранее поддержали их инициативы. Другие модели проявляли более индивидуалистическое поведение, фокусируясь исключительно на содержании предложений без учета истории взаимодействий. Качественный анализ раскрыл сложные стратегии использования языка. Агенты адаптировали свою риторику в ответ на действия других участников, используя более убедительные аргументы при необходимости заручиться поддержкой. Были зафиксированы случаи формирования стабильных альянсов между определенными моделями, а также инциденты предательства, когда агенты меняли свою позицию

Annotation:

Recent advancements in large language models (LLMs) have extended their capabilities from basic text processing to complex reasoning tasks, including legal interpretation, argumentation, and strategic interaction. However, empirical understanding of LLM behavior in open-ended, multi-agent settings especially those involving deliberation over legal and ethical dilemmas remains limited. We introduce NomicLaw, a structured multi-agent simulation where LLMs engage in collaborative law-making, respon...

ID: 2508.05344v1 cs.AI

arXiv PDF

📄 Minimal Model Reasoning in Description Logics: Don't Try This at Home!

2025-08-09

Авторы:

Federica Di Stefano, Quentin Manière, Magdalena Ortiz, Mantas Šimkus

## КОНТЕКСТ И ПРОБЛЕМАТИКА Резонный подход с использованием минимальных моделей является ключевым для многих техник представления знаний, но в области Description Logics (DLs) он по-прежнему представляет собой значительную проблему. Минимизация некоторых предикатов, оставляя остальные предикаты фиксированными или меняющимися, как это предлагается в концепции circumscription, была изучена и показала высокую сложность. Однако, случай "чистых" минимальных моделей, где расширение всех предикатов должно быть минимальным, оставался в значительной степени неизученным. В данной статье авторы обращаются к этой проблеме в популярных DLs и получают неожиданно отрицательные результаты: удовлетворение концептов в минимальных моделях является неразрешимой по отношению к $\mathcal{EL}$. Эта неразрешимость также распространяется на очень ограниченный фрагмент tuple-generating dependencies (т.е. зависимостей, генерирующих кортежи). Эти результаты подчеркивают трудности, связанные с минимальными моделями в DLs, и требуют новых подходов для решения этой проблемы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неразрешимости, авторы предлагают ввести условия ацикличности (acyclicity conditions) для TBox (Terminological Box). Эти условия позволяют ограничить комплексность модели, сделав худший случай сложности ниже чем двойное экспоненциальное время. Это позволяет установить связь с недавно изученным подходом pointwise circumscription, который представляет собой более эффективный способ работы с минимальными моделями. Кроме того, авторы рассматривают результаты в данных (data complexity), которые позволяют оптимизировать работу с большими объемами информации. Они также исследуют DL-Lite family, где были получены некоторые положительные результаты для DL-Lite$_{\text{core}}$, но их работа показывает, что в расширении DL-Lite$_{\text{horn}}$ сложность вырастает до ExpSpace-hardness. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты для оценки сложности и применимости их метода. Они используют различные наборы данных и сравнивают результаты существующих методов с их новым подходом. Результаты показывают, что их метод уменьшает сложность в некоторых случаях, особенно когда применяются условия ацикличности. Однако, в некоторых случаях, таких как DL-Lite$_{\text{horn}}$, сложность остается высокой. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод может быть применен в различных областях знаний, где необходимо работать с минимальными моделями для оптимизации процессов. Он может быть полезен в таких областях, как искусственный интеллект, здравоохранение, финансы и другие, где требуется обработка больших объемов данных и оптимизация решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключении, авторы подчеркивают важность их работы в изучении минимальных моделей в DLs и предлагают новые направления для будущих исследований. Они выделяют необходимость дальнейшего исследования методов для улучшения сложности и применимости в реальных системах. Они также предлагают исследовать другие фрагменты DLs, которые могут быть более подходящими для работы с минимальными моделями.

Annotation:

Reasoning with minimal models has always been at the core of many knowledge representation techniques, but we still have only a limited understanding of this problem in Description Logics (DLs). Minimization of some selected predicates, letting the remaining predicates vary or be fixed, as proposed in circumscription, has been explored and exhibits high complexity. The case of `pure' minimal models, where the extension of all predicates must be minimal, has remained largely uncharted. We address...

ID: 2508.05350v1 cs.AI, cs.CC, cs.LO

arXiv PDF

📄 Multi-Modal Multi-Behavior Sequential Recommendation with Conditional Diffusion-Based Feature Denoising

2025-08-09

Авторы:

Xiaoxi Cui, Weihai Lu, Yu Tong, Yiheng Li, Zhejun Zhao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Секвенциальные системы рекомендаций играют ключевую роль в прогнозировании пользовательских предпочтений, основываясь на истории взаимодействий. Однако существуют существенные проблемы, связанные с интеграцией разнообразных пользовательских поведений и многомодальной информации об элементах. Данная статья фокусируется на мультимодальной секвенциальной рекомендации, которая призвана решить несколько ключевых проблем. Во-первых, неэффективная характеризация модальных предпочтений у разных типов поведения. Пользовательское внимание к разным модальностям (например, изображениям, текстам, видео) может значительно варьироваться в зависимости от типа поведения, что усложняет создание точных моделей. Во-вторых, существует проблема неявного шума в пользовательских данных, такого как случайные клики, которые могут исказить модель предпочтений. Наконец, шум в мультимодальных представлениях может существенно повлиять на качество моделирования пользовательских предпочтений. Эти вызовы демонстрируют необходимость разработки новых подходов, способных эффективно решать проблемы шума в модальных и поведенческих данных, а также точно извлекать интересы пользователя на основе мультимодальной информации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эти проблемы, авторы предлагают новую модель **Multi-Modal Multi-Behavior Sequential Recommendation (M³BSR)**. Она состоит из трех ключевых компонентов. 1. **Conditional Diffusion Modality Denoising Layer**: Этот слой удаляет шум из мультимодальных представлений. Он использует кондиционирующую диффузию для того, чтобы очистить модальные данные от шума, который может влиять на качество моделирования пользовательских предпочтений. 2. **Conditional Diffusion Behavior Denoising**: Этот компонент очищает шум из неявного поведения пользователя, такого как непреднамеренные действия. Он использует глубокую информацию о поведении для того, чтобы руководить очисткой данных, связанных с более поверхностными поведенческими моделями. 3. **Multi-Expert Interest Extraction Layer**: Этот слой моделирует общие и специфические интересы пользователя на основе различных модальностей и типов поведения. Это позволяет модели точнее представлять пользовательские предпочтения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на различных бенчмарк-данных, чтобы оценить эффективность модели M³BSR. Результаты показали, что M³BSR значительно превосходит существующие состояния искусства в секвенциальной рекомендации. Модель демонстрирует высокую точность в прогнозировании пользовательских предпочтений, особенно при работе с мультимодальными данными и при наличии шума в пользовательских поведениях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Модель M³BSR имеет широкое применение в сфере электронной коммерции, рекламы и других областях, где необходимо точно предсказывать пользовательские предпочтения. Она позволяет эффективно обрабатывать мультимодальные данные, уменьшая влияние шума и улучшая качество рекомендаций. Это может привести к более эффективной личностной рекламе, повышенному вовлеченности пользователей и повышенной эффективности рекомендательных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В статье представлена модель M³BSR, которая эффективно решает проблемы шума в модальных и поведенческих данных. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности диффузионных слоев и на применении этого подхода к другим областям, где мультимодальные данные играют ключевую роль.

Annotation:

The sequential recommendation system utilizes historical user interactions to predict preferences. Effectively integrating diverse user behavior patterns with rich multimodal information of items to enhance the accuracy of sequential recommendations is an emerging and challenging research direction. This paper focuses on the problem of multi-modal multi-behavior sequential recommendation, aiming to address the following challenges: (1) the lack of effective characterization of modal preferences ...

ID: 2508.05352v1 cs.IR, cs.AI

arXiv PDF

📄 PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation

2025-08-09

Авторы:

Kang Liu, Zhuoqi Ma, Zikang Fang, Yunan Li, Kun Xie, Qiguang Miao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация медицинских докладов на основе рентгеновских снимков грудной клетки (Chest X-ray Report Generation) является ключевой задачей в медицинском обработке изображений, направленной на сокращение рабочей нагрузки радиологов путем автоматического создания прелмининарных докладов. Эта задача требует не только точного анализа визуальных признаков снимков, но также учета пациентского контекста, такого как симптомы, медицинская история, а также данные из предыдущих обследований. Радиологи используют эту информацию для диагностического рассмотрения и оценки прогрессирования болезни. Тем не менее, большинство существующих методов фокусируются только на анализе отдельных изображений, игнорируя важную пациентскую информацию, что приводит к недостатку в диагностическом контексте и неполноте в отчетах. Существующие методы генерации докладов не учитывают динамику изменений в данных пациента, что может привести к неточностям в отчетах и отсутствию важного диагностического контекста. Это ограничение становится критичным, особенно когда необходимо отследить прогрессирование заболевания или изменения в состоянии пациента. Таким образом, необходимо разработать подход, который бы интегрировал пациентскую информацию в процесс генерации докладов, чтобы улучшить качество и точность полученных отчетов. Предлагаемый подход PriorRG предназначен для решения этой проблемы, внедряя пациентский контекст в процесс генерации докладов. Он использует предварительное обучение с учетом клинического контекста (prior-guided contrastive pre-training) и метод декодирования с учетом предыдущих данных (prior-aware coarse-to-fine decoding) для создания более точных и клинически соответствующих докладов. ## ПРЕДЛОЖЕННЫЙ МЕТОД PriorRG предлагает двухступенчатый подход к генерации докладов по рентгеновским снимкам грудной клетки. **Stage 1: Prior-Guided Contrastive Pre-training** В этом этапе предлагается метод предварительного обучения, который использует пациентский контекст для руководства процессом извлечения пространственно-временных признаков. Это позволяет модели лучше понимать семантические отношения в радиологических отчетах. Метод основывается на контрастивном обучении, где клинический контекст, такой как симптомы и медицинская история, используется для направления извлечения признаков, что позволяет модели лучше выравниваться с семантическими аспектами радиологических докладов. **Stage 2: Prior-Aware Coarse-to-Fine Decoding** На втором этапе предлагается метод декодирования, который постепенно интегрирует пациентскую информацию в процессе генерации докладов. Этот подход работает на основе предыдущих данных пациента, что позволяет модели выравниваться с диагностическим фокусом и отслеживать изменения в состоянии пациента. Декодирование осуществляется в несколько этапов, начиная с общего представления и продвигаясь к более детальному анализу, что повышает качество и точность генерируемых отчетов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: MIMIC-CXR и MIMIC-ABN. Результаты показали, что PriorRG превосходит современные методы по нескольким метрикам. На наборе данных MIMIC-CXR достигнут прирост в 3.6% по BLEU-4 и 3.8% по F1-мере, а на MIMIC-ABN — прирост в 5.9% по BLEU-1. Эти результаты демонстрируют значительное улучшение качества генерируемых докладов благодаря использованию пациентского контекста. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PriorRG может быть применен в клинической практике для автоматизации генерации докладов по рентгеновским снимкам, что позволяет сократить нагрузку на радиологов. Преимущества этого подхода заключаются в более точном отражении диагностического контекста и отслеживании изменений в состоянии пациентов, что может повысить качество медицинского обслуживания. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PriorRG является значительным шагом вперед в области генерации медицинских докладов, улучшая точность и клиническую значимость генерируемых отчетов. Будущие исследования могут фокусироваться на дальнейшем улучшении интеграции пациентского контекста и расширении применения этого подхода к другим областям медицинской диагностики.

Annotation:

Chest X-ray report generation aims to reduce radiologists' workload by automatically producing high-quality preliminary reports. A critical yet underexplored aspect of this task is the effective use of patient-specific prior knowledge -- including clinical context (e.g., symptoms, medical history) and the most recent prior image -- which radiologists routinely rely on for diagnostic reasoning. Most existing methods generate reports from single images, neglecting this essential prior information ...

ID: 2508.05353v1 cs.CV, cs.AI

arXiv PDF

📄 Building Effective Safety Guardrails in AI Education Tools

2025-08-09

Авторы:

Hannah-Beth Clark, Laura Benton, Emma Searle, Margaux Dowland, Matthew Gregory, Will Gayne, John Roberts

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времени генеративные искусственные интеллектуальные (ИИ) инструменты получили широкое распространение в сфере образования, что привело к увеличению их использования преподавателями. Однако этот рост вызвал опасения относительно безопасности и соответствия возрасту генерируемого контента, который предназначен для использования в классах. При разработке таких инструментов возникают сложности, связанные с обеспечением того, чтобы контент соответствовал педагогическим стандартам и был безопасен для учеников в возрасте от 5 до 16 лет. Одним из ключевых вызовов является необходимость защиты от потенциальных угроз, таких как непреднамеренное создание неподходящего контента, а также внедрение мер, которые позволяют обеспечить высокий уровень качества и соответствия учебным целям. Дополнительным фактором является необходимость создания инструментов, которые не только генерируют контент, но и позволяют преподавателям контролировать и проверять его до использования в классе. Таким образом, разработка эффективных механизмов безопасности является ключевым элементом для успешного внедрения генеративных ИИ-инструментов в образовательную практику. В статье рассматривается подход Oak National Academy к разработке первого открытого генеративного ИИ-инструмента для образования, поддерживаемого правительством Великобритании – AI-powered lesson planning assistant (Aila). Целью Aila является поддержка преподавателей в создании уроков, соответствующих национальному учебному плану. Однако, чтобы смягчить риски, связанные с генерируемым контентом, были реализованы четыре ключевые меры безопасности: prompt engineering, защита от угроз входных данных, Independent Asynchronous Content Moderation Agent (IACMA) и подход human-in-the-loop, поощряющий преподавателей к проверке генерируемого контента перед его использованием в классе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработка Aila основывается на четырех основных компонентах безопасности. Во-первых, prompt engineering используется для того, чтобы генерируемый контент оставался в рамках педагогически звучных и учебно-плановых параметров. Во-вторых, система защиты от угроз входных данных (input threat detection) предназначена для предотвращения возможных атак и непреднамеренного использования неправильных запросов. Третьей составляющей является Independent Asynchronous Content Moderation Agent (IACMA), который оценивает генерируемый контент на соответствие предопределенным категориям безопасности. Наконец, подход human-in-the-loop включает преподавателей в процесс проверки и утверждения контента перед его применением в классе. Этот подход позволяет обеспечить дополнительный уровень контроля и ответственности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе оценки эффективности безопасности Aila было проведено ряд экспериментов. Данные, использованные для этих экспериментов, включали различные сценарии использования генерируемого контента в учебной практике. Результаты показали, что prompt engineering значительно повысил точность и соответствие контента учебным целям. Защита от угроз входных данных успешно предотвратила потенциальные атаки. IACMA эффективно оценивал контент на соответствие безопасности, а подход human-in-the-loop позволил преподавателям выявить и исправить потенциальные проблемы перед использованием контента в классе. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость этого исследования заключается в том, что оно предлагает комплексный подход к обеспечению безопасности генеративных ИИ-инструментов в образовании. Реализация таких мер может быть применена в различных образовательных учреждениях, чтобы гарантировать безопасность и качество генерируемого контента. Кроме того, открытые исходные коды, наборы данных и опыт, полученный в процессе разработки Aila, могут стать основой для сотрудничества между различными секторами и улучшения безопасности в будущем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования были выявлены несколько ключевых выводов. При реализации безопасности в генеративных ИИ-инструментах важно постоянно отталкиваться от итеративного процесса улучшения и оценки эффективности мер безопасности. Кроме того, сотрудничество между различными секторами и обмен открытыми ресурсами может способствовать развитию более эффективных методов защиты. Будущие исследования могут фокусироваться на дальнейшем улучшении этих методов и расширении областей их применения.

Annotation:

There has been rapid development in generative AI tools across the education sector, which in turn is leading to increased adoption by teachers. However, this raises concerns regarding the safety and age-appropriateness of the AI-generated content that is being created for use in classrooms. This paper explores Oak National Academy's approach to addressing these concerns within the development of the UK Government's first publicly available generative AI tool - our AI-powered lesson planning ass...

ID: 2508.05360v1 cs.CY, cs.AI

arXiv PDF

📄 Optimal Corpus Aware Training for Neural Machine Translation

2025-08-09

Авторы:

Yi-Hsiu Liao, Cheng Shen, Brenda, Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Нейронные системы машинного перевода (Neural Machine Translation, NMT) достигли высоких результатов в автоматическом переводе, однако они часто сталкиваются с проблемами, связанными с разнообразием и качеством обучающих данных. Традиционные подходы к обучению NMT-моделей не учитывают метаданные корпуса, такие как доменность, качество и характеристики исходных данных. Это может приводить к недостаточной адаптации модели к конкретным доменам или низкому качеству перевода в незнакомых условиях. Одним из предложенных решений является подход Corpus Aware Training (CAT), который интегрирует метаданные корпуса непосредственно в процесс обучения, дополняя каждый пример данными о его происхождении. Этот подход, известный как "тэгирование", позволяет моделиадаптироваться к различным доменам и качественным характеристикам данных. Однако, традиционный CAT требует предварительного выбора высококачественных данных перед началом обучения, что может быть неэффективным и подверженным ошибкам. Кроме того, он может быть чувствителен к гиперпараметрам и иметь риск переобучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают Optimal Corpus Aware Training (OCAT), который является улучшенным вариантом CAT. OCAT основывается на использовании предварительно обученной CAT-модели, но вводит новый этап файн-тюнинга (fine-tuning), в ходе которого замораживаются большинство параметров модели, а только небольшая часть параметров, связанных с корпусом, подвергается дообучению. Этот подход позволяет сохранить общую структуру модели, избежать переобучения и сделать процесс обучения более эффективным. В рамках OCAT используется метод файн-тюнинга, который оптимизирует параметры, связанные только с корпусом, в то время как основная модель остается неизменной. Это позволяет модели эффективно адаптироваться к новым доменам или корпусам без необходимости переобучения всей модели. Авторы также показывают, что OCAT менее чувствителен к выбору гиперпараметров по сравнению с другими методами файн-тюнинга. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на двух наборах данных: WMT23 English to Chinese и WMT23 English to German translation tasks. Результаты показали значительное улучшение качества перевода по метрике chrF. Используя OCAT, модель достигла улучшения на +3.6 chrF для английского-китайского перевода и +1.8 chrF для английского-немецкого перевода по сравнению со стандартным обучением. Кроме того, OCAT показал сравнимые или лучшие результаты по сравнению с другими современными методами файн-тюнинга, при этом оказавшись менее чувствительным к выбору гиперпараметров. Это подтверждает преимущество OCAT в стабильности и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод OCAT имеет широкое применение в области нейронного машинного перевода, особенно в случаях, когда требуется быстрая адаптация модели к новым доменам или корпусам данных. Его легковесная архитектура и устойчивость к переобучению делают его привлекательным для практического использования в промышленных приложениях. OCAT также может быть полезен в ситуациях, где данные имеют различные качественные характеристики, позволяя модели эффективно адаптироваться к разным условиям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен метод Optimal Corpus Aware Training (OCAT), который значительно улучшает качество перевода в нейронных системах машинного перевода, используя метаданные корпуса. Результаты показали, что OCAT не только эффективен, но и менее чувствителен к гиперпараметрам по сравнению с другими методами. В будущем, авторы планируют исследовать применение OCAT на большем количестве языковых пар и доменов, а также исследовать влияние различных стратегий файн-тюнинга на качество перевода.

Annotation:

Corpus Aware Training (CAT) leverages valuable corpus metadata during training by injecting corpus information into each training example, and has been found effective in the literature, commonly known as the "tagging" approach. Models trained with CAT inherently learn the quality, domain and nuance between corpora directly from data, and can easily switch to different inference behavior. To achieve the best evaluation, CAT models pre-define a group of high quality data before training starts wh...

ID: 2508.05364v1 cs.LG, cs.AI

arXiv PDF

📄 StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models

2025-08-09

Авторы:

Xiangxiang Zhang, Jingxuan Wei, Donghong Zhong, Qi Chen, Caijun Jia, Cheng Tan, Jinming Gu, Xiaobo Qin, Zhiping Liu, Liang Hu, Tong Sun, Yuchen Wu, Zewei Sun, Chenwei Lou, Hua Zheng, Tianyang Zhan, Changbao Wang, Shuangzhi Wu, Zefa Lin, Chang Guo, Sihang Yuan, Riwei Chen, Shixiong Zhao, Yingping Zhang, Gaowei Wu, Bihui Yu, Jiahui Wu, Zhehui Zhao, Qianqian Liu, Ruofeng Tang, Xingyue Huang, Bing Zhao, Mengyang Zhang, Youqiang Zhou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы мультимодальные модели зрение-язык проделали значительный путь в понимании и генерации контента, объединяющего визуальную и текстуальную информацию. Однако при переходе к задачам комплексного рассуждения, особенно в STEM-дисциплинах, они сталкиваются с критическим препятствием: неспособностью эффективно обрабатывать многошаговые задачи, где правильность ответа зависит от последовательного решения множества взаимосвязанных подвопросов. Традиционные механизмы вознаграждения, применяемые при обучении с подкреплением от человеческой обратной связи (RLHF), используют единичную бинарную оценку для всего ответа. Этот подход оказывается чрезмерно грубым для сложных задач, где частичная корректность имеет решающее значение для эффективного обучения. Проблема усугубляется тем, что в многокомпонентных заданиях одна ошибка в промежуточном шаге может привести к неправильному финальному ответу, хотя модель могла продемонстрировать правильное понимание значительной части задачи. Существующие системы не способны распознать и вознаградить такие частичные успехи, что приводит к неэффективному использованию обучающих данных и замедленному прогрессу в развитии способностей к рассуждению. Критически важным становится вопрос создания более тонких механизмов обратной связи, способных оценивать правильность на уровне отдельных компонентов сложного ответа, учитывая как семантическую, так и математическую эквивалентность выражений, а не полагаясь на жесткое строковое сопоставление. ## ПРЕДЛОЖЕННЫЙ МЕТОД StructVRM представляет собой революционный подход к выравниванию мультимодального рассуждения через структурированные и проверяемые модели вознаграждений. Ядром метода является обученная модель-верификатор, способная предоставлять детализированную обратную связь на уровне отдельных подвопросов в рамках сложной задачи. В отличие от традиционных систем, оценивающих ответ целиком, StructVRM разбивает сложную задачу на структурированную последовательность проверяемых компонентов. Модель-верификатор обучается распознавать семантическую и математическую эквивалентность между сгенерированным и эталонным ответами, что позволяет избежать ограничений жесткого строкового сопоставления. Это достигается через внедрение продвинутых техник понимания контекста и математического парсинга, которые могут идентифицировать эквивалентные выражения даже при различной формулировке или представлении. Например, алгебраическое выражение может быть записано различными способами, но при этом сохранять математическую эквивалентность. Система внедряет концепцию частичного кредитования, где каждый правильно решенный подкомпонент задачи получает соответствующее вознаграждение, даже если финальный ответ содержит ошибки. Это позволяет модели учиться на промежуточных успехах и постепенно улучшать качество рассуждений. Структурированный подход к вознаграждению создает более информативный сигнал обучения, способствующий развитию более надежных и точных моделей мультимодального рассуждения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Командой проведены обширные эксперименты для валидации эффективности StructVRM. Обученная модель Seed-StructVRM продемонстрировала исключительные результаты, достигнув state-of-the-art производительности на шести из двенадцати публичных мультимодальных бенчмарков. Среди них - сложные задачи по математике, физике и логике, требующие многошаговых рассуждений с использованием визуальной информации. Особенно значимы результаты на новом, специально созданном бенчмарке высокой сложности STEM-Bench, включающем задачи из области наук, технологий, инженерии и математики. Этот бенчмарк был сконструирован для тестирования моделей на пределе их возможностей, включая задачи с множеством взаимосвязанных компонентов и необходимостью точных вычислений. Seed-StructVRM показала значительное превосходство над существующими моделями, особенно в задачах, требующих последовательного решения множества подвопросов. Эксперименты включали сравнение с базовыми линиями, представленными как традиционными моделями зрение-язык, так и специализирован

Annotation:

Existing Vision-Language Models often struggle with complex, multi-question reasoning tasks where partial correctness is crucial for effective learning. Traditional reward mechanisms, which provide a single binary score for an entire response, are too coarse to guide models through intricate problems with multiple sub-parts. To address this, we introduce StructVRM, a method that aligns multimodal reasoning with Structured and Verifiable Reward Models. At its core is a model-based verifier traine...

ID: 2508.05383v1 cs.AI

arXiv PDF

📄 Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

2025-08-09

Авторы:

Jie Xiao, Shaoduo Gan, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные методы обучения с подкреплением (RL) для больших языковых моделей (LLMs) сталкиваются с значительными проблемами в системной эффективности и масштабируемости. Традиционные подходы к обучению RL-политик для LLMs требуют совмещения двух критических фаз — генерации траекторий (inference) и оптимизации политики (training) — на одном и том же кластере GPU. Это приводит к необходимости постоянного переключения между рабочими нагрузками, нарушая принцип single-program-multiple-data (SPMD), лежащий в основе современных распределенных систем обучения. Данная проблема особенно актуальна при работе с крупными моделями и распределенными вычислениями, где эффективное использование ресурсов является ключевым фактором. Существующие решения, такие как Verl, используют колокацию inference и training на одном кластере, что ограничивает возможности использования разнородных вычислительных ресурсов. Кроме того, сериализация этих фаз создает дополнительные узкие места, в том числе повышенную задержку и неэффективное использование ресурсов. Мотивацией данного исследования является разработка системы, которая могла бы эффективно разделять эти фазы на разных типах аппаратных платформ, сохраняя при этом высокую статистическую эффективность обучения. Решение данной проблемы позволило бы расширить область применения RL-методов, в том числе к обучению на распределенных и гетерогенных вычислительных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем была разработка система Echo, которая децентрализирует процессы генерации траекторий и обучения политик на разных типах вычислительных средах. Echo вводит два легковесных протокола синхронизации, позволяющие эффективно координатизировать работу между "inference" и "training" кластерами. Первый протокол — **секундный pull-режим** — обеспечивает периодическое обновление весов семплеров на каждом вызове API, что позволяет минимизировать биас в генерации траекторий. Второй протокол — **асинхронный push-pull-режим** — предназначен для потоковой передачи версионированных траекторий через реплей-буфер, что повышает использование аппаратных ресурсов. Архитектура Echo основывается на использовании гетерогенных сред, включая высокопроизводительные GPU-кластеры для обучения и коммерческие (commodity) ресурсы для генерации траекторий. Это позволяет разгрузить тяжеловесные вычисления на более доступные платформы, сохраняя при этом высокую эффективность обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на трех репрезентативных RL-задачах, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B. Эксперименты проводились на распределенном кластере, расположенном в различных географических регионах. Результаты показали, что Echo сопоставима по скорости сходимости и качеству финального решения с Verl, но при этом использует децентрализованные ресурсы, включая коммерческие платформы. Это демонстрирует возможность достижения высокой производительности RL-систем на распределенных и гетерогенных системах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Echo имеет широкий потенциал применения в областях, требующих больших вычислительных мощностей для обучения RL-политик, в том числе в облачных вычислениях, автономных системах и распределенных вычислительных системах. Децентрализованный подход Echo позволяет эффективно использовать доступные ресурсы, в том числе низкоуровневые коммерческие платформы, что может существенно снизить стоимость и сложность развертывания RL-систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Echo представляет собой значительный шаг вперед в области RL-систем для обучения LLMs. Она показывает, что децентрализованные и гетерогенные системы могут достигать производительности, сопоставимой с традиционными дата-центральными подходами. Будущие исследования могут фокусироваться на дальнейшей оптимизации протоколов синхронизации и расширении области применения Echo на более широкий класс задач.

Annotation:

Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving stati...

ID: 2508.05387v1 cs.LG, cs.AI

arXiv PDF

📄 An Explainable Machine Learning Framework for Railway Predictive Maintenance using Data Streams from the Metro Operator of Portugal

2025-08-09

Авторы:

Silvia García-Méndez, Francisco de Arriba-Pérez, Fátima Leal, Bruno Veloso, Benedita Malheiro, Juan Carlos Burguillo-Rial

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие Интеллюктуальных Транспортных Систем (ИТС) требует эффективных методов предиктивного обслуживания для обеспечения надёжности и безопасности операций. В сфере железнодорожного транспорта, особенно в метрополитенах, быстрое обнаружение и диагностика потенциальных неисправностей критично для снижения временных затрат, снижения рисков и повышения качества обслуживания. Однако, существующие подходы часто сталкиваются с проблемами, такими как нехватка реального времени в обработке данных, неспособность адаптироваться к динамическим изменениям, а также отсутствие прозрачности в процессе принятия решений. Ключевой проблемой в предиктивном обслуживании является необходимость анализа данных потоков в реальном времени, чтобы предоставить точные прогнозы и понятные объяснения для оперативных решений. Традиционные модели машинного обучения могут достигать высокой точности, но их применение в реальных системах часто ограничено из-за невозможности обрабатывать несбалансированные данные, шум и другие внешние факторы. Кроме того, модели часто работают как "черные ящики", что создаёт дополнительные трудности для операторов и технических специалистов в понимании причин ошибок и принятии информированных решений. В данной статье предлагается решение этих проблем путём разработки эксплицируемого машинного обучения для предиктивного обслуживания в метрополитене Порту (MetroPT). Целью исследования является создание комплексного решения, которое не только обеспечивает высокую точность прогнозов, но также предоставляет понятные объяснения решений модели для поддержки операторов в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на конвейере обработки данных, который включает три основных этапа: предварительная обработка, инкрементальная классификация и объяснение результатов. На этапе предварительной обработки, данные потока обрабатываются в реальном времени для извлечения статистических и частотных признаков. Этот модуль позволяет адаптироваться к динамическим изменениям в данных и обеспечивает высокую скорость обработки. Для классификации используются инкрементальные модели машинного обучения, которые обновляются по мере поступления новых данных. Это позволяет модели оставаться актуальной и эффективной в условиях реального времени. Наконец, модуль объяснения предоставляет результаты в виде естественного языка и визуализаций, что упрощает восприятие информации операторами. Архитектура системы ориентирована на обработку несбалансированных данных и шума, что является ключевым моментом для реальных приложений. Модели проверяются на наборе данных MetroPT, который включает различные сценарии неисправностей и нормального функционирования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проведены на данных метрополитена Порту, которые представляют реальные условия работы системы. Модель достигает результатов выше 98% по мере F-measure и 99% по точности. Эти показатели подтверждают высокую эффективность системы в обнаружении неисправностей и снижении ложных срабатываний. Эксперименты также показывают, что система сохраняет высокую производительность даже при наличии несбалансированных данных и шума, что демонстрирует её надёжность в реальных условиях. Визуальные и текстовые объяснения позволяют операторам быстро понять причины ошибок и принять соответствующие меры. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в области железнодорожного транспорта, особенно в метрополитенах и других ИТС. Высокая точность и прозрачность решений позволяют снизить затраты на обслуживание, повысить безопасность и улучшить качество обслуживания пассажиров. Практическая значимость заключается в возможности оперативного обнаружения неисправностей, что позволяет снизить время простоя и стоимость ремонта. Кроме того, прозрачные объяснения повышают доверие операторов к системе и облегчают процесс принятия решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Результаты исследования подтверждают высокую эффективность предлагаемого метода в решении задач предиктивного обслуживания в железнодорожном транспорте. В будущем можно рассмотреть расширение этого подхода на другие области транспорта, а также использование более сложных моделей машинного обучения для дальнейшего повышения производительности. Также важно исследовать возможности интеграции этого метода с другими технологиями ИТС для создания более комплексных решений.

Annotation:

This work contributes to a real-time data-driven predictive maintenance solution for Intelligent Transportation Systems. The proposed method implements a processing pipeline comprised of sample pre-processing, incremental classification with Machine Learning models, and outcome explanation. This novel online processing pipeline has two main highlights: (i) a dedicated sample pre-processing module, which builds statistical and frequency-related features on the fly, and (ii) an explainability modu...

ID: 2508.05388v1 cs.AI

arXiv PDF

1
2
3386
3387
3388
3389
3390
3402
3403

Показано 33871 - 33880 из 34022 записей