📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 TriagerX: Dual Transformers for Bug Triaging Tasks with Content and Interaction Based Rankings

2025-08-27

Авторы:

Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang

#### Контекст Bug triaging — это процесс автоматического назначения багов разработчикам, который играет ключевую роль в улучшении эффективности разработки программного обеспечения. Одной из главных проблем этой области является необходимость сочетать два аспекта: оценку токенов в баг-репорте (content-based ranking) и учет истории взаимодействий разработчиков с похожими багами (interaction-based ranking). Недостаточное учетие данных аспектов может приводить к неточным рекомендациям. Данная статья рассматривает ряд технических ограничений, связанных с этими проблемами, и стремится предоставить более точные и эффективные методы по автоматизации bug triaging. #### Метод TriagerX — это двухступенчатая модель, основанная на предобученных трансформерах, которая улучшает bug triaging за счет учета обоих аспектов: семантического анализа баг-репорта и истории взаимодействий разработчиков. Модель состоит из двух параллельных трансформеров, каждый из которых выводит рекомендации на основе последних трех слоёв. Таким образом, TriagerX формирует две независимые рекомендации, которые далее объединяются в один рейтинг. Для улучшения рейтинга включен процесс interaction-based ranking, который учитывает историю разработчиков в обработке похожих багов. Эта модель позволяет более точно определить как семантические особенности бага, так и приоритеты в работе разработчиков. #### Результаты Данная модель была проверена на пяти разных наборах данных, сравниваясь с девятью предыдущими transformer-based моделями. Результаты показывают, что TriagerX превышает текущие лидеры в своей области не только в точности рекомендаций (Top-1 и Top-3), но и в общей эффективности работы в различных условиях. Например, в случае компонентной рекомендации для компании-партнера, TriagerX увеличил точность рекомендации до 54%, а в случае рекомендации разработчиков — до 10%. #### Значимость TriagerX может быть применена в среде разработки для улучшения эффективности bug triaging, снижения времени до корректировки ошибок, и улучшения общей производительности. Особенно полезна модель при работе с большими командами, где наличие истории взаимодействий может отличаться в зависимости от ситуации. Также TriagerX может использоваться в ситуациях смены разработчиков или реорганизации команд, где компоненты и разработчики играют важную роль в адаптации нового состава. #### Выводы TriagerX демонстрирует новую мощь двухступенчатых трансформеров в bug triaging за счет лучшего охвата токенов и учета истории взаимодействий. Результаты экспериментов подтверждают, что модель значительно улучшает точность рекомендаций в различных условиях. Будущие исследования будут сконц

Annotation:

Pretrained Language Models or PLMs are transformer-based architectures that can be used in bug triaging tasks. PLMs can better capture token semantics than traditional Machine Learning (ML) models that rely on statistical features (e.g., TF-IDF, bag of words). However, PLMs may still attend to less relevant tokens in a bug report, which can impact their effectiveness. In addition, the model can be sub-optimal with its recommendations when the interaction history of developers around similar bugs...

ID: 2508.16860v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Enhancing Knowledge Tracing through Leakage-Free and Recency-Aware Embeddings

2025-08-27

Авторы:

Yahya Badran, Christine Preisach

## Контекст Knowledge Tracing (KT) — это проблематика предсказания будущего ученика на основе его взаимодействий с материалом обучения. Основной набор данных для моделей KT из секвенции ответов на вопросы включает в себя различные аспекты, такие как порядок и время взаимодействий, знания концепций (KCs) — набор навыков, необходимых для каждого задания. Тем не менее, многие KT-модели страдают от проблемы лейбл-лейк, когда входные данные нечаянно раскрывают правильный ответ, особенно в условиях нескольких KCs на каждый вопрос. Эта проблема повлияла на точность предсказаний в различных KT-моделях. ## Метод Мы предложили несколько решений для того, чтобы устранить эту проблему. Наша основная техника — маскирование лейблов при построении входных эмбеддингов в определенных случаях, когда данные скрывают лейблы. Для этого мы вводим новый MASK-лейбл, выдержанный в стиле масок моделей типа BERT. Это позволяет защитить модели от негативного влияния лейбл-лейка. Кроме того, мы представили идею Recency Encoding, которая основывается на учете шагового расстояния между текущим заданием и его предыдущим во времени. Эта новая форма позиционного кодирования позволяет лучше моделировать гармонические отношения в обучении, включая процессы забывания. ## Результаты Мы провели эксперименты с использованием различных KT-моделей, таких как DKT, DKT+, AKT и SAKT, и использовали несколько наборов данных, включая ASSISTments и Junyi Academy. Наши результаты показывают, что применение нашей техники MASK-метки и Recency Encoding существенно повышает точность предсказаний моделей в сравнении с базовыми версиями. Эффект особенно заметен в случаях, когда данные имеют сильный лейбл-лейк. Эти изменения также работают эффективно в контексте небольших данных, что демонстрирует их широкую применимость. ## Значимость Наши решения могут быть применены в различных областях, где KT используется для личной ориентации в обучении, анализа содержания и синтеза учебных материалов. Мы показали, что наши новые методы не только улучшают точность, но и повышают устойчивость моделей к негативному влиянию лейбл-лейка. Это делает нашу работу важной для улучшения пользовательских подходов в обучении, а также для повышения качества моделей, использующих различные виды разметки. ## Выводы Мы предложили новые методы для устранения определенных проблем в Knowledge Tracing — в частности, лейбл-лейка и недостаточного учета динамики обучения в распознавании KCs. Наши релизовые результаты показали, что обеспечение MASK-метода и Recency Encoding может значительно улучшить точность и устойчивость KT-моделей. Мы направились на дальнейшее иссле

Annotation:

Knowledge Tracing (KT) aims to predict a student's future performance based on their sequence of interactions with learning content. Many KT models rely on knowledge concepts (KCs), which represent the skills required for each item. However, some of these models are vulnerable to label leakage, in which input data inadvertently reveal the correct answer, particularly in datasets with multiple KCs per question. We propose a straightforward yet effective solution to prevent label leakage by mask...

ID: 2508.17092v1 cs.CY, cs.AI, cs.LG

arXiv PDF

📄 PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science

2025-08-27

Авторы:

Syed Nazmus Sakib, Nafiul Haque, Mohammad Zabed Hossain, Shifat E. Arman

## Контекст Область исследования, связанная с визуальным определением заболеваний растений, является ключевой для развития систем автоматического мониторинга. Известные вызовы в этой области включают недостаточное количество качественных данных, отсутствие стандартных датасетов и проблемы с достоверностью моделей. Недостаточная техническая сложность и недостаточное обоснование в многих существующих датасетах снижают их полезность для научных исследований. В этом контексте важно разработать богатый, обоснованный и высококачественный датасет для продвижения исследований в области визуального определения заболеваний растений. ## Метод PlantVillageVQA был создан с использованием широкоизвестного PlantVillage датасета и включает 193 609 вопросов-ответов (QA) разбитых на 14 видов растений и 38 заболеваний. Датасет был структурирован на три уровня сложности вопросов и девять категорий, основанных на тематических областях. Вопросы были сформированы с помощью двухфазного автоматизированного процесса: шаблон-базированная генерация вопросов и лингвистическое переработка. Эксперты проверили каждый вопрос на точность и актуальность. Оценка качества выполнялась с использованием трех современных моделей визуального понимания языка. ## Результаты Изучение датасета показало его широкую пригодность для тренировки и оценки моделей визуального понимания языка в агрономической сфере. Оценка на трех современных моделях демонстрирует высокую точность и стабильность результатов. Эксперименты показали, что датасет может поддерживать достоверное обучение моделей, способных работать в условиях реальных задач агромониторинга. ## Значимость PlantVillageVQA может быть применен в сфере мониторинга растений, сельского хозяйства и агротехнологий. Он обеспечивает богатый набор данных для обучения моделей визуального понимания языка, который позволяет развивать автоматизированные системы диагностики заболеваний растений. Это способствует повышению эффективности, точности и доступности технологий в сельском хозяйстве. Датасет также может быть использован для продвижения исследований в области глубокого обучения и визуального понимания языка. ## Выводы PlantVillageVQA является новым стандартом для датасетов в области визуального понимания языка для задач мониторинга растений. Он подходит для обучения и оценки моделей, а также для продвижения научных исследований в области агротехнологий. Будущие исследования будут сфокусированы на расширении датасета, улучшении достоверности моделей и развитии новых алгоритмов для агрономического мониторинга.

Annotation:

PlantVillageVQA is a large-scale visual question answering (VQA) dataset derived from the widely used PlantVillage image corpus. It was designed to advance the development and evaluation of vision-language models for agricultural decision-making and analysis. The PlantVillageVQA dataset comprises 193,609 high-quality question-answer (QA) pairs grounded over 55,448 images spanning 14 crop species and 38 disease conditions. Questions are organised into 3 levels of cognitive complexity and 9 distin...

ID: 2508.17117v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Token Homogenization under Positional Bias

2025-08-27

Авторы:

Viacheslav Yusupov, Danil Maksimov, Ameliia Alaeva, Tatiana Zaitceva, Antipina Anna, Anna Vasileva, Chenlin Liu, Rayuth Chheng, Danil Sazanakov, Andrey Chetvergov, Alina Ermilova, Egor Shvetsov

## Контекст Трансформеры, являющиеся основополагающими для современных языковых моделей, обрабатывают слова (токены) с привлечением их контекста. Несмотря на эффективность этих моделей, они могут испытывать проблемы с определением контекстной семантики, в частности, при углублении обработки в нижние слои. Это происходит, в основном, из-за искажения различий между токенами в позиционной системе координат. В определенных случаях модели могут признать почти во всех слоях токены как однородные, чтобы избежать потерь в контекстной информации. Этот эффект, называемый **homogenization**, может привести к снижению точности в задачах, требующих точного понимания контекста. **Проблема** заключается в том, что нет полного понимания того, насколько глубоко вложенные слои модели могут углубить этот эффект, а также о том, как это влияет на обучение и поведение моделей. **Мотивация** заключается в изучении того, как позиционный биаз способствует этому эффекту и как это может быть использовано для оптимизации моделей. ## Метод Мы применяем подход, основанный на анализе схожести между токенами в каждом слое модели. Для этого используется метрика **cosine similarity** для измерения отклонения токенов от однородности. Мы определяем позиционный биаз с помощью **positional token embeddings**, которые добавляются в исходные токены в модели. Далее, мы проводим контролируемные эксперименты, повторно обучая модели с убиранием позиционных признаков и изучая разное поведение токенов в зависимости от их позиции в потоке входных данных. ## Результаты Мы проводили эксперименты на двух больших языковых моделях с различными размерами слоев. Наши результаты показали, что: 1. **Homogenization** существует и проявляется во всех слоях модели, но значительнее в нижних слоях. 2. **Positional bias** сильно усиливает этот эффект, особенно в случае токенов, расположенных в крайних позициях (начало и конец потока). 3. Удаление позиционных признаков приводит к уменьшению этого эффекта, но приводит к ухудшению эффективности модели в задачах, требующих контекстной информации. ## Значимость Наши результаты имеют практическую значимость для разработки более точных языковых моделей. Известие позиционной оптимизации может привести к улучшению работы моделей в задачах, где предсказание контекста требуется с высокой точностью. Эти результаты также могут быть использованы в оптимизации архитектур трансформеров, чтобы повысить их общую производительность. ## Выводы Мы показали, что **homogenization** в трансформерах является реальным проблемом, которое сильно влияет на работу моделей в задачах, требующих точного понимани

Annotation:

This paper investigates token homogenization - the convergence of token representations toward uniformity across transformer layers and its relationship to positional bias in large language models. We empirically examine whether homogenization occurs and how positional bias amplifies this effect. Through layer-wise similarity analysis and controlled experiments, we demonstrate that tokens systematically lose distinctiveness during processing, particularly when biased toward extremal positions. O...

ID: 2508.17126v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 MC3G: Model Agnostic Causally Constrained Counterfactual Generation

2025-08-27

Авторы:

Sopam Dasgupta, Sadaf MD Halim, Joaquín Arias, Elmer Salazar, Gopal Gupta

```## Контекст Машинное обучение (ML) взаимодействует с огромным количеством данных и используется для принятия решений в критических областях, таких как финансы, право и трудоустройство. Тем не менее, несмотря на высокую точность ML-моделей, их решения часто остаются непонятными для пользователей. Это снижает транспарентность, ухудшает доверие к моделям и затрудняет поиск способа предоставить пользователям действительные возможности для получения более положительного результата. Одним из таких способов являются каузально ограниченные контрфактольные объяснения (Counterfactual Explanations), которые показывают, как изменение определенных признаков может привести к более выгодному результату. Однако, существующие методы часто неэффективны, неточны в расчете затрат или не могут применяться к широкому спектру моделей. Этот рост запросов на транспарентность и понятность решений продвигает развитие новых способов генерации контрфактольных объяснений. ``` ```## Метод MC3G (Model-Agnostic Causally Constrained Counterfactual Generation) - это новый подход к генерации контрфактольных объяснений, который может применяться к любой модели (даже к тем, которые являются "черными ящиками"). Метод работает в два этапа: 1. **Построение подходящего суррогатного модели**: MC3G использует аппроксимацию черного ящика с помощью простой, легко понятной пороговой модели. Это позволяет понять, как признаки влияют на решение модели без раскрытия её внутренних механизмов. 2. **Генерация контрфактольных рекомендаций**: Используя суррогатную модель, MC3G вычисляет наименьший набор изменений, необходимых для получения более положительного результата. В этой модели также учитывается причинно-следственное взаимодействие между признаками, исключая из расчета затрат, связанных с изменениями, которые происходят автоматически в результате других перемен. Оба этапа позволяют MC3G генерировать контрфактольные рекомендации, которые не только интерпретируемы, но и эффективны в их реализации. ``` ```## Результаты Мы проводили эксперименты с различными типами моделей (например, линейными, деревьями решений и нейронными сетями) и продемонстрировали, что MC3G выдает более точные и действительно реализуемые рекомендации по контрфактольным объяснениям по сравнению с другими методами. Качество рекомендаций измерялось по таким критериям, как **пригодность** (то, насколько рекомендации подходят пользователю для достижения более выгодного результата) и **затратность** (стоимость внесения изменений). Результаты показали, что MC3G не только лучше конкурентов по этим критериям, но и демонстрирует низкую затратность изменений, что удобно для по

Annotation:

Machine learning models increasingly influence decisions in high-stakes settings such as finance, law and hiring, driving the need for transparent, interpretable outcomes. However, while explainable approaches can help understand the decisions being made, they may inadvertently reveal the underlying proprietary algorithm: an undesirable outcome for many practitioners. Consequently, it is crucial to balance meaningful transparency with a form of recourse that clarifies why a decision was made and...

ID: 2508.17221v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Multi-Metric Preference Alignment for Generative Speech Restoration

2025-08-27

Авторы:

Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu

## Контекст Область генерируемого голосового реставрирования широко применяется в различных сферах, включая медицину, разговорные системы, игры и анимацию. Несмотря на успехы современных генерируемых моделей в этой области, их тренировочные цели часто не совпадают с человеческими предпочтениями, что приводит к низкому качеству результатов. Хотя пост-тренировочное применение предпочтений зарекомендовало себя в других генерируемых областях, таких как текст и изображения, в генерируемом реставрировании речи эта практика пока мало исследована. Необходимо разработать методы, позволяющие эффективно улучшать качество результатов в соответствии с человеческими предпочтениями. ## Метод Для решения описанных проблем мы предлагаем метод многомерного приведения предпочтений к алгоритму Direct Preference Optimization (DPO). Мы разработали новый датасет GenSR-Pref, содержащий 80 тысяч предпочтений, где каждый выбор был согласован с кругом метрик, охватывающих перceptive quality, signal fidelity, content consistency и timbre preservation. Наш подход гарантирует целостность и достоверность предпочтений. Мы применяем DPO к трем основным моделям генерируемого реставрирования речи: autoregressive models (AR), masked generative models (MGM) и flow-matching models (FM). Это позволяет обеспечить последовательное улучшение качества реставрирования в различных сценариях и бенчмарках. ## Результаты Мы провели обширные эксперименты с использованием наших методов и сравнили их с базовыми моделями. Результаты показали значительные повышения качества в 3х моделях на разных данных и задачах. Мы также провели анализ абляции, подтвердив преимущество нашего многомерного подхода над единоmetric-approaches. Благодаря нашей стратегии, модели становятся более совместимыми с человеческими предпочтениями и показывают лучшие результаты в качестве решения задачи generative speech restoration. ## Значимость Предлагаемый подход имеет широкую полезность в области генерируемого голосового реставрирования. Он может применяться в сферах, требующих высокого качества реставрирования, таких как медицинское измерение, разговорные системы, развлекательные и производственные системы, где речь играет ключевую роль. Наши результаты имеют потенциал для улучшения качества результатов в области генерируемой речи и могут быть широко использованы в практических задачах. ## Выводы Мы представили метод многомерного приведения предпочтений, который существенно улучшает качество результатов в генерируемом реставрировании речи. Наши результаты показали эффективность этого подхода в различных моделях и задачах. В дальнейших исследованиях мы планируем расширить наш датасет и применить нашу стратегию к другим моделям и областям генерируемой речи.

Annotation:

Recent generative models have significantly advanced speech restoration tasks, yet their training objectives often misalign with human perceptual preferences, resulting in suboptimal quality. While post-training alignment has proven effective in other generative domains like text and image generation, its application to generative speech restoration remains largely under-explored. This work investigates the challenges of applying preference-based post-training to this task, focusing on how to de...

ID: 2508.17229v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment

2025-08-27

Авторы:

Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah

## Контекст В последние годы видение-языковые модели (VLM) получили широкое распространение, однако большинство из них сосредоточены на английском языке, в то время как меньше внимания уделяется другим языкам. Это недостаток ставит под сомнение эффективность VLM в работе с многоязычными и культурно-уникальными задачами. Например, многие модели страдают от недостатка в представлении визуальных и текстовых данных на местных языках, что снижает их точность и кросс-культурную применимость. Чтобы заполнить этот пробел, мы представляем первую многоязычную-многорежимную датасет для оценки визуально-языковых моделей на персидском языке — MEENA (также известная как PersianMMMU). ## Метод MEENA состоит из примерно 7,500 задач на персидском языке и 3,000 задач на английском языке, покрывающих различные области: рассуждения, математику, физику, диаграммы, чарты и искусство и литературу на персидском языке. Данный датасет был создан с учетом разнообразия в области культуры и образования. Он включает метаданные, такие как уровень сложности и описательные ответы, чтобы обеспечить полноту и точность оценки. Датасет также включает в себя данные на двух языках (персидский и английский) для оценки кросс-языковой устойчивости моделей. Основные этапы построения датасета включали тщательную сборку данных, многоступенчатую проверку качества и интеграцию культурных особенностей. ## Результаты Мы проводили серию экспериментов для оценки производительности моделей на MEENA. Эксперименты включали: (1) общую производительность моделей, (2) внимание к изображениям, (3) вероятность генерировать нереальные ответы (hallucinations). Мы использовали различные модели, включая как существующие, так и наши собственные модели, для сравнения их показателей. Результаты показали, что хотя модели демонстрируют высокую точность в англоязычных задачах, их производительность на персидском языке значительно ниже, особенно в задачах, требующих культурной контекстности. ## Значимость MEENA открывает новые возможности для оценки VLM в многоязычной среде, особенно на персидском языке. Он может использоваться в различных областях, таких как образовательные тесты, кросс-культурная оценка знаний, и развитие многоязычных моделей глубокого обучения. Этот датасет также может способствовать улучшению моделей, увеличивая их устойчивость к культурным деталям, что в будущем может привести к более точной работе моделей в кросс-языковых задачах. ## Выводы MEENA — это первый датасет для оценки многоязычных-многорежимных

Annotation:

Recent advancements in large vision-language models (VLMs) have primarily focused on English, with limited attention given to other languages. To address this gap, we introduce MEENA (also known as PersianMMMU), the first dataset designed to evaluate Persian VLMs across scientific, reasoning, and human-level understanding tasks. Our dataset comprises approximately 7,500 Persian and 3,000 English questions, covering a wide range of topics such as reasoning, mathematics, physics, diagrams, charts,...

ID: 2508.17290v1 cs.AI, cs.LG

arXiv PDF

📄 FedKLPR: Personalized Federated Learning for Person Re-Identification with Adaptive Pruning

2025-08-27

Авторы:

Po-Hsien Yu, Yu-Syuan Tseng, Shao-Yi Chien

## Контекст Персональная рекогниция персонажей (Person Re-Identification, Re-ID) является ключевым заданием в сфере интеллектуального видеомониторинга и обеспечения общественной безопасности. Классические подходы к этой задаче требуют централизованного обработки больших массивов данных, что создает риски для конфиденциальности и требует высоких ресурсов. Федеративное обучение (Federated Learning, FL) предлагает альтернативу, обеспечивая коллективное обучение моделей без централизованного хранения данных. Однако реализация FL в реальных системах Re-ID сталкивается с двумя основными проблемами: статистической неоднородностью клиентских данных (non-IID) и высоким объемом связи из-за частых передач больших моделей. Целью этой работы является разработка эффективного и экономичного фреймворка для решения этих проблем в контексте Re-ID. ## Метод FedKLPR предлагает новый фреймворк для федеративного обучения, оптимизированный для задач Re-ID. Основной инновацией является **Контроль Дивергенции Кантора-Лебега (KLL)**, который регулирует ошибки клиентских моделей в соответствии с глобальной функцией распределения. **Адаптивная Агрегация с Привязкой к Приращению (KLPWA)** включает в себя новую методику агрегации моделей, учитывающую как дивергенцию, так и размер моделей, чтобы обеспечить стабильность и эффективность. Для снижения объемов передаваемых данных вводится **Спарсинг активаций (SAS)**, который исключает нулевые веса из процесса обновления. Наконец, **Восстановление Кругового Раунда (CRR)** позволяет регулировать прайминг в зависимости от текущих требований, обеспечивая высокую точность при глубоком сжатии модели. ## Результаты Используя 8 бенчмарковых наборов данных, эксперименты показали, что FedKLPR существенно сокращает объем передачи данных. По сравнению с современными методами, FedKLPR уменьшает **33% - 38%** издержек связи при использовании ResNet-50 и **20% - 40%** при использовании ResNet-34, сохранив точность модели на уровне **<1%** от состояния лучшего результата. Эти результаты демонстрируют высокую эффективность FedKLPR в обеспечении связи, минимизации проблем неоднородности данных и сохранении точности модели Re-ID. ## Значимость Разработанный подход может быть применен в системах обеспечения общественной безопасности, интеллектуального видеомониторинга и безопасности транспорта. Он обеспечивает значительную экономию ресурсов связи, улучшает сохранение конфиденциальности данных и поддерживает высокую точность моделей Re-ID. Благодаря использованию адаптивных методов, FedKLPR может быть использован в реальных

Annotation:

Person re-identification (Re-ID) is a fundamental task in intelligent surveillance and public safety. Federated learning (FL) offers a privacy-preserving solution by enabling collaborative model training without centralized data collection. However, applying FL to real-world re-ID systems faces two major challenges: statistical heterogeneity across clients due to non-IID data distributions, and substantial communication overhead caused by frequent transmission of large-scale models. To address t...

ID: 2508.17431v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 A Synthetic Dataset for Manometry Recognition in Robotic Applications

2025-08-27

Авторы:

Pedro Antonio Rabelo Saraiva, Enzo Ferreira de Souza, Joao Manoel Herrera Pinheiro, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Автоматизация промышленных процессов, в том числе в сфере нефтяного и газового дела, становится все более важной в условиях возрастающих требований к безопасности и экономичности. Одной из ключевых задач в этой области является развитие систем автоматического распознавания объектов, таких как трубы или манометры, в условиях труднодоступных и опасных промышленных объектов, таких как нефтяные платформы. Однако, наличие реальных данных для обучения моделей существенно ограничено систематическими и экономическими ограничениями. Добыча данных в таких условиях не только трудоемка, но и связана с высокими рисками. Данная статья рассматривает проблему и предлагает решение в виде гибридной синтетической системы синтеза данных. ## Метод Предложенная методология основывается на синтезе систематически регулируемых синтетических данных и нейросетевых моделей. Используется BlenderProc для создания фотореалистичных изображений с высокоточными аннотациями. Это позволяет контролировать доменные различия и улучшать регуляризацию моделей. В качестве дополнительного инструмента использована Cosmos-Predict2, которая генерирует видео последовательности с визуальной разнообразием и физически достоверным поведением. Изначально синтетические данные комбинируются с реальными, чтобы обучить и проверить модели на их основе. Это позволяет повысить точность моделей даже при небольших объемах реальных данных. ## Результаты Эксперименты проводились на сочетании реальных и синтетических данных. Была проанализирована степень влияния различных доляв синтетических данных на точность моделей. Оказалось, что модель, обученная на комбинации 50% синтетических и 50% реальных данных, показала наивысшую точность. Это свидетельствует о мощности синтетического подхода в развитии систем распознавания в условиях низкого объема реальных данных. ## Значимость Данный подход имеет широкое применение в сфере автоматизации промышленных процессов, в частности в сфере нефтяного и газового дела. Он позволяет эффективно решать проблему недостатка данных различных промышленных систем, включая не только распознавание объектов, но и другие задачи, такие как слежение за движением и динамикой объектов. Благодаря синтетической системе можно создавать безопасные, экономичные и надежные системы распознавания, что делает его привлекательным для развития беспилотных систем и систем с низким риском в опасных промышленных условиях. ## Выводы Результаты демонстрируют, что синтетический подход является эффективным для развития моделей распознавания объектов в условиях недостатка реальных данных. Будущ

Annotation:

This work addresses the challenges of data scarcity and high acquisition costs for training robust object detection models in complex industrial environments, such as offshore oil platforms. The practical and economic barriers to collecting real-world data in these hazardous settings often hamper the development of autonomous inspection systems. To overcome this, in this work we propose and validate a hybrid data synthesis pipeline that combines procedural rendering with AI-driven video generati...

ID: 2508.17468v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 LodeStar: Long-horizon Dexterity via Synthetic Data Augmentation from Human Demonstrations

2025-08-27

Авторы:

Weikang Wan, Jiawei Fu, Xiaodi Yuan, Yifeng Zhu, Hao Su

## Контекст Роботические системы способные выполнять длительные манипуляционные задачи с роботом-человеческой гранулярностью требуют значительных усилий в разработке. Эти задачи обычно включают не только физическую гранулярность, но также гладкую последовательность манипулятивных навыков, а также высшую приспособленность к изменениям в среде. Имитационное обучение позволяет захватить знания от человеческих демонстраций, однако получение богатых данных для этих целей является ресурсозатратным. В данной работе предлагается LodeStar — рамка для автоматической декомпозиции демонстраций на понятные семантическими навыки и создания произвольных демонстрационных наборов с помощью генеративных методов глубокого обучения. Этот подход позволяет значительно улучшить исполнение задач. ## Метод LodeStar автоматически декомпозирует демонстрации на семантические навыки с помощью off-the-shelf моделей глубокого обучения. Далее, для разнообразия демонстраций используется обобщающее обучение с подкреплением (RL). Накопленные данные используются для обучения навыков в рамках модели Skill Routing Transformer (SRT). SRT эффективно склеивает навыки в цепочки для выполнения долгосрочных манипуляционных задач. Этот подход оптимизирован для обработки изменений в среде и позволяет добиться высокой гранулярности и долгосрочной логики. ## Результаты Работа была протестирована на трех сложных задачах реального мира: извлечение объекта из комплексной среды, одноручное выкручивание крышки и многоручное выкручивание крышки. Эксперименты вы mosted, что LodeStar значительно улучшает производительность и устойчивость в сравнении с существующими методами. Обучение на синтетических данных позволило значительно увеличить точность и скорость обучения в сравнении с данными, полученными непосредственно с человека. ## Значимость Предлагаемый подход имеет широкое применение в различных сферах, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь людям с ограниченными возможностями. Основные преимущества LodeStar заключаются в своей объемности, гибкости и возможности использования небольшого набора демонстраций для обучения. Будущие исследования будут нацелены на улучшение точности и скорости обучения, а также на подключение к более сложным задачам, включая те, что требуют взаимодействия с людьми. ## Выводы LodeStar демонстрирует успешную имплементацию новизны в обучении роботов для выполнения длительных манипуляционных задач. Этот подход позволяет эффективно обучать роботов на основе небольшого числа демонстраций, значительно повышая точность и устойчивость испо

Annotation:

Developing robotic systems capable of robustly executing long-horizon manipulation tasks with human-level dexterity is challenging, as such tasks require both physical dexterity and seamless sequencing of manipulation skills while robustly handling environment variations. While imitation learning offers a promising approach, acquiring comprehensive datasets is resource-intensive. In this work, we propose a learning framework and system LodeStar that automatically decomposes task demonstrations i...

ID: 2508.17547v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
142
143
144
145
146
168
169

Показано 1431 - 1440 из 1687 записей