📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Taxonomy of Faults in Attention-Based Neural Networks

2025-08-09

Авторы:

Sigma Jahan, Saurabh Singh Rajput, Tushar Sharma, Mohammad Masudur Rahman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Механизмы внимания (attention) стали фундаментальной основой современных нейронных архитектур, лежащих в основе таких систем, как ChatGPT, автономные транспортные средства и другие критически важные приложения. Эти механизмы обеспечивают выдающуюся способность моделей к пониманию контекста, обработке последовательностей и принятию сложных решений, что приводит к значительному экономическому и социальному воздействию. Однако недавние высокопрофильные сбои, включая генерацию бессмысленных ответов ChatGPT и приостановку Google Gemini генерации изображений из-за ошибок весов внимания, выявили критический пробел в понимании и диагностике сбоев в системах на основе внимания. Существующие таксономии сбоев в глубоком обучении, разработанные для традиционных нейронных сетей, не учитывают уникальные особенности механизмов внимания. Эти механизмы вводят новые типы сбоев, связанные с распределением весов внимания, масштабированием, позиционным кодированием и взаимодействием между множественными головами внимания. Отсутствие систематического понимания этих сбоев оставляет практиков без направленной диагностической помощи, что приводит к увеличению времени отладки и потенциально критическим ошибкам в продакшене. Проблема усугубляется экспоненциальным ростом сложности моделей на основе внимания и их широким распространением в продуктах, влияющих на миллионы пользователей. Традиционные методы отладки, такие как визуализация признаков или градиентный анализ, недостаточно эффективны для диагностики проблем, специфичных для механизмов внимания. Требуется новая системная методология для понимания, классификации и диагностики сбоев в этих критически важных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представили первое комплексное эмпирическое исследование сбоев в нейронных сетях на основе механизмов внимания (ABNNs). Исследование базируется на систематическом анализе 555 реальных сбоев, собранных из 96 проектов на основе десяти различных фреймворков, включая GitHub, Hugging Face и Stack Overflow. Методология исследования включала несколько этапов. На первом этапе проводился систематический поиск и сбор данных о сбоях в системах на основе внимания. Использовались автоматизированные инструменты для извлечения информации из открытых репозиториев, форумов и систем отслеживания ошибок. Каждый случай сбоя анализировался с использованием структурированной схемы кодирования, включающей контекст сбоя, проявляемые симптомы, архитектурные детали и последствия. На втором этапе осуществлялась классификация сбоев с использованием методов тематического анализа и кластеризации. Команда исследователей разработала новую таксономию, включающую семь категорий сбоев, специфичных для механизмов внимания. Эти категории были разработаны последовательно, начиная с открытого кодирования и заканчивая итеративной ревизией с помощью экспертной валидации. Третий этап включал корневой анализ причин сбоев. Для каждого сбоя идентифицировались первопричины, проявляемые симптомы и архитектурные особенности, способствующие возникновению проблем. Использовались статистические методы для выявления ассоциаций между симптомами и корневыми причинами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование выявило семь уникальных категорий сбоев, специфичных для механизмов внимания, которые не были охвачены существующими таксономиями. Эти категории включают сбои, связанные с масштабированием внимания (scaling), позиционным кодированием (positional encoding), многоголовочным вниманием (multi-head attention), маскированием (masking), распределением весов внимания (attention weight distribution), последовательной зависимостью (sequence dependency) и градиентными потоками (gradient flow issues). Ключевым результатом является то, что более 50% всех проанализированных сбоев в ABNN возникали из-за механизмов, уникальных для архитектур с вниманием. Это подчеркивает фундаментальное различие между сбоями в традиционных нейронных сетях и системами на основе внимания. Анализ симптомов показал, что сбои проявляются в виде различных паттернов: отклонения в распределении весов внимания, нестабильность обучения, деградация производительности

Annotation:

Attention mechanisms are at the core of modern neural architectures, powering systems ranging from ChatGPT to autonomous vehicles and driving a major economic impact. However, high-profile failures, such as ChatGPT's nonsensical outputs or Google's suspension of Gemini's image generation due to attention weight errors, highlight a critical gap: existing deep learning fault taxonomies might not adequately capture the unique failures introduced by attention mechanisms. This gap leaves practitioner...

ID: 2508.04925v1 cs.SE, cs.AI

arXiv PDF

📄 Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

2025-08-09

Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Одним из ключевых направлений в области компьютерного зрения является оценка глубины сцены на основе монокулярных изображений (monocular depth estimation). Несмотря на значительные успехи в этой области, большинство существующих методов ориентированы на работу с перспективными изображениями (perspective images), которые имеют стандартные параметры камеры и минимальные искажения. Однако в реальных сценариях, таких как автономные транспортные системы или робототехника, часто используются фишей-объективы (fisheye lenses), которые обеспечивают большое зрение поля, но вводят значительные искажения. Это создает проблему, так как фундаментальные модели оценки глубины (foundational monocular depth estimators, FMDEs), обученные на перспективных данных, не могут эффективно работать с фишей-изображениями из-за ковариативного сдвига (covariate shift), вызванного изменениями параметров калибровки камеры (intrinsic, distortion). Традиционные подходы к решению этой проблемы включают переобучение (retraining) или дообучение (finetuning) моделей на данных фишей-камер, что требует больших вычислительных ресурсов и доступа к большим наборам данных. Также, методы калибровки и преобразования изображений в канонический кадр могут вводить артефакты и потерю точности. Это подчеркивает необходимость в новом подходе, который мог бы адаптировать FMDEs для работы с фишей-изображениями без необходимости переобучения или тяжелых модификаций в пространстве изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, названный **Calibration Tokens**, который позволяет адаптировать FMDEs для фишей-изображений без необходимости в повторном обучении или преобразованиях изображений. Основная идея заключается в использовании Calibration Tokens – легковесных адаптационных механизмов, которые модулируют латентные вложения (latent embeddings) FMDEs для выравнивания их распределения с теми, что были обучены на перспективных изображениях. Calibration Tokens работают в латентном пространстве модели, избегая прямых модификаций в пространстве изображений, что позволяет избежать возникновения артефактов. Этот подход выгоден, поскольку латентное пространство FMDEs уже обладает выразительностью, которая может быть эффективно модифицирована для выравнивания распределений. Метод является self-supervised и не требует доступа к реальным фишей-изображениям для обучения. Вместо этого, он использует публично доступные наборы данных перспективных изображений. Для обучения, перспективные изображения перекалибруются в фишей-изображения, и затем происходит принуждение к согласованности (consistency) между оценками глубины для обоих типов изображений. Это позволяет эффективно переносить знания из перспективных моделей на фишей-камеры. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было продемонстрировано, что метод Calibration Tokens позволяет значительно улучшить точность оценки глубины для фишей-камер по сравнению с состоянием техники. Авторы провели эксперименты на различных FMDEs, включая модели обученные на больших наборах данных перспективных изображений. Результаты показали, что метод не только улучшает точность, но и обеспечивает согласованность оценок глубины между перспективными и фишей-изображениями. Данные для экспериментов были взяты из общедоступных наборов данных, которые включали как внутренние, так и наружные сцены. Метод был протестирован на различных типах сцен, где он показал последовательное улучшение по сравнению с другими подходами. Благодаря единому набору Calibration Tokens, метод демонстрирует высокую эффективность и простоту применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение данного метода заключается в его возможности эффективного использования FMDEs в реальных сценариях, где часто используются фишей-объективы. Это может быть применено в автономных транспортных системах, робототехнике, видеонаблюдении и других областях, где необходима точная оценка глубины с использованием фишей-камер. Преимущества метода включают в себя: - **Быстрая адаптация** без необходимости переобучения модели. - **Снижение затрат вычислительных ресурсов**, так как не требуется фине-тюнинг или создание новых наборов данных. - **Улучшение точности** благодаря эффективной модификации латентных вложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод Calibration Tokens, который позволяет эффективно адаптировать FMDEs для фишей-камер без необходимости в повторном обучении или преобразованиях изображений. Этот метод является self-supervised и использует публично доступные наборы данных перспективных изображений для обучения. В будущем, данный подход может быть расширен для других типов камер или сцен, а также может быть интегрирован в более широкие системы компьютерного зрения. Он также может быть использован для улучшения точности в других задачах, связанных с обработкой изображений и оценкой глубины.

Annotation:

We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...

ID: 2508.04928v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM

2025-08-09

Авторы:

Jin Wang, Weijie Wang, Boyuan Deng, Heng Zhang, Rui Dai, Nikos Tsagarakis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современная робототехника манипуляции сталкивается с фундаментальным противоречием между теоретической эффективностью и практической применимостью. Традиционные методы управления и планирования манипуляций роботов опираются на точные физические модели и предопределенные последовательности действий. Эти подходы демонстрируют высокую эффективность в структурированных, контролируемых средах, таких как производственные линии или лабораторные условия, где параметры окружающей среды можно точно измерить и предсказать. Однако при переходе в реальные неструктурированные условия эти методы сталкиваются с критическими ограничениями, связанными с неизбежными неточностями моделирования, неопределенностью параметров объектов взаимодействия и невозможностью заранее предусмотреть все возможные сценарии поведения. Проблема усложняется тем, что реальный мир характеризуется огромным разнообразием объектов, каждый из которых обладает уникальными физическими свойствами, геометрией и возможностями взаимодействия. Традиционные системы требуют ручного программирования правил для каждого нового объекта или задачи, что становится практически невозможным при масштабировании. Более того, предопределенные последовательности действий не обеспечивают необходимую адаптивность к изменяющимся условиям среды, что приводит к сбоям даже при незначительных отклонениях от ожидаемого сценария. В контрасте с роботами, человек демонстрирует поразительную способность интуитивно взаимодействовать с окружающей средой, быстро адаптируясь к новым условиям и принимая эффективные решения на основе неявного физического понимания. Человеческое взаимодействие опирается на богатый опыт предыдущих взаимодействий, позволяющий делать обоснованные предположения о свойствах объектов и возможных способах манипуляции без точного знания всех параметров. Это интуитивное понимание включает в себя распознавание физических связей между объектами, понимание их функциональных возможностей (аффордансов) и способность к обобщению знаний на новые ситуации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают революционный фреймворк INTENTION (Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM), который синтезирует достижения в области моделей зрения-языка (VLMs) с механизмами интерактивного обучения. Центральной концепцией фреймворка является создание системы, способной к автономному обучению из взаимодействий с окружающей средой, формируя интуитивное понимание, аналогичное человеческому. Основой архитектуры является Memory Graph - графовая структура данных, которая систематически записывает и организует информацию о сценах из предыдущих взаимодействий с задачами. Этот компонент эмулирует человеческую память о взаимодействиях, сохраняя не только визуальные признаки сцен, но и структурированные представления о физических связях между объектами, последовательности действий и их результаты. Memory Graph использует графовую топологию для представления сложных отношений между элементами сцены, позволяя эффективно запрашивать похожие ситуации из прошлого опыта и делать обобщенные выводы для новых сцен. Следующим ключевым компонентом является Intuitive Perceptor - специализированный модуль, который извлекает физические отношения и аффордансы из визуальных сцен. Этот модуль использует продвинутые компьютерные зрительные техники в сочетании с возможностями современных VLM для понимания контекста сцены. Он способен идентифицировать не только объекты и их позиции, но и фундаментальные физические свойства - такие как масса, стабильность, возможность скольжения или вращения, а также функциональные возможности объектов (например, "ручка позволяет тянуть", "крышка может открываться"). Интеграция этих компонентов реализуется через сложную систему обратной связи, где Intuitive Perceptor обеспечивает текущее понимание сцены, а Memory Graph предлагает контекстуально-зависимые рекомендации на основе истории взаимодействий. Эта архитекктура позволяет роботу делать обоснованные предположения о наиболее эффективных способах взаимодействия с новыми объектами без необходимости в явных инструкциях или точных моделях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ Р

Annotation:

Traditional control and planning for robotic manipulation heavily rely on precise physical models and predefined action sequences. While effective in structured environments, such approaches often fail in real-world scenarios due to modeling inaccuracies and struggle to generalize to novel tasks. In contrast, humans intuitively interact with their surroundings, demonstrating remarkable adaptability, making efficient decisions through implicit physical understanding. In this work, we propose INTE...

ID: 2508.04931v1 cs.RO, cs.AI

arXiv PDF

📄 TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring

2025-08-09

Авторы:

Zhu Xu, Ting Lei, Zhimin Li, Guan Wang, Qingchao Chen, Yuxin Peng, Yang liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Dynamic Scene Graph Generation (DSGG) — это задача, направленная на построение сценовых графов для каждого кадра видео, включая детекцию объектов и прогнозирование их взаимодействий. Данная задача является ключевой для понимания динамических сцен в видео, однако традиционные подходы к DSGG требуют значительных ресурсов на разметку данных, что становится критическим препятствием для практического применения. Для снижения затрат на разметку была предложена Weakly Supervised DSGG (WS-DSGG), которая использует для обучения нелокализованные сценовые графы, полученные из одного кадра на видео. Однако существующие методы WS-DSGG строятся на основе внешних объектных детекторов, обученных на статических изображениях, что приводит к проблемам в динамических, отношениями-ориентированных сценах. Внешние объектные детекторы часто не справляются с задачей точной локализации объектов в динамической области видимости, особенно когда речь идет о сложных сценах с большим количеством взаимодействующих элементов. Такие детекторы часто выдают неточные позиции объектов и низкие уровни достоверности предложений, что существенно снижает качество WS-DSGG. Эта несогласованность между обучением детекторов на статических данных и их применением в динамических сценах является ключевой проблемой, которую необходимо решить для эффективного использования WS-DSGG. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неточности внешних объектных детекторов в динамических сценах был предложен метод TRKT (Temporal-enhanced Relation-aware Knowledge Transferring). TRKT состоит из двух ключевых компонентов. Первый компонент — **Relation-aware Knowledge Mining**. В этом компоненте используются объектные и отношенческие декодеры для генерации категорийных attention maps, которые подчеркивают области объектов и их взаимодействий. Для улучшения качества attention maps используется стратегия Inter-frame Attention Augmentation, которая использует оптический поток из соседних кадров для создания motion-aware attention maps. Это позволяет улучшить устойчивость к движениям и размытию, обеспечивая более точную локализацию и выделение взаимодействующих областей. Второй компонент — **Dual-stream Fusion Module**. Этот модуль интегрирует категорийные attention maps во внешние детекции, улучшая локализацию объектов и повышая уровень достоверности предложений. Это позволяет добиться более точного выделения объектов и их отношений в динамических сценах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете Action Genome, который представляет собой набор видео с размеченными сценовыми графами. TRKT демонстрирует высокую эффективность по сравнению со существующими методами WS-DSGG. Благодаря интеграции motion-aware attention maps и Dual-stream Fusion Module, TRKT показывает значительное улучшение точности детекции объектов и предсказания отношений в динамических сценах. Метод TRKT достигает лучших результатов по всем ключевым метрикам по сравнению с другими методами WS-DSGG. Эксперименты показывают, что TRKT не только улучшает качество детекции, но также снижает влияние неточных предложений, полученных из внешних объектных детекторов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ TRKT может быть применен в различных областях, требующих понимания динамических сцен, таких как анализ видео, распознавание действий, автоматическое описание сцен и взаимодействие с роботами. Благодаря своей способности точно локализовывать объекты и их отношения в динамических сценах, TRKT может быть использован в системах компьютерного зрения для повышения точности и надежности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ TRKT представляет собой значительный шаг вперед в области Weakly Supervised DSGG, решая проблему неточных детекторов в динамических сценах. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и устойчивости метода, а также на расширении его применимости к более широкому классу данных видео.

Annotation:

Dynamic Scene Graph Generation (DSGG) aims to create a scene graph for each video frame by detecting objects and predicting their relationships. Weakly Supervised DSGG (WS-DSGG) reduces annotation workload by using an unlocalized scene graph from a single frame per video for training. Existing WS-DSGG methods depend on an off-the-shelf external object detector to generate pseudo labels for subsequent DSGG training. However, detectors trained on static, object-centric images struggle in dynamic, ...

ID: 2508.04943v1 cs.CV, cs.AI

arXiv PDF

📄 Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

2025-08-09

Авторы:

Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальная распознавательная система для распознавания действий является важной областью исследований в области компьютерного зрения и языковых технологий. Однако, оценка эффективности таких систем сталкивается с некоторыми проблемами, связанными с неоднозначностью семантики глаголов и разнообразием точек зрения на изображения. Например, одно и то же действие может быть описано разными синонимичными глаголами (например, "brushing" и "grooming") или может иметь различные описания в зависимости от контекста (например, "piloting" vs. "operating"). Традиционные методы оценки, основанные на точном совпадении с единственным "золотым" ответом, не могут учитывать эту неоднозначность, что приводит к неполной и неточной оценке производительности моделей. Данная проблематика становится особенно актуальной при работе с большими наборами данных, где изображения могут быть интерпретированы по-разному в зависимости от контекста или цели. Таким образом, необходимо разработать более гибкий и точный метод оценки, который учитывал бы различные толкования действий и обеспечил бы более корректную оценку моделей распознавания действий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать визуально-языковой кластеринговый фреймворк для решения проблемы неоднозначности семантики глаголов. Этот фреймворк построен на основе создания кластеров смыслов (sense clusters) для глаголов, которые представляют различные интерпретации действий. Каждый кластер соответствует определенному перспективному виду на действие, который может быть выражен разными глаголами. Метод включает в себя анализ набора данных imSitu, где для каждого изображения определяется среднее количество кластеров, соответствующих разным интерпретациям. Например, для одного изображения может быть определено 2,8 кластера, каждый из которых представляет отдельный взгляд на действие. Авторы также проводят сравнение различных моделей распознавания действий, используя кластеризацию смыслов в качестве более точного метода оценки, по сравнению с традиционными подходами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на базе данных imSitu. Результаты показали, что каждое изображение может быть описано с помощью нескольких кластеров, что подтверждает наличие неоднозначности в интерпретации действий. Авторы также провели сравнение результатов различных моделей распознавания действий, используя как традиционный подход, так и кластеризацию смыслов. Результаты показали, что кластеризация смыслов лучше согласуется с человеческим суждением, что делает этот подход более точным и надежным. Кроме того, авторы провели анализ выравнивания моделей с человеческим опытом, который показал, что кластеризация смыслов лучше отражает различные точки зрения на действия, чем традиционные методы оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод кластеризации смыслов имеет широкое применение в области распознавания действий, особенно в ситуациях, где необходимо учитывать неоднозначность семантики. Этот подход может быть использован в различных приложениях, таких как распознавание действий в реальном времени, автоматическая аннотация изображений, а также в системах поддержки принятия решений, где точное понимание контекста играет ключевую роль. Преимуществом данного подхода является его способность учитывать различные перспективы и толкования действий, что позволяет получить более точную и контекстуальную оценку. Это может привести к улучшению качества распознавания действий и увеличению доверия к таким системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предложенный метод кластеризации смыслов для глаголов предлагает более гибкий и точный способ оценки моделей распознавания действий. Этот подход не только улучшает точность оценки, но также лучше согласуется с человеческим суждением. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода, включая расширение его применения на другие наборы данных и доработку алгоритмов кластеризации для еще более точного анализа. Также, можно рассмотреть возможность использования этого подхода в сочетании с другими методами оценки, такими как нейронные сети и глубокое обучение, для создания еще более надежных и точных систем распознавания действий.

Annotation:

Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessme...

ID: 2508.04945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 Tesserae: Scalable Placement Policies for Deep Learning Workloads

2025-08-09

Авторы:

Song Bian, Saurabh Agarwal, Md. Tareq Mahmood, Shivaram Venkataraman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Обучение моделей глубокого обучения (DL) является ключевой рабочей нагрузкой в современных центрах обработки данных (DC). Эффективное использование ресурсов является краеугольной задачей для планировщиков кластеров DL. Однако существующие методы поиска решений для размещения задач в кластере сталкиваются с значительными ограничениями. Кластерные планировщики DL обычно используют политики размещения для определения того, где задания будут выполняться в кластере. Тем не менее, существующие политики размещения либо основываются на ад-хок методах (ad-hoc heuristics), либо интегрируются в виде ограничений в сложные оптимизационные задачи. Такие подходы могут приводить либо к подвыборке (suboptimal performance), либо к неэффективному масштабированию (poor scalability). Главная проблема состоит в том, что традиционные политики размещения не справляются с высокой динамикой и сложностью DL-кластеров, что приводит к чрезмерной нагрузке и неэффективному использованию ресурсов, таких как GPU. Кроме того, миграция задач (job migration) между узлами кластера может приводить к дополнительным накладным расходам (overheads), что ухудшает общую производительность. Таким образом, необходим новый подход, который мог бы обеспечить более эффективное распределение ресурсов и уменьшить накладные расходы на миграцию задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается методология Tesserae, которая использует новые политики размещения для решения проблемы миграции задач и оптимизации использования GPU в кластере. Основная идея заключается в том, чтобы формализовать многие ограничения размещения как проблемы графового сопоставления (graph matching problems). Это позволяет разработать политики, которые минимизируют накладные расходы на миграцию задач и оптимизируют упаковку задач (job packing). Tesserae включает в себя два основных компонента: графовое моделирование задач и оптимизация размещения. Графы используются для представления зависимостей и ограничений между задачами и ресурсами в кластере. Затем, на основе этого представления, применяется алгоритм графового сопоставления для определения оптимальных мест размещения задач. Это позволяет уменьшить количество необходимых перемещений задач между узлами и, следовательно, снизить накладные расходы. Кроме того, Tesserae интегрирует эти политики в рамках гибкой и масштабируемой архитектуры планировщика. Эта архитектура поддерживает динамическое изменение ресурсов и позволяет эффективно адаптироваться к различным рабочим нагрузкам. Это обеспечивает высокую производительность и масштабируемость, что является ключевым достижением этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Tesserae были проведены различные эксперименты, использующие реальные рабочие нагрузки DL. Данные для экспериментов были получены из крупномасштабных кластеров GPU, которые используются для обучения DL-моделей. Эксперименты проводились на разных размерах кластеров, от небольших до крупных, для оценки масштабируемости Tesserae. Результаты показали, что Tesserae улучшает среднее время выполнения задач (JCT, Job Completion Time) до 1.62 раза по сравнению с существующими планировщиками. Кроме того, Tesserae уменьшает общее время выполнения всех задач (Makespan) до 1.15 раза. Эти результаты демонстрируют высокую эффективность и масштабируемость предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Tesserae имеет широкое применение в области управления ресурсами в DL-кластерах. Он может быть использован для оптимизации работы крупных дата-центров, где обучение DL-моделей является одной из ключевых рабочих нагрузок. Преимущества Tesserae включают в себя уменьшение времени выполнения задач, снижение накладных расходов на миграцию задач, и повышение общей производительности кластера. Кроме того, Tesserae может быть применен в облачных вычислениях, где эффективное использование ресурсов является критическим фактором для экономичности и производительности. Потенциальное влияние Tesserae заключается в том, что он может существенно улучшить эффективность использования GPU и других ресурсов в кластерах, что может привести к существенным экономиям времени и ресурсов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основными достижениями Tesserae являются улучшение среднего времени выполнения задач и общего времени выполнения всех задач, а также повышение масштабируемости планировщика. Будущие исследования могут фокусироваться на дальнейшей оптимизации алгоритмов графового сопоставления и расширении применимости Tesserae к другим типам ресурсов, таких как TPU или FPGA, а также на интеграции с более сложными DL-рабочими нагрузками.

Annotation:

Training deep learning (DL) models has become a dominant workload in data-centers and improving resource utilization is a key goal of DL cluster schedulers. In order to do this, schedulers typically incorporate placement policies that govern where jobs are placed on the cluster. Existing placement policies are either designed as ad-hoc heuristics or incorporated as constraints within a complex optimization problem and thus either suffer from suboptimal performance or poor scalability. Our key in...

ID: 2508.04953v1 cs.DC, cs.AI

arXiv PDF

📄 AdvDINO: Domain-Adversarial Self-Supervised Representation Learning for Spatial Proteomics

2025-08-09

Авторы:

Stella Su, Marc Harary, Scott J. Rodig, William Lotter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование в области самоконтролируемого обучения (Self-Supervised Learning, SSL) получило широкое распространение за счет возможности формирования эффективных визуальных представлений без необходимости в ручной аннотации данных. Однако одним из ключевых ограничений стандартных подходов SSL является их уязвимость к доменному сдвигу (domain shift) – систематическим различиям между различными источниками данных. Этот вопрос особенно критичен в биомедицинском имижинге, где такие различия, известные как batch effects, могут затруднить выявление истинных биологических сигналов. В биомедицинских исследованиях, таких как спейсьюал протеомикс (spatial proteomics), ключевой задачей является обнаружение сложных взаимосвязей между визуальными и биологическими характеристикими. Однако, существующие методы SSL часто не могут эффективно справиться с доменным сдвигом, что приводит к неоптимальным результатам и потерянным возможностям в интерпретации данных. Таким образом, разработка методологии, способной эффективно справиться с такими проблемами, представляет собой важную задачу для улучшения качества и надежности моделей в биомедицинских приложениях. Предлагаемый метод AdvDINO направлен на решение этой проблемы, интегрируя подход домен-адверсаряльного обучения (domain-adversarial learning) в рамках архитектуры DINOv2. Целью этого подхода является повышение устойчивости модели к доменному сдвигу, что позволяет формировать более робостные и биологически значимые представления данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД AdvDINO представляет собой расширение архитектуры DINOv2, которая является одной из современных моделей для самоконтролируемого обучения. Основной инновацией AdvDINO является интеграция градиентного реверсального слоя (Gradient Reversal Layer, GRL) внутри модели. Этот слой позволяет модели учитывать различия между доменами данных и, в то же время, стимулирует формирование домен-инвариантных (domain-invariant) функций. Градиентный реверсальный слой работает путем обращения градиентов в процессе обучения, что позволяет модели учиться игнорировать доменно-зависимые признаки и формировать более универсальные представления. Такой подход позволяет AdvDINO эффективно справляться с доменным сдвигом, характерным для биомедицинских данных, в частности, для данных полученных из различных источников или биологических образцов. В рамках исследования AdvDINO применяется к данным six-channel multiplex immunofluorescence (mIF) whole slide images, полученным из пациентов с неклеточным раком легкого (non-small cell lung cancer). Эти данные характеризуются высокой разнообразностью и сложностью, что делает их идеальной платформой для тестирования методов справляющихся с доменным сдвигом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности AdvDINO авторы провели серию экспериментов на базе данных, состоящей из более чем 5,46 млн. изображений mIF image tiles. Эти изображения были получены из различных биологических образцов, что позволило провести комплексный анализ возможностей модели в условиях доменного сдвига. Результаты экспериментов показали, что AdvDINO значительно превосходит базовые модели без домен-адверсаряльного обучения в сфере формирования биологически значимых представлений. Модель успешно выявила кластеры представлений, которые соотносятся с различными биологическими профилями и имеют прогностическую значимость. Кроме того, AdvDINO показала улучшенные результаты в задаче прогнозирования выживаемости (survival prediction) при использовании в сочетании с attention-based multiple instance learning. Эти результаты подтверждают, что интеграция домен-адверсаряльного подхода в самоконтролируемое обучение может значительно повысить качество и надежность моделей в биомедицинских приложениях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AdvDINO имеет широкий спектр практических применений в области биомедицинского имижинга и далее. Его способность формировать домен-инвариантные представления данных делает его подходящим для использования в различных областях, включая радиологию, дистанционный сенсинг и автономное вождение. В биомедицинской практике, AdvDINO может быть использован для анализа и интерпретации данных, полученных из различных клинических исследований, где доменный сдвиг часто является существенной проблемой. Улучшенная устойчивость модели к batch effects позволяет более точно выявлять биологические сигналы, что может привести к новым открытиям в области диагностики и лечения заболеваний. Кроме того, AdvDINO может быть применен в задачах, требующих высокой точности и интерпретируемости, таких как прогнозирование выживаемости пациентов или классификация биологических образцов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AdvDINO является важным шагом вперед в области самоконтролируемого обучения и его применения в биомедицинской имижинге. Интеграция домен-адверсаряльного подхода в DINOv2 позволяет формировать более робостные и биологически значимые представления данных, что особенно важно в условиях доменного сдвига. Будущие исследования могут фоксироваться на дальнейшем улучшении модели, включая оптимизацию архитектуры и расширение ее применимости к другим типам данных. Кроме того, исследования в области домен-адверсаряльного обучения могут быть расширены для решения задач в других областях, где доменный сдвиг представляет собой критическую проблему. Таким образом, AdvDINO не только улучшает существующие методы SSL, но и открывает новые возможности для будущих исследований и приложений в биомедицинской области.

Annotation:

Self-supervised learning (SSL) has emerged as a powerful approach for learning visual representations without manual annotations. However, the robustness of standard SSL methods to domain shift -- systematic differences across data sources -- remains uncertain, posing an especially critical challenge in biomedical imaging where batch effects can obscure true biological signals. We present AdvDINO, a domain-adversarial self-supervised learning framework that integrates a gradient reversal layer i...

ID: 2508.04955v1 cs.CV, cs.AI

arXiv PDF

📄 MENDR: Manifold Explainable Neural Data Representations

2025-08-09

Авторы:

Matthew Chen, Micky Nnamdi, Justin Shao, Andrew Hornback, Hongyun Huang, Ben Tamo, Yishan Zhong, Benoit Marteau, Wenqi Shi, May Dongmei Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие нейронных сетей для обработки электроэнцефалограмм (ЭЭГ) открыло новые возможности в медицинской диагностике и монитории. Однако существующие модели, особенно фундаментальные модели (foundation models), сталкиваются с рядом проблем, связанных с их прозрачностью и интерпретируемостью. Многие модели не дают полного представления о том, как они обучаются на ЭЭГ-данных и как сохраняют информацию в их э Acidifications. Это ограничивает их применение в клинической практике, где необходимо не только высокое качество прогнозов, но и понимание того, как эти прогнозы формируются. Традиционные подходы к обработке ЭЭГ часто опираются на временную область, не полностью используя преимущества современных методов цифровой обработки сигналов, таких как вейвлет-трансформы. Эти методы позволяют извлекать детерминированные и трассируемые функциональные признаки с различными временными разрешениями. Кроме того, существующие модели часто требуют большого количества параметров, что создает дополнительные трудности для их эффективного использования в реальных клинических условиях. В этой связи возникает необходимость в разработке модели, которая бы объединила высокую точность, эффективность и прозрачность. Такая модель должна быть способна не только обрабатывать ЭЭГ-данные с высокой точностью, но и предоставлять интерпретируемые результаты, которые могут быть поняты клиническими специалистами. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается MENDR (Manifold Explainable Neural Data Representations), инновационная модель, основанная на трансформере и фильтровочной банковой архитектуре. Основная идея MENDR заключается в обучении на основе симметричных положительно определенных матричных представлений ЭЭГ-сигналов, которые позволяют более эффективно представлять и интерпретируемый контент. MENDR использует вейвлет-трансформы для разложения ЭЭГ-сигналов на многоуровневые коэффициенты, что позволяет сохранить информацию на различных временных масштабах. Модель обучается на большом корпусе данных, состоящем из более чем 4000 часов ЭЭГ-записей. Эта обучающая выборка обеспечивает разнообразие и объем данных, необходимый для формирования общих представлений. Архитектура MENDR включает в себя Riemannian Manifold Transformer, который позволяет обрабатывать симметричные положительно определенные матрицы. Этот подход обеспечивает более высокую точность и интерпретируемость, так как эти матрицы могут быть визуализированы в виде геометрических эллипсоидов, что упрощает анализ и понимание результатов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности MENDR проведены эксперименты на нескольких клинических задачах, связанных с анализом ЭЭГ. Модель демонстрирует результаты, близкие к лучшим решениям в отрасли, при этом требуя значительно меньшего количества параметров. Это подтверждает ее эффективность и потенциал для практического применения. В экспериментах также показано, что MENDR позволяет точно восстанавливать ЭЭГ-сигналы из полученных э Acidifications, что является важной характеристикой для клинического применения. Благодаря визуализации симметричных положительно определенных матриц в виде эллипсоидов, модель обеспечивает более прозрачный и понятный способ анализа данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MENDR имеет значительный потенциал для применения в клинической практике. Благодаря своей прозрачности и интерпретируемости, модель может быть использована для более точного диагностирования и мониторинга состояния пациентов. Кроме того, ее эффективность и меньшее количество параметров делают ее более доступной для реального использования в клинических условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MENDR представляет собой важный шаг в развитии интерпретируемых нейронных моделей для анализа ЭЭГ. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, а также на интеграции модели в более широкий контекст медицинских приложений.

Annotation:

Foundation models for electroencephalography (EEG) signals have recently demonstrated success in learning generalized representations of EEGs, outperforming specialized models in various downstream tasks. However, many of these models lack transparency in their pretraining dynamics and offer limited insight into how well EEG information is preserved within their embeddings. For successful clinical integration, EEG foundation models must ensure transparency in pretraining, downstream fine-tuning,...

ID: 2508.04956v1 cs.LG, cs.AI

arXiv PDF

📄 UGOD: Uncertainty-Guided Differentiable Opacity and Soft Dropout for Enhanced Sparse-View 3DGS

2025-08-09

Авторы:

Zhihao Guo, Peng Wang, Zidong Chen, Xiangyu Kong, Yan Lyu, Guanyu Gao, Liangxiu Han

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) является одним из передовых методов для синтеза новых видов (NVS), предлагающим высокую эффективность рендеринга за счет проекции и смешивания 3D Gaussian. Однако, несмотря на значительные достижения в области NVS, существуют существенные проблемы, особенно в сценариях с разреженными видами. Традиционные подходы 3DGS обычно обрабатывают Gaussians с одинаковым весом во время рендеринга, что может привести к переобучению и понижению качества реконструкции, особенно в разреженных сценариях. Проблема переобучения в разреженных данных является ключевым перечнем для улучшения качества синтеза новых видов. Кроме того, существующие методы, такие как DropGaussian, предлагают решения для регуляризации, но они не всегда обеспечивают оптимальное балансирование между качеством реконструкции и сложностью модели. Это вызывает потребность в разработке более эффективного подхода, который может адаптивно регулировать веса Gaussians и улучшить качество рендеринга, особенно в условиях разреженности данных. В этой статье предлагается метод UGOD, который вводит концепцию неопределенности (uncertainty) для адаптивного регулирования весов Gaussians. Неопределенность используется для оптимизации прозрачности (opacity) Gaussians и внедрения механизма soft differentiable dropout, который помогает регулировать процесс рендеринга. Этот подход не только сохраняет интегрированность 3DGS, но также обеспечивает высокое качество реконструкции в сравнении с существующими методами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Метод UGOD вводит два основных компонента: адаптивное обучение неопределенности и soft differentiable dropout. Неопределенность, изученная в процессе обучения, руководит обновлением прозрачности Gaussians таким образом, чтобы сохранить целостность 3DGS. Это позволяет модели адаптироваться к разреженным данным и улучшить качество реконструкции. Soft differentiable dropout регулирует неопределенность, преобразуя ее в непрерывные вероятности удаления (drop probabilities), которые затем применяются к процессу проекции и смешивания Gaussians. Этот механизм помогает предотвратить переобучение и улучшить качество рендеринга, особенно в условиях разреженности. Архитектура UGOD сохраняет интегрированность 3DGS и интегрирует эти компоненты в существующую модель без существенных изменений. Это позволяет эффективно использовать преимущества неопределенности и dropout для улучшения результатов синтеза новых видов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UGOD проведены исследования на нескольких известных датасетах, включая MipNeRF 360. Результаты показывают, что UGOD достигает высокого качества реконструкции в сравнении со стандартными методами 3DGS и существующими решениями, такими как DropGaussian. Например, на датасете MipNeRF 360, UGOD достигает повышения PSNR на 3.27% по сравнению с DropGaussian. Эти результаты демонстрируют, что UGOD эффективно использует адаптивное обучение неопределенности и механизм soft dropout для улучшения качества рендеринга, особенно в сценариях с разреженными данными. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод UGOD имеет широкое применение в области нового вида синтеза (NVS), особенно в случаях, когда доступны разреженные данные. Он может быть использован в различных приложениях, таких как виртуальная и дополненная реальность, 3D-моделирование и компьютерная графика. Преимущества UGOD включают в себя улучшенное качество реконструкции, эффективность рендеринга и адаптивность к разреженным данным. Эти преимущества делают его привлекательным для практических приложений, где важно обеспечить высокое качество визуализации при ограниченных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Метод UGOD является значительным шагом вперед в области 3D Gaussian Splatting и синтеза новых видов. Он предлагает эффективное решение для проблемы переобучения в разреженных данных и показывает высокие результаты на различных датасетах. В будущем, дальнейшее исследование может быть направлено на улучшение адаптивности и скорости обработки данных, а также на применение этого подхода в других областях компьютерной графики и 3D-моделирования. Это может открыть новые возможности для улучшения качества визуализации в различных приложениях.

Annotation:

3D Gaussian Splatting (3DGS) has become a competitive approach for novel view synthesis (NVS) due to its advanced rendering efficiency through 3D Gaussian projection and blending. However, Gaussians are treated equally weighted for rendering in most 3DGS methods, making them prone to overfitting, which is particularly the case in sparse-view scenarios. To address this, we investigate how adaptive weighting of Gaussians affects rendering quality, which is characterised by learned uncertainties pr...

ID: 2508.04968v1 cs.CV, cs.AI, I.4.8; I.2.10; I.5.1

arXiv PDF

📄 Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots

2025-08-09

Авторы:

Wenjie Hu, Ye Zhou, Hann Woei Ho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Навигация по лабиринту является ключевой задачей в робототехнике, требующей от мобильных роботов эффективного перемещения в сложных средах. Эта задача представляет собой сложную проблему, особенно в условиях наличия разреженных наград, неэффективной исследовательской стратегии и сложностей в планировании длительных траекторий. Традиционное применение алгоритма Deep Deterministic Policy Gradient (DDPG), который доказал свою эффективность в задачах управления, не всегда дает желаемые результаты в лабиринтной навигации. Основные проблемы связаны со слабой устойчивостью, недостаточной эффективностью исследования среды и неоптимальным выполнением задач на длительных горизонтах времени. Эти недостатки часто приводят к низким показателям успешности и средним наградам, а в некоторых случаях даже к неудаче в достижении цели. Мотивацией для разработки нового подхода является необходимость улучшения эффективности и стабильности навигации, а также преодоление текущих ограничений DDPG. Требуется метод, который может эффективно разрешать проблемы разреженности наград и недостаточной исследовательской активности, обеспечивая устойчивую и надежную навигацию в сложных средах. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается алгоритм Hierarchical DDPG (HDDPG), который состоит из двух уровней политик: высокоуровневой и низкоуровневой. Высокоуровневая политика использует расширенный DDPG для генерации промежуточных подцелей (subgoals) с более длительной временной шкалой, что позволяет управлять задачей с высокоуровневой перспективы. Низкоуровневая политика, также основана на улучшенном DDPG и отвечает за генерацию примитивных действий на основе текущего состояния и назначенной подцели. Для улучшения стабильности используется off-policy correction, который рефинирует подцели путем переобозначения исторических опытов. Для улучшения исследования среды применяется адаптивный параметрический шум, что позволяет роботу более эффективно изучать неизученные области. Также вводится переопределенная функция награды, которая сочетает внутреннюю и внешнюю награду для повышения эффективности обучения. Дополнительные оптимизации, такие как gradient clipping и Xavier initialization, применяются для повышения робустности алгоритма. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки производительности HDDPG были проведены эксперименты в симуляционной среде, используя Robot Operating System (ROS) и Gazebo. Эксперименты включали три различных цели в задачах автономной навигации по лабиринту. HDDPG показал значительное улучшение по сравнению с базовым DDPG и его вариантами, увеличивший успешность навигации на 56.59% и среднюю награду на 519.03 единиц. Эти результаты демонстрируют высокую эффективность и стабильность предлагаемого метода в решении задач лабиринтной навигации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый HDDPG алгоритм имеет широкое применение в области мобильной роботике, особенно в задачах автономной навигации в сложных средах. Его преимущества включают высокую устойчивость, эффективность исследования и улучшенное планирование на длительных горизонтах. Это может быть применено в различных сферах, таких как поиск и спасение, логистика и инспекция инфраструктуры, где требуется высокая производительность в условиях сложности и неопределенности среды. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был разработан эффективный алгоритм HDDPG, который значительно улучшает производительность навигации мобильных роботов в лабиринтах. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в том числе на адаптации к другим типам сред и задач, а также на интеграции с другими технологиями, такими как коммуникация между роботами и многоагентные системы.

Annotation:

Maze navigation is a fundamental challenge in robotics, requiring agents to traverse complex environments efficiently. While the Deep Deterministic Policy Gradient (DDPG) algorithm excels in control tasks, its performance in maze navigation suffers from sparse rewards, inefficient exploration, and long-horizon planning difficulties, often leading to low success rates and average rewards, sometimes even failing to achieve effective navigation. To address these limitations, this paper proposes an ...

ID: 2508.04994v1 cs.RO, cs.AI

arXiv PDF

1
2
3378
3379
3380
3381
3382
3402
3403

Показано 33791 - 33800 из 34022 записей