📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring

2025-08-09

Авторы:

Zhu Xu, Ting Lei, Zhimin Li, Guan Wang, Qingchao Chen, Yuxin Peng, Yang liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Dynamic Scene Graph Generation (DSGG) — это задача, направленная на построение сценовых графов для каждого кадра видео, включая детекцию объектов и прогнозирование их взаимодействий. Данная задача является ключевой для понимания динамических сцен в видео, однако традиционные подходы к DSGG требуют значительных ресурсов на разметку данных, что становится критическим препятствием для практического применения. Для снижения затрат на разметку была предложена Weakly Supervised DSGG (WS-DSGG), которая использует для обучения нелокализованные сценовые графы, полученные из одного кадра на видео. Однако существующие методы WS-DSGG строятся на основе внешних объектных детекторов, обученных на статических изображениях, что приводит к проблемам в динамических, отношениями-ориентированных сценах. Внешние объектные детекторы часто не справляются с задачей точной локализации объектов в динамической области видимости, особенно когда речь идет о сложных сценах с большим количеством взаимодействующих элементов. Такие детекторы часто выдают неточные позиции объектов и низкие уровни достоверности предложений, что существенно снижает качество WS-DSGG. Эта несогласованность между обучением детекторов на статических данных и их применением в динамических сценах является ключевой проблемой, которую необходимо решить для эффективного использования WS-DSGG. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неточности внешних объектных детекторов в динамических сценах был предложен метод TRKT (Temporal-enhanced Relation-aware Knowledge Transferring). TRKT состоит из двух ключевых компонентов. Первый компонент — **Relation-aware Knowledge Mining**. В этом компоненте используются объектные и отношенческие декодеры для генерации категорийных attention maps, которые подчеркивают области объектов и их взаимодействий. Для улучшения качества attention maps используется стратегия Inter-frame Attention Augmentation, которая использует оптический поток из соседних кадров для создания motion-aware attention maps. Это позволяет улучшить устойчивость к движениям и размытию, обеспечивая более точную локализацию и выделение взаимодействующих областей. Второй компонент — **Dual-stream Fusion Module**. Этот модуль интегрирует категорийные attention maps во внешние детекции, улучшая локализацию объектов и повышая уровень достоверности предложений. Это позволяет добиться более точного выделения объектов и их отношений в динамических сценах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете Action Genome, который представляет собой набор видео с размеченными сценовыми графами. TRKT демонстрирует высокую эффективность по сравнению со существующими методами WS-DSGG. Благодаря интеграции motion-aware attention maps и Dual-stream Fusion Module, TRKT показывает значительное улучшение точности детекции объектов и предсказания отношений в динамических сценах. Метод TRKT достигает лучших результатов по всем ключевым метрикам по сравнению с другими методами WS-DSGG. Эксперименты показывают, что TRKT не только улучшает качество детекции, но также снижает влияние неточных предложений, полученных из внешних объектных детекторов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ TRKT может быть применен в различных областях, требующих понимания динамических сцен, таких как анализ видео, распознавание действий, автоматическое описание сцен и взаимодействие с роботами. Благодаря своей способности точно локализовывать объекты и их отношения в динамических сценах, TRKT может быть использован в системах компьютерного зрения для повышения точности и надежности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ TRKT представляет собой значительный шаг вперед в области Weakly Supervised DSGG, решая проблему неточных детекторов в динамических сценах. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и устойчивости метода, а также на расширении его применимости к более широкому классу данных видео.

Annotation:

Dynamic Scene Graph Generation (DSGG) aims to create a scene graph for each video frame by detecting objects and predicting their relationships. Weakly Supervised DSGG (WS-DSGG) reduces annotation workload by using an unlocalized scene graph from a single frame per video for training. Existing WS-DSGG methods depend on an off-the-shelf external object detector to generate pseudo labels for subsequent DSGG training. However, detectors trained on static, object-centric images struggle in dynamic, ...

ID: 2508.04943v1 cs.CV, cs.AI

arXiv PDF

📄 Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

2025-08-09

Авторы:

Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальная распознавательная система для распознавания действий является важной областью исследований в области компьютерного зрения и языковых технологий. Однако, оценка эффективности таких систем сталкивается с некоторыми проблемами, связанными с неоднозначностью семантики глаголов и разнообразием точек зрения на изображения. Например, одно и то же действие может быть описано разными синонимичными глаголами (например, "brushing" и "grooming") или может иметь различные описания в зависимости от контекста (например, "piloting" vs. "operating"). Традиционные методы оценки, основанные на точном совпадении с единственным "золотым" ответом, не могут учитывать эту неоднозначность, что приводит к неполной и неточной оценке производительности моделей. Данная проблематика становится особенно актуальной при работе с большими наборами данных, где изображения могут быть интерпретированы по-разному в зависимости от контекста или цели. Таким образом, необходимо разработать более гибкий и точный метод оценки, который учитывал бы различные толкования действий и обеспечил бы более корректную оценку моделей распознавания действий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать визуально-языковой кластеринговый фреймворк для решения проблемы неоднозначности семантики глаголов. Этот фреймворк построен на основе создания кластеров смыслов (sense clusters) для глаголов, которые представляют различные интерпретации действий. Каждый кластер соответствует определенному перспективному виду на действие, который может быть выражен разными глаголами. Метод включает в себя анализ набора данных imSitu, где для каждого изображения определяется среднее количество кластеров, соответствующих разным интерпретациям. Например, для одного изображения может быть определено 2,8 кластера, каждый из которых представляет отдельный взгляд на действие. Авторы также проводят сравнение различных моделей распознавания действий, используя кластеризацию смыслов в качестве более точного метода оценки, по сравнению с традиционными подходами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на базе данных imSitu. Результаты показали, что каждое изображение может быть описано с помощью нескольких кластеров, что подтверждает наличие неоднозначности в интерпретации действий. Авторы также провели сравнение результатов различных моделей распознавания действий, используя как традиционный подход, так и кластеризацию смыслов. Результаты показали, что кластеризация смыслов лучше согласуется с человеческим суждением, что делает этот подход более точным и надежным. Кроме того, авторы провели анализ выравнивания моделей с человеческим опытом, который показал, что кластеризация смыслов лучше отражает различные точки зрения на действия, чем традиционные методы оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод кластеризации смыслов имеет широкое применение в области распознавания действий, особенно в ситуациях, где необходимо учитывать неоднозначность семантики. Этот подход может быть использован в различных приложениях, таких как распознавание действий в реальном времени, автоматическая аннотация изображений, а также в системах поддержки принятия решений, где точное понимание контекста играет ключевую роль. Преимуществом данного подхода является его способность учитывать различные перспективы и толкования действий, что позволяет получить более точную и контекстуальную оценку. Это может привести к улучшению качества распознавания действий и увеличению доверия к таким системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предложенный метод кластеризации смыслов для глаголов предлагает более гибкий и точный способ оценки моделей распознавания действий. Этот подход не только улучшает точность оценки, но также лучше согласуется с человеческим суждением. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода, включая расширение его применения на другие наборы данных и доработку алгоритмов кластеризации для еще более точного анализа. Также, можно рассмотреть возможность использования этого подхода в сочетании с другими методами оценки, такими как нейронные сети и глубокое обучение, для создания еще более надежных и точных систем распознавания действий.

Annotation:

Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessme...

ID: 2508.04945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 Tesserae: Scalable Placement Policies for Deep Learning Workloads

2025-08-09

Авторы:

Song Bian, Saurabh Agarwal, Md. Tareq Mahmood, Shivaram Venkataraman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Обучение моделей глубокого обучения (DL) является ключевой рабочей нагрузкой в современных центрах обработки данных (DC). Эффективное использование ресурсов является краеугольной задачей для планировщиков кластеров DL. Однако существующие методы поиска решений для размещения задач в кластере сталкиваются с значительными ограничениями. Кластерные планировщики DL обычно используют политики размещения для определения того, где задания будут выполняться в кластере. Тем не менее, существующие политики размещения либо основываются на ад-хок методах (ad-hoc heuristics), либо интегрируются в виде ограничений в сложные оптимизационные задачи. Такие подходы могут приводить либо к подвыборке (suboptimal performance), либо к неэффективному масштабированию (poor scalability). Главная проблема состоит в том, что традиционные политики размещения не справляются с высокой динамикой и сложностью DL-кластеров, что приводит к чрезмерной нагрузке и неэффективному использованию ресурсов, таких как GPU. Кроме того, миграция задач (job migration) между узлами кластера может приводить к дополнительным накладным расходам (overheads), что ухудшает общую производительность. Таким образом, необходим новый подход, который мог бы обеспечить более эффективное распределение ресурсов и уменьшить накладные расходы на миграцию задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается методология Tesserae, которая использует новые политики размещения для решения проблемы миграции задач и оптимизации использования GPU в кластере. Основная идея заключается в том, чтобы формализовать многие ограничения размещения как проблемы графового сопоставления (graph matching problems). Это позволяет разработать политики, которые минимизируют накладные расходы на миграцию задач и оптимизируют упаковку задач (job packing). Tesserae включает в себя два основных компонента: графовое моделирование задач и оптимизация размещения. Графы используются для представления зависимостей и ограничений между задачами и ресурсами в кластере. Затем, на основе этого представления, применяется алгоритм графового сопоставления для определения оптимальных мест размещения задач. Это позволяет уменьшить количество необходимых перемещений задач между узлами и, следовательно, снизить накладные расходы. Кроме того, Tesserae интегрирует эти политики в рамках гибкой и масштабируемой архитектуры планировщика. Эта архитектура поддерживает динамическое изменение ресурсов и позволяет эффективно адаптироваться к различным рабочим нагрузкам. Это обеспечивает высокую производительность и масштабируемость, что является ключевым достижением этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Tesserae были проведены различные эксперименты, использующие реальные рабочие нагрузки DL. Данные для экспериментов были получены из крупномасштабных кластеров GPU, которые используются для обучения DL-моделей. Эксперименты проводились на разных размерах кластеров, от небольших до крупных, для оценки масштабируемости Tesserae. Результаты показали, что Tesserae улучшает среднее время выполнения задач (JCT, Job Completion Time) до 1.62 раза по сравнению с существующими планировщиками. Кроме того, Tesserae уменьшает общее время выполнения всех задач (Makespan) до 1.15 раза. Эти результаты демонстрируют высокую эффективность и масштабируемость предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Tesserae имеет широкое применение в области управления ресурсами в DL-кластерах. Он может быть использован для оптимизации работы крупных дата-центров, где обучение DL-моделей является одной из ключевых рабочих нагрузок. Преимущества Tesserae включают в себя уменьшение времени выполнения задач, снижение накладных расходов на миграцию задач, и повышение общей производительности кластера. Кроме того, Tesserae может быть применен в облачных вычислениях, где эффективное использование ресурсов является критическим фактором для экономичности и производительности. Потенциальное влияние Tesserae заключается в том, что он может существенно улучшить эффективность использования GPU и других ресурсов в кластерах, что может привести к существенным экономиям времени и ресурсов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основными достижениями Tesserae являются улучшение среднего времени выполнения задач и общего времени выполнения всех задач, а также повышение масштабируемости планировщика. Будущие исследования могут фокусироваться на дальнейшей оптимизации алгоритмов графового сопоставления и расширении применимости Tesserae к другим типам ресурсов, таких как TPU или FPGA, а также на интеграции с более сложными DL-рабочими нагрузками.

Annotation:

Training deep learning (DL) models has become a dominant workload in data-centers and improving resource utilization is a key goal of DL cluster schedulers. In order to do this, schedulers typically incorporate placement policies that govern where jobs are placed on the cluster. Existing placement policies are either designed as ad-hoc heuristics or incorporated as constraints within a complex optimization problem and thus either suffer from suboptimal performance or poor scalability. Our key in...

ID: 2508.04953v1 cs.DC, cs.AI

arXiv PDF

📄 AdvDINO: Domain-Adversarial Self-Supervised Representation Learning for Spatial Proteomics

2025-08-09

Авторы:

Stella Su, Marc Harary, Scott J. Rodig, William Lotter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование в области самоконтролируемого обучения (Self-Supervised Learning, SSL) получило широкое распространение за счет возможности формирования эффективных визуальных представлений без необходимости в ручной аннотации данных. Однако одним из ключевых ограничений стандартных подходов SSL является их уязвимость к доменному сдвигу (domain shift) – систематическим различиям между различными источниками данных. Этот вопрос особенно критичен в биомедицинском имижинге, где такие различия, известные как batch effects, могут затруднить выявление истинных биологических сигналов. В биомедицинских исследованиях, таких как спейсьюал протеомикс (spatial proteomics), ключевой задачей является обнаружение сложных взаимосвязей между визуальными и биологическими характеристикими. Однако, существующие методы SSL часто не могут эффективно справиться с доменным сдвигом, что приводит к неоптимальным результатам и потерянным возможностям в интерпретации данных. Таким образом, разработка методологии, способной эффективно справиться с такими проблемами, представляет собой важную задачу для улучшения качества и надежности моделей в биомедицинских приложениях. Предлагаемый метод AdvDINO направлен на решение этой проблемы, интегрируя подход домен-адверсаряльного обучения (domain-adversarial learning) в рамках архитектуры DINOv2. Целью этого подхода является повышение устойчивости модели к доменному сдвигу, что позволяет формировать более робостные и биологически значимые представления данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД AdvDINO представляет собой расширение архитектуры DINOv2, которая является одной из современных моделей для самоконтролируемого обучения. Основной инновацией AdvDINO является интеграция градиентного реверсального слоя (Gradient Reversal Layer, GRL) внутри модели. Этот слой позволяет модели учитывать различия между доменами данных и, в то же время, стимулирует формирование домен-инвариантных (domain-invariant) функций. Градиентный реверсальный слой работает путем обращения градиентов в процессе обучения, что позволяет модели учиться игнорировать доменно-зависимые признаки и формировать более универсальные представления. Такой подход позволяет AdvDINO эффективно справляться с доменным сдвигом, характерным для биомедицинских данных, в частности, для данных полученных из различных источников или биологических образцов. В рамках исследования AdvDINO применяется к данным six-channel multiplex immunofluorescence (mIF) whole slide images, полученным из пациентов с неклеточным раком легкого (non-small cell lung cancer). Эти данные характеризуются высокой разнообразностью и сложностью, что делает их идеальной платформой для тестирования методов справляющихся с доменным сдвигом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности AdvDINO авторы провели серию экспериментов на базе данных, состоящей из более чем 5,46 млн. изображений mIF image tiles. Эти изображения были получены из различных биологических образцов, что позволило провести комплексный анализ возможностей модели в условиях доменного сдвига. Результаты экспериментов показали, что AdvDINO значительно превосходит базовые модели без домен-адверсаряльного обучения в сфере формирования биологически значимых представлений. Модель успешно выявила кластеры представлений, которые соотносятся с различными биологическими профилями и имеют прогностическую значимость. Кроме того, AdvDINO показала улучшенные результаты в задаче прогнозирования выживаемости (survival prediction) при использовании в сочетании с attention-based multiple instance learning. Эти результаты подтверждают, что интеграция домен-адверсаряльного подхода в самоконтролируемое обучение может значительно повысить качество и надежность моделей в биомедицинских приложениях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AdvDINO имеет широкий спектр практических применений в области биомедицинского имижинга и далее. Его способность формировать домен-инвариантные представления данных делает его подходящим для использования в различных областях, включая радиологию, дистанционный сенсинг и автономное вождение. В биомедицинской практике, AdvDINO может быть использован для анализа и интерпретации данных, полученных из различных клинических исследований, где доменный сдвиг часто является существенной проблемой. Улучшенная устойчивость модели к batch effects позволяет более точно выявлять биологические сигналы, что может привести к новым открытиям в области диагностики и лечения заболеваний. Кроме того, AdvDINO может быть применен в задачах, требующих высокой точности и интерпретируемости, таких как прогнозирование выживаемости пациентов или классификация биологических образцов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AdvDINO является важным шагом вперед в области самоконтролируемого обучения и его применения в биомедицинской имижинге. Интеграция домен-адверсаряльного подхода в DINOv2 позволяет формировать более робостные и биологически значимые представления данных, что особенно важно в условиях доменного сдвига. Будущие исследования могут фоксироваться на дальнейшем улучшении модели, включая оптимизацию архитектуры и расширение ее применимости к другим типам данных. Кроме того, исследования в области домен-адверсаряльного обучения могут быть расширены для решения задач в других областях, где доменный сдвиг представляет собой критическую проблему. Таким образом, AdvDINO не только улучшает существующие методы SSL, но и открывает новые возможности для будущих исследований и приложений в биомедицинской области.

Annotation:

Self-supervised learning (SSL) has emerged as a powerful approach for learning visual representations without manual annotations. However, the robustness of standard SSL methods to domain shift -- systematic differences across data sources -- remains uncertain, posing an especially critical challenge in biomedical imaging where batch effects can obscure true biological signals. We present AdvDINO, a domain-adversarial self-supervised learning framework that integrates a gradient reversal layer i...

ID: 2508.04955v1 cs.CV, cs.AI

arXiv PDF

📄 MENDR: Manifold Explainable Neural Data Representations

2025-08-09

Авторы:

Matthew Chen, Micky Nnamdi, Justin Shao, Andrew Hornback, Hongyun Huang, Ben Tamo, Yishan Zhong, Benoit Marteau, Wenqi Shi, May Dongmei Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие нейронных сетей для обработки электроэнцефалограмм (ЭЭГ) открыло новые возможности в медицинской диагностике и монитории. Однако существующие модели, особенно фундаментальные модели (foundation models), сталкиваются с рядом проблем, связанных с их прозрачностью и интерпретируемостью. Многие модели не дают полного представления о том, как они обучаются на ЭЭГ-данных и как сохраняют информацию в их э Acidifications. Это ограничивает их применение в клинической практике, где необходимо не только высокое качество прогнозов, но и понимание того, как эти прогнозы формируются. Традиционные подходы к обработке ЭЭГ часто опираются на временную область, не полностью используя преимущества современных методов цифровой обработки сигналов, таких как вейвлет-трансформы. Эти методы позволяют извлекать детерминированные и трассируемые функциональные признаки с различными временными разрешениями. Кроме того, существующие модели часто требуют большого количества параметров, что создает дополнительные трудности для их эффективного использования в реальных клинических условиях. В этой связи возникает необходимость в разработке модели, которая бы объединила высокую точность, эффективность и прозрачность. Такая модель должна быть способна не только обрабатывать ЭЭГ-данные с высокой точностью, но и предоставлять интерпретируемые результаты, которые могут быть поняты клиническими специалистами. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается MENDR (Manifold Explainable Neural Data Representations), инновационная модель, основанная на трансформере и фильтровочной банковой архитектуре. Основная идея MENDR заключается в обучении на основе симметричных положительно определенных матричных представлений ЭЭГ-сигналов, которые позволяют более эффективно представлять и интерпретируемый контент. MENDR использует вейвлет-трансформы для разложения ЭЭГ-сигналов на многоуровневые коэффициенты, что позволяет сохранить информацию на различных временных масштабах. Модель обучается на большом корпусе данных, состоящем из более чем 4000 часов ЭЭГ-записей. Эта обучающая выборка обеспечивает разнообразие и объем данных, необходимый для формирования общих представлений. Архитектура MENDR включает в себя Riemannian Manifold Transformer, который позволяет обрабатывать симметричные положительно определенные матрицы. Этот подход обеспечивает более высокую точность и интерпретируемость, так как эти матрицы могут быть визуализированы в виде геометрических эллипсоидов, что упрощает анализ и понимание результатов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности MENDR проведены эксперименты на нескольких клинических задачах, связанных с анализом ЭЭГ. Модель демонстрирует результаты, близкие к лучшим решениям в отрасли, при этом требуя значительно меньшего количества параметров. Это подтверждает ее эффективность и потенциал для практического применения. В экспериментах также показано, что MENDR позволяет точно восстанавливать ЭЭГ-сигналы из полученных э Acidifications, что является важной характеристикой для клинического применения. Благодаря визуализации симметричных положительно определенных матриц в виде эллипсоидов, модель обеспечивает более прозрачный и понятный способ анализа данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MENDR имеет значительный потенциал для применения в клинической практике. Благодаря своей прозрачности и интерпретируемости, модель может быть использована для более точного диагностирования и мониторинга состояния пациентов. Кроме того, ее эффективность и меньшее количество параметров делают ее более доступной для реального использования в клинических условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MENDR представляет собой важный шаг в развитии интерпретируемых нейронных моделей для анализа ЭЭГ. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, а также на интеграции модели в более широкий контекст медицинских приложений.

Annotation:

Foundation models for electroencephalography (EEG) signals have recently demonstrated success in learning generalized representations of EEGs, outperforming specialized models in various downstream tasks. However, many of these models lack transparency in their pretraining dynamics and offer limited insight into how well EEG information is preserved within their embeddings. For successful clinical integration, EEG foundation models must ensure transparency in pretraining, downstream fine-tuning,...

ID: 2508.04956v1 cs.LG, cs.AI

arXiv PDF

📄 UGOD: Uncertainty-Guided Differentiable Opacity and Soft Dropout for Enhanced Sparse-View 3DGS

2025-08-09

Авторы:

Zhihao Guo, Peng Wang, Zidong Chen, Xiangyu Kong, Yan Lyu, Guanyu Gao, Liangxiu Han

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) является одним из передовых методов для синтеза новых видов (NVS), предлагающим высокую эффективность рендеринга за счет проекции и смешивания 3D Gaussian. Однако, несмотря на значительные достижения в области NVS, существуют существенные проблемы, особенно в сценариях с разреженными видами. Традиционные подходы 3DGS обычно обрабатывают Gaussians с одинаковым весом во время рендеринга, что может привести к переобучению и понижению качества реконструкции, особенно в разреженных сценариях. Проблема переобучения в разреженных данных является ключевым перечнем для улучшения качества синтеза новых видов. Кроме того, существующие методы, такие как DropGaussian, предлагают решения для регуляризации, но они не всегда обеспечивают оптимальное балансирование между качеством реконструкции и сложностью модели. Это вызывает потребность в разработке более эффективного подхода, который может адаптивно регулировать веса Gaussians и улучшить качество рендеринга, особенно в условиях разреженности данных. В этой статье предлагается метод UGOD, который вводит концепцию неопределенности (uncertainty) для адаптивного регулирования весов Gaussians. Неопределенность используется для оптимизации прозрачности (opacity) Gaussians и внедрения механизма soft differentiable dropout, который помогает регулировать процесс рендеринга. Этот подход не только сохраняет интегрированность 3DGS, но также обеспечивает высокое качество реконструкции в сравнении с существующими методами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Метод UGOD вводит два основных компонента: адаптивное обучение неопределенности и soft differentiable dropout. Неопределенность, изученная в процессе обучения, руководит обновлением прозрачности Gaussians таким образом, чтобы сохранить целостность 3DGS. Это позволяет модели адаптироваться к разреженным данным и улучшить качество реконструкции. Soft differentiable dropout регулирует неопределенность, преобразуя ее в непрерывные вероятности удаления (drop probabilities), которые затем применяются к процессу проекции и смешивания Gaussians. Этот механизм помогает предотвратить переобучение и улучшить качество рендеринга, особенно в условиях разреженности. Архитектура UGOD сохраняет интегрированность 3DGS и интегрирует эти компоненты в существующую модель без существенных изменений. Это позволяет эффективно использовать преимущества неопределенности и dropout для улучшения результатов синтеза новых видов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UGOD проведены исследования на нескольких известных датасетах, включая MipNeRF 360. Результаты показывают, что UGOD достигает высокого качества реконструкции в сравнении со стандартными методами 3DGS и существующими решениями, такими как DropGaussian. Например, на датасете MipNeRF 360, UGOD достигает повышения PSNR на 3.27% по сравнению с DropGaussian. Эти результаты демонстрируют, что UGOD эффективно использует адаптивное обучение неопределенности и механизм soft dropout для улучшения качества рендеринга, особенно в сценариях с разреженными данными. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод UGOD имеет широкое применение в области нового вида синтеза (NVS), особенно в случаях, когда доступны разреженные данные. Он может быть использован в различных приложениях, таких как виртуальная и дополненная реальность, 3D-моделирование и компьютерная графика. Преимущества UGOD включают в себя улучшенное качество реконструкции, эффективность рендеринга и адаптивность к разреженным данным. Эти преимущества делают его привлекательным для практических приложений, где важно обеспечить высокое качество визуализации при ограниченных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Метод UGOD является значительным шагом вперед в области 3D Gaussian Splatting и синтеза новых видов. Он предлагает эффективное решение для проблемы переобучения в разреженных данных и показывает высокие результаты на различных датасетах. В будущем, дальнейшее исследование может быть направлено на улучшение адаптивности и скорости обработки данных, а также на применение этого подхода в других областях компьютерной графики и 3D-моделирования. Это может открыть новые возможности для улучшения качества визуализации в различных приложениях.

Annotation:

3D Gaussian Splatting (3DGS) has become a competitive approach for novel view synthesis (NVS) due to its advanced rendering efficiency through 3D Gaussian projection and blending. However, Gaussians are treated equally weighted for rendering in most 3DGS methods, making them prone to overfitting, which is particularly the case in sparse-view scenarios. To address this, we investigate how adaptive weighting of Gaussians affects rendering quality, which is characterised by learned uncertainties pr...

ID: 2508.04968v1 cs.CV, cs.AI, I.4.8; I.2.10; I.5.1

arXiv PDF

📄 Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots

2025-08-09

Авторы:

Wenjie Hu, Ye Zhou, Hann Woei Ho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Навигация по лабиринту является ключевой задачей в робототехнике, требующей от мобильных роботов эффективного перемещения в сложных средах. Эта задача представляет собой сложную проблему, особенно в условиях наличия разреженных наград, неэффективной исследовательской стратегии и сложностей в планировании длительных траекторий. Традиционное применение алгоритма Deep Deterministic Policy Gradient (DDPG), который доказал свою эффективность в задачах управления, не всегда дает желаемые результаты в лабиринтной навигации. Основные проблемы связаны со слабой устойчивостью, недостаточной эффективностью исследования среды и неоптимальным выполнением задач на длительных горизонтах времени. Эти недостатки часто приводят к низким показателям успешности и средним наградам, а в некоторых случаях даже к неудаче в достижении цели. Мотивацией для разработки нового подхода является необходимость улучшения эффективности и стабильности навигации, а также преодоление текущих ограничений DDPG. Требуется метод, который может эффективно разрешать проблемы разреженности наград и недостаточной исследовательской активности, обеспечивая устойчивую и надежную навигацию в сложных средах. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается алгоритм Hierarchical DDPG (HDDPG), который состоит из двух уровней политик: высокоуровневой и низкоуровневой. Высокоуровневая политика использует расширенный DDPG для генерации промежуточных подцелей (subgoals) с более длительной временной шкалой, что позволяет управлять задачей с высокоуровневой перспективы. Низкоуровневая политика, также основана на улучшенном DDPG и отвечает за генерацию примитивных действий на основе текущего состояния и назначенной подцели. Для улучшения стабильности используется off-policy correction, который рефинирует подцели путем переобозначения исторических опытов. Для улучшения исследования среды применяется адаптивный параметрический шум, что позволяет роботу более эффективно изучать неизученные области. Также вводится переопределенная функция награды, которая сочетает внутреннюю и внешнюю награду для повышения эффективности обучения. Дополнительные оптимизации, такие как gradient clipping и Xavier initialization, применяются для повышения робустности алгоритма. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки производительности HDDPG были проведены эксперименты в симуляционной среде, используя Robot Operating System (ROS) и Gazebo. Эксперименты включали три различных цели в задачах автономной навигации по лабиринту. HDDPG показал значительное улучшение по сравнению с базовым DDPG и его вариантами, увеличивший успешность навигации на 56.59% и среднюю награду на 519.03 единиц. Эти результаты демонстрируют высокую эффективность и стабильность предлагаемого метода в решении задач лабиринтной навигации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый HDDPG алгоритм имеет широкое применение в области мобильной роботике, особенно в задачах автономной навигации в сложных средах. Его преимущества включают высокую устойчивость, эффективность исследования и улучшенное планирование на длительных горизонтах. Это может быть применено в различных сферах, таких как поиск и спасение, логистика и инспекция инфраструктуры, где требуется высокая производительность в условиях сложности и неопределенности среды. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был разработан эффективный алгоритм HDDPG, который значительно улучшает производительность навигации мобильных роботов в лабиринтах. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в том числе на адаптации к другим типам сред и задач, а также на интеграции с другими технологиями, такими как коммуникация между роботами и многоагентные системы.

Annotation:

Maze navigation is a fundamental challenge in robotics, requiring agents to traverse complex environments efficiently. While the Deep Deterministic Policy Gradient (DDPG) algorithm excels in control tasks, its performance in maze navigation suffers from sparse rewards, inefficient exploration, and long-horizon planning difficulties, often leading to low success rates and average rewards, sometimes even failing to achieve effective navigation. To address these limitations, this paper proposes an ...

ID: 2508.04994v1 cs.RO, cs.AI

arXiv PDF

📄 Situated Epistemic Infrastructures: A Diagnostic Framework for Post-Coherence Knowledge

2025-08-09

Авторы:

Matthew Kelly

## КОНТЕКСТ И ПРОБЛЕМАТИКА Статья Мэтью Келли "Situated Epistemic Infrastructures" адресует фундаментальный кризис современных знаний, вызванный массовым распространением больших языковых моделей (LLM) вроде ChatGPT. Автор утверждает, что LLM продемонстрировали хрупкость традиционных эпистемических инфраструктур - систем, которые раньше гарантировали достоверность знаний через цитирование, экспертную валидацию и институты авторитета. Проблема заключается в том, что LLM способны генерировать убедительную когерентность текста без подлинного понимания или подтверждения источников, тем самым разрушая классические механизмы эпистемического доверия. Келли описывает наступление "пост-когерентных условий" - эпохи, когда когерентность текста больше не гарантирует его достоверность. Это создает парадоксальную ситуацию: мы имеем доступ к беспрецедентному объему информации, но лишены надежных способов отделения достоверных знаний от убедительно сформулированных фантазий. Традиционные модели академического знания, основанные на стабильных дисциплинарных доменах и ограниченных сообществах практики, оказываются неадекватными в условиях гибридных человеко-машинных систем. Автор подчеркивает, что проблема выходит за рамки просто технической достоверности или информационной безопасности. Речь идет о фундаментальном пересмотре того, как знание становится авторитетным в эпоху ИИ. Существующие подходы к управлению знаниями опираются на репрезентационалистские модели, которые предполагают стабильность и очевидность границ между достоверным и недостоверным. Однако LLM демонстрируют, что когерентность может быть смоделирована без какой-либо связи с реальностью, что требует принципиально новых подходов к эпистемическому управлению. ## ПРЕДЛОЖЕННЫЙ МЕТОД Келли разрабатывает фреймворк Situated Epistemic Infrastructures (SEI) как диагностический инструмент для анализа того, как знания становятся авторитетными в условиях пост-когерентности. В отличие от традиционных подходов, которые фокусируются на классификации источников по их достоверности, SEI делает акцент на координации различных акторов и процессов в эпистемических системах. Фреймворк интегрирует три ключевых теоретических направления: исследования инфраструктур (infrastructure studies), теорию платформ и эпистемологию. Это позволяет рассматривать достоверность не как свойство отдельных источников, а как результат сложных взаимодействий между институциональными, вычислительными и временными аранжировками. SEI трассирует, как кредибилити медиируется через эти разнородные элементы, выявляя уязвимые места и точки возможного вмешательства. Методология SEI базируется на трех ключевых принципах. Во-первых, отказ от репрезентационалистской модели в пользу процессуального подхода, где знание рассматривается как постоянно пересматриваемый результат координационных усилий. Во-вторых, акцент на ситуированности - понимание того, что авторитетность знания зависит от конкретного контекста использования и временных рамок. В-третьих, разработка предвосхищающих и адаптивных моделей эпистемического управления, способных реагировать на быстро меняющиеся условия. Фреймворк предлагает диагностические категории для анализа эпистемических инфраструктур: стабильность/нестабильность координационных механизмов, степень открытости для внешнего аудита, способность к адаптации под новые условия, и наличие механизмов коллективного контроля качества. Эти категории позволяют не просто оценивать, является ли конкретное знание "истинным", но анализировать, как различные элементы системы способствуют или препятствуют его становлению авторитетным. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Хотя статья не содержит традиционных экспериментов в естественнонаучном понимании, Келли представляет серию концептуальных кейс-стади и диагностических применений фреймворка SEI для анализа существующих эпистемических систем. Автор иллюстрирует применение фреймворка на примере трех различных контекстов: академического peer-review, медицинских диагностических систем на базе ИИ, и новостных агрегаторов. В контексте академического peer-review, SEI выявляет, как традиционная модель двой

Annotation:

Large Language Models (LLMs) such as ChatGPT have rendered visible the fragility of contemporary knowledge infrastructures by simulating coherence while bypassing traditional modes of citation, authority, and validation. This paper introduces the Situated Epistemic Infrastructures (SEI) framework as a diagnostic tool for analyzing how knowledge becomes authoritative across hybrid human-machine systems under post-coherence conditions. Rather than relying on stable scholarly domains or bounded com...

ID: 2508.04995v1 cs.HC, cs.AI, cs.DL, K.4.1; K.3; K.2

arXiv PDF

📄 AgenticData: An Agentic Data Analytics System for Heterogeneous Data

2025-08-09

Авторы:

Ji Sun, Guoliang Li, Peiyao Zhou, Yihui Ma, Jingzhe Xu, Yuan Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире управления данными традиционные системы анализа неструктурированных данных требуют значительных усилий со стороны экспертов для написания кода и управления сложными рабочими процессами. Это делает такие системы затратными и медленными в применении, особенно когда речь идет о работе с данными разного типа, включая как структурированные, так и неструктурированные. Кроме того, существующие решения часто не обладают достаточной способностью к самостоятельному анализу и оптимизации, что увеличивает временные и финансовые затраты на анализ данных. Возрастающий объем и сложность данных в различных отраслях подчеркивают необходимость в разработке новых подходов, которые могли бы автоматизировать и упростить процесс анализа. Одной из ключевых проблем является необходимость в создании систем, которые могли бы эффективно обрабатывать запросы на естественном языке (NL) и обеспечивали бы высокую точность, не требуя постоянного вмешательства человека. Такие системы должны быть в состоянии работать с разными типами данных, поддерживать итеративное оптимизационное планирование и обеспечивать эффективное управление контекстом. AgenticData предлагает решение этих проблем, предлагая инновационный подход к анализу данных, основанный на использовании агентских систем и естественного языка. Основной целью этой системы является предоставление пользователям возможности задавать запросы на естественном языке, при этом система самостоятельно выполняет анализ данных, оптимизируя их поиск и обработку в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД AgenticData использует трехуровневую систему агентов для автоматизации и оптимизации процесса анализа данных. Первый уровень — **данные**, которые поступают из различных источников, включая структурированные и неструктурированные данные. Для обработки этих данных используется **дата-профайлинговый агент**, который отвечает за идентификацию и выборку релевантных данных. Второй уровень — **семантический кросс-валидационный агент**, который работает на основе обратной связи от пользователя. Этот агент выполняет итеративную оптимизацию семантических планов, улучшая точность и эффективность запросов. Третий уровень — **смарт-мемори агент**, который отвечает за управление контекстом. Он хранит краткосрочную информацию и долгосрочные знания, что позволяет системе адаптироваться к последовательным запросам и улучшать качество результатов. Для обработки запросов AgenticData использует **семантическую оптимизационную модель**, которая преобразует запросы на естественном языке в семантические планы, состоящие из реляционных и семантических операторов. Эти планы последовательно оптимизируются и выполняются, обеспечивая высокую точность и скорость выполнения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ AgenticData была протестирована на трех различных бенчмарках. Результаты показали, что система достигает значительно высокой точности как на простых, так и на сложных запросах. В сравнении с современными методами AgenticData показала значительное преимущество в точности и скорости выполнения задач. Благодаря своей функциональности и автоматизации, AgenticData показала способность эффективно работать в условиях сложности и гетерогенности данных, превзойдя существующие методы в области анализа данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AgenticData имеет широкий спектр применения в различных областях, где необходим анализ данных различных типов. Она может быть использована в бизнесе для анализа клиентских данных, в медицине для обработки медицинских записей, в образовании для анализа учебных материалов, а также в других областях, требующих эффективного управления и анализа данных. Преимущества AgenticData включают в себя снижение затрат на анализ данных, повышение точности результатов и ускорение процесса анализа. Это делает систему привлекательной для компаний и организаций, желающих оптимизировать свои процессы работы с данными. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AgenticData является передовым решением для анализа данных, которое обеспечивает высокую точность и эффективность работы с различными типами данных. Будущие исследования могут быть направлены на дальнейшее улучшение модели, включая расширение ее способностей к работе с большими наборами данных и улучшение ее адаптивности к новым типам запросов. Кроме того, можно рассмотреть возможность интеграции AgenticData с другими системами анализа данных для создания еще более мощных инструментов анализа.

Annotation:

Existing unstructured data analytics systems rely on experts to write code and manage complex analysis workflows, making them both expensive and time-consuming. To address these challenges, we introduce AgenticData, an innovative agentic data analytics system that allows users to simply pose natural language (NL) questions while autonomously analyzing data sources across multiple domains, including both unstructured and structured data. First, AgenticData employs a feedback-driven planning techn...

ID: 2508.05002v1 cs.DB, cs.AI

arXiv PDF

📄 A Multi-Stage Large Language Model Framework for Extracting Suicide-Related Social Determinants of Health

2025-08-09

Авторы:

Song Wang, Yishu Wei, Haotian Ma, Max Lovitt, Kelly Deng, Yuan Meng, Zihan Xu, Jingze Zhang, Yunyu Xiao, Ying Ding, Xuhai Xu, Joydeep Ghosh, Yifan Peng

## КОНТЕКСТ И ПРОБЛЕМАТИКА Раскрытие социальных детерминантов здоровья (SDoH), связанных с суицидальностью, является ключевым для ранней идентификации рисков и разработки эффективных программ профилактики. SDoH включают в себя широкий спектр факторов, таких как социально-экономические условия, доступность медицинских услуг, социальные поддерживающие сети и психологические условия, которые могут существенно повлиять на риск суицидального поведения. Однако исследования в этой области сталкиваются с рядом проблем. Во-первых, распределение SDoH-факторов характеризуется длиннохвостым распределением, где некоторые факторы являются редкими, но крайне важными. Это создает сложности для традиционных моделей, которые часто не могут эффективно обрабатывать редкие факторы. Во-вторых, анализ ключевых стрессоров, которые предшествуют суицидальным инцидентам, представляет собой трудную задачу из-за неструктурированности данных, таких как клинические записи, социальные медиа-посты и другие текстовые источники. Наконец, проблема объяснимости моделей остается критической, так как для эффективного применения необходимо, чтобы результаты модели были интерпретируемыми и понятными для клиницистов и исследователей. Целью данного исследования является разработка эффективного подхода для извлечения SDoH-факторов из неструктурированных текстов, с целью улучшения точности, эффективности и объяснимости таких моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают многоступенчатый фреймворк на основе больших языковых моделей (LLM) для извлечения SDoH-факторов. Этот фреймворк состоит из нескольких этапов, начиная с предварительной обработки данных, затем идет фильтрация и извлечение ключевых фрагментов текста, содержащих потенциальные SDoH-факторы. Затем применяется модель файн-тюнинга, специально адаптированная для задачи извлечения SDoH. Ключевой особенностью этого фреймворка является его многоступенчатая архитектура, которая позволяет постепенно уточнять результаты. На каждом этапе модель выполняет более глубокий анализ текста, с тем чтобы выявить все более тонкие и контекстуальные факторы. Для этого используются различные модели, включая BioBERT, GPT-3.5-turbo и DeepSeek-R1. Кроме того, фреймворк включает механизмы для генерации объяснений, которые помогают пользователям понять, почему модель выделила определенные факторы. Также исследование сравнивает производительность этого фреймворка с другими современными моделями, такими как BioBERT и GPT-3.5-turbo, чтобы оценить его эффективность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. Эксперименты включали автоматические оценки на больших наборах данных, а также пилотное исследование с участием пользователей. В результате, предложенный фреймворк показал значительное улучшение по сравнению с другими моделями в задаче извлечения SDoH-факторов. Он не только повысил точность извлечения, но и предоставил более подробные объяснения, что способствовало быстрому и точному аннотированию данных. Использование файн-тюнинга для меньшей, задаче-специфической модели также показало хорошие результаты, сократившие затраты на вычисления при сохранении высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет значительное практическое применение в области психического здоровья и профилактики суицидов. Благодаря высокой точности и объяснимости модели, он может быть использован для ранней идентификации людей, находящихся в рисковой группе. Это может повлиять на разработку более эффективных стратегий профилактики и поддержки людей, которые могут быть подвержены суицидальным мыслям. Кроме того, фреймворк может быть применен в клинической практике для анализа клинических записей и других текстовых данных, что позволит клиницистам быстрее и точнее определять факторы риска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех многоступенчатого фреймворка для извлечения SDoH-факторов, связанных с суицидальностью. Он не только повышает точность и эффективность извлечения, но и улучшает объяснимость модели, что является критическим для клинического применения. В будущем, исследователи могут расширить этот подход, включив более широкие наборы данных и разработав более продвинутые методы для анализа контекста и взаимосвязей между различными факторами. Это может привести к еще более точным и информативным моделям, которые будут играть важную роль в снижении суицидального риска.

Annotation:

Background: Understanding social determinants of health (SDoH) factors contributing to suicide incidents is crucial for early intervention and prevention. However, data-driven approaches to this goal face challenges such as long-tailed factor distributions, analyzing pivotal stressors preceding suicide incidents, and limited model explainability. Methods: We present a multi-stage large language model framework to enhance SDoH factor extraction from unstructured text. Our approach was compared to...

ID: 2508.05003v1 cs.CL, cs.AI

arXiv PDF

1
2
1419
1420
1421
1422
1423
1442
1443

Показано 14201 - 14210 из 14425 записей