📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Exploiting Layer Normalization Fine-tuning in Visual Transformer Foundation Models for Classification

2025-08-13

Авторы:

Zhaorui Tan, Tan Pan, Kaizhu Huang, Weimiao Yu, Kai Yao, Chen Jiang, Qiufeng Wang, Anh Nguyen, Xin Guo, Yuan Cheng, Xi Yang

#### Контекст Виджетные трансформеры (ViTs) набирают всё большую популярность в области обработки изображений, особенно для задач классификации. Одной из ключевых компонент ViTs является Layer Normalization (LayerNorm), которая управляет динамикой слоёв модели. Однако, динамика LayerNorm при её применении в задаче переобучения (fine-tuning) под условиями ограниченного количества данных и сильных доменных переходов ещё не полностью освещена. Эта проблема становится критичной при использовании моделей в реальных сценариях, где доступ к данным ограничен, и домены между исходным и целевым сильно различаются. #### Метод Мы проводили подробный анализ динамики LayerNorm в режиме fine-tuning. Основной фокус был на изучении изменений параметров LayerNorm (LayerNorm shifts) в зависимости от объёма данных и степени доменного перехода. Мы предложили меру Fine-tuning Shift Ratio ($FSR$), которая позволяет оценивать степень представительности целевых данных. Далее, мы разработали простую, но эффективную методику, которая использует положительное значение $\lambda$, которое связано с $FSR$. Эта методика позволяет корректировать LayerNorm параметры для более точного выравнивания с представительными данными. Также, мы ввели циклическую структуру, которая улучшает процесс fine-tuning. #### Результаты Мы провёряли нашу модель на двух типах изображений: натуральных и патологических. Выполнялись эксперименты в условиях различных объёмов целевых данных и степеней доменных переходов. Мы отметили, что в случае перехода из домена исходного в целевой (OOD), $FSR$ значительно меньше, чем в случае внутридоменных (ID) переходов. Это свидетельствует о меньшей представительности целевых данных в OOD-задачах. Мы также отметили, что модели ViT, применяемые к патологическим изображениям, демонстрируют более устойчивое поведение, близкое к ID-условиям, что подтверждает их более осторожное обновление LayerNorm параметров. #### Значимость Наши результаты имеют значительное значение для практического применения ViTs в задачах классификации, особенно в условиях ограниченных данных и сильных доменных переходов. Мы продемонстрировали, что $FSR$ может служить важной подсказкой для оценки качества целевых данных. Разработанный подход может быть широко применён в оптимизации моделей для реальных сценариев, таких как медицинская диагностика и трансформация изображений. #### Выводы Мы проанализировали закрытую область динамики LayerNorm в процессе fine-tuning и предложили эффективные методы для её корректировки. Наши результаты показали, что корректировка LayerNorm может значительно улучшить производительность моделей в условиях данных с ограниченным объёмом. В будущем, мы планируем расширить

Annotation:

LayerNorm is pivotal in Vision Transformers (ViTs), yet its fine-tuning dynamics under data scarcity and domain shifts remain underexplored. This paper shows that shifts in LayerNorm parameters after fine-tuning (LayerNorm shifts) are indicative of the transitions between source and target domains; its efficacy is contingent upon the degree to which the target training samples accurately represent the target domain, as quantified by our proposed Fine-tuning Shift Ratio ($FSR$). Building on this,...

ID: 2508.07577v1 cs.CV, cs.LG

arXiv PDF

📄 Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model

2025-08-13

Авторы:

Bin Cao, Sipeng Zheng, Ye Wang, Lujie Xia, Qianshan Wei, Qin Jin, Jing Liu, Zongqing Lu

## Контекст Human motion generation становится все более критически важной технологией, с широким потенциалом для применений в реальной жизни. Однако, существующие vision-language-motion models (VLMMs) сталкиваются с затруднениями, которые становятся барьером для их реального применения. Основной проблемой является недостаточность контролируемости, выражающаяся в нескольких ключевых аспектах: несоответствие ответов к моделям различных пользовательских команд, ограниченная возможность инициализации поз, неустойчивость при работе с длинными последовательностями, некомплексное обращение с неизвестными сценариями, а также отсутствие точного управления отдельными частями тела. Наша работа адресует эти проблемы, стремясь создать модель, которая была бы реально временем, контролируемой и выдающей современные результаты на разных задачах моделирования мотиваций. ## Метод Мы предлагаем Being-M0.5, первую реально временную, контролируемую VLMM, которая достигает статуса лидера по многим критериям. Модель основывается на HuMo100M, самой крупной и многофункциональной базе данных подвижных сценариев. Она содержит более 5 миллионов подвижных последовательностей, 100 миллионов учебных заданий по многозадачности и частноуровневые аннотации, решающие ключевые проблемы существующих ресурсов. Мы внедрили новый part-aware residual quantization метод для токенизации движений, что позволяет гранулярно управлять каждой частью тела в процессе генерации. Таким образом, мы достигаем высокой точности и контроля, что отсутствовало в предыдущих моделях. ## Результаты Мы провели широкомасштабные эксперименты на различных бенчмарках для подвижных последовательностей. Being-M0.5 показала стабильно высокую точность и качество генерируемых последовательностей, превосходя конкурентные модели. Были проведены также тесты на реальном времени, подтвердив, что модель успешно работает в условиях реального применения. Мы также проанализировали эффективность нашего подхода, подтвердив, что Being-M0.5 умеет эффективно работать, не теряя в качестве результата. Эти результаты подтверждают то, что Being-M0.5 является надежным инструментом для реальных задач, включая виртуальную реальность, анимацию и другие прикладные сценарии. ## Значимость Предлагаемая модель может применяться во многих областях, от виртуальных миров и анимации до робототехники и систем управления. Она предлагает существенные преимущества, включая точность, контрольность и реальновременность, которые отсутствовали в предыдущих моделях. Наш подход открывает новые возможности для развития технологий в области моделирования поведения, которые могут

Annotation:

Human motion generation has emerged as a critical technology with transformative potential for real-world applications. However, existing vision-language-motion models (VLMMs) face significant limitations that hinder their practical deployment. We identify controllability as a main bottleneck, manifesting in five key aspects: inadequate response to diverse human commands, limited pose initialization capabilities, poor performance on long-term sequences, insufficient handling of unseen scenarios,...

ID: 2508.07863v1 cs.CV, cs.LG

arXiv PDF

📄 PrIINeR: Towards Prior-Informed Implicit Neural Representations for Accelerated MRI

2025-08-13

Авторы:

Ziad Al-Haj Hemidi, Eytan Kats, Mattias P. Heinrich

## Контекст Импровизация Магнитной Резонансной Импульсной (МРИ) инженерии позволяет сократить время сканирования, но часто приводит к ухудшению качества изображений. Одним из потенциальных решений являются Implicit Neural Representations (INRs), которые позволяют восстанавливать подробные изображения с помощью нейронных сетей. Однако при высоких ускорениях сканирования INRs сталкиваются с трудностями, такими как слабые предварительные ограничения, что приводит к потерям в структуре и артефактам алиасинга. Этот вопрос требует решения для повышения качества изображений при ускоренном сканировании. ## Метод Мы предлагаем PrIINeR — метод INR-реконструкции MRI, который интегрирует предварительные знания из предварительно обученных нейронных сетей в рамку INR. Метод использует базу данных для подготовленных изображений, чтобы внедрить более широкие представления в вариант реконструкции. Он сочетает в себе общую информацию из данных обучения с оптимизацией для конкретного случая, чтобы сохранить детали изображения. Метод применяет два вида ограничений: сохранение соответствия характеристикам сканирования и применение представлений INR. Это дает более надёжный подход к восстановлению изображений. ## Результаты Мы провели эксперименты на датасете NYU fastMRI, сравнивая PrIINeR с другими современными методами INR-реконструкции. Результаты показали, что наша модель не только превосходит существующие INR-методы, но и более точно восстанавливает изображения по сравнению с другими алгоритмами обучения. Она сильно повышает качество структуры изображений и убирает артефакты алиасинга, что делает её оптимальным выбором для высокоскоростного сканирования MRI. ## Значимость PrIINeR может быть применён в сфере здравоохранения, где необходимо быстрое и качественное сканирование. Он обеспечивает надежный высококачественный результат, что может улучшить диагностику и лечение. Этот метод также может быть использован в исследованиях в области МРИ для повышения качества работы. Он включает в себя оптимальные преимущества обеих технологий — INR и глубокого обучения. ## Выводы Мы представили PrIINeR, новый подход к реконструкции MRI, который сочетает преимущества INR-методов и предварительных знаний. Метод показал превосходную производительность на данных fastMRI, повысив качество изображений и удалив алиасинг-артефакты. Будущие исследования будут направлены на расширение возможностей PrIINeR для других видов сканирования и улучшение его эффективности.

Annotation:

Accelerating Magnetic Resonance Imaging (MRI) reduces scan time but often degrades image quality. While Implicit Neural Representations (INRs) show promise for MRI reconstruction, they struggle at high acceleration factors due to weak prior constraints, leading to structural loss and aliasing artefacts. To address this, we propose PrIINeR, an INR-based MRI reconstruction method that integrates prior knowledge from pre-trained deep learning models into the INR framework. By combining population-l...

ID: 2508.08058v1 cs.CV, cs.LG

arXiv PDF

📄 MDD-Net: Multimodal Depression Detection through Mutual Transformer

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст Сегодня депрессия является одной из наиболее распространенных психических расстройств, значительно снижающих качество жизни и ухудшающих эмоциональное и физическое состояние людей. Одним из перспективных подходов к ее диагностике является использование данных социальных сетей, так как они отражают многообразные аспекты человеческого поведения. Несмотря на это, многие текущие методы диагностики депрессии опираются лишь на одну модальность данных, что приводит к несостоятельной оценке и, как следствие, неточному диагностическому результату. Многомодальный подход, включающий в себя морфологию речи и лицевые выражения, может существенно улучшить точность диагностики. Данная работа предлагает MDD-Net — систему, основанную на mutual transformers, для эффективного диагностирования депрессии с применением акустических и визуальных данных. ## Метод MDD-Net состоит из четырех основных модулей: модуля для извлечения акустических признаков, модуля для извлечения визуальных признаков, mutual transformer для вычисления корреляций между признаками и их слияния, а также модуля для детектирования депрессии на основе сгенерированных признаков. Acoustic Feature Extraction Module использует технологию глубокого обучения для извлечения значимых акустических признаков из звуковых файлов. Visual Feature Extraction Module осуществляет выделение визуальных признаков, отражающих эмоциональное состояние, с использованием конвейера из нескольких контрастных слоёв. Mutual Transformer модуль вычисляет корреляции между акустическими и визуальными данными, а также выполняет их слияние для получения комплексных признаковых представлений. Наконец, Detection Layer принимает эти представления и обеспечивает диагностику депрессии с высокой точностью. ## Результаты Для оценки MDD-Net были проведены тщательные эксперименты на D-Vlog Dataset, который содержит акустические и визуальные данные социальных сетей. Эксперименты показали, что система существенно превосходит существующие методы, повышая F1-Score до 17.37% по сравнению с состоянием арту. Эти результаты подтверждают высокую эффективность MDD-Net в диагностике депрессии, демонстрируя преимущества многомодального подхода с использованием mutual transformers. Детальные результаты и полный исходный код доступны на GitHub по ссылке: [https://github.com/rezwanh001/Multimodal-Depression-Detection](https://github.com/rezwanh001/Multimodal-Depression-Detection). ## Значимость Разработанная система может быть применена в области психиатрии и ментального здоровья для повышения точности диагностики депрессии. Её преимущества заключаются в использовании многомодального подхода, улучшающего достоверность диагноза, и в эффективном использова

Annotation:

Depression is a major mental health condition that severely impacts the emotional and physical well-being of individuals. The simple nature of data collection from social media platforms has attracted significant interest in properly utilizing this information for mental health research. A Multimodal Depression Detection Network (MDD-Net), utilizing acoustic and visual data obtained from social media networks, is proposed in this work where mutual transformers are exploited to efficiently extrac...

ID: 2508.08093v1 cs.CV, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 Integrating Task-Specific and Universal Adapters for Pre-Trained Model-based Class-Incremental Learning

2025-08-13

Авторы:

Yan Wang, Da-Wei Zhou, Han-Jia Ye

## Контекст Class-Incremental Learning (CIL) — это задача, в рамках которой необходимо развитию машинного обучения учитывать прирост новых классов, не приводя этого к утечке знаний о старых классах. Несмотря на прогресс в области CIL, существуют проблемы, связанные с неэффективной интеграцией заранее обученных моделей и недостаточной учетной доли общей информации в работе классификаторов. Эти факторы приводят к снижению точности и устойчивости классификации. Необходимость решения этих проблем побудила авторов разработать более эффективный подход к обработке задач CIL. ## Метод Предложен подход, основанный на интеграции **Task-Specific Adapters** и **Universal Adapters** (TUNA). Задачу индивидуальной обработки классов решают **Task-Specific Adapters**, которые адаптируются к определенному набору классов. В то же время, **Universal Adapters** объединяют общую информацию, делясь на универсальные черты, которые полезны для всех задач. Чтобы выбирать наиболее подходящий адаптер для конкретной задачи, используется **Entropy-Based Selection Mechanism**. Кроме того, введена **Adapter Fusion Strategy**, объединяющая преимущества задачных и универсальных адаптеров в процессе инференса. ## Результаты Проведены эксперименты на нескольких популярных датасетах (таких как CIFAR-100 или ImageNet-100). Метод TUNA обеспечил значительное повышение точности классификации по сравнению с соответствующими подходами. Особо выдающиеся результаты были получены в случае применения **Adapter Fusion Strategy**, которая позволила сформировать универсальный адаптер, который оптимально комбинирует общую и задачную информацию. Это позволило не только решать задачу CIL, но и улучшить устойчивость классификатора к новым классам. ## Значимость Метод TUNA может применяться в широком кругу задач, где необходима продолжительная обработка данных без утечки знаний. Это могут быть задачи, связанные с динамическим спутниковым приемом данных, видеонаблюдением, медицинскими изображениями и др. Наиболее значимым преимуществом является улучшение производительности классификации и уменьшение скольжения знаний между классами. Это позволяет сделать модели более устойчивыми и эффективными в боевых условиях. ## Выводы Авторы успешно разработали метод, который эффективно комбинирует задачные и универсальные адаптеры в методе Class-Incremental Learning. Результаты исследований показали выдающуюся эффективность и устойчивость полученного подхода. В будущем планируется расширить применение TUNA на различные задачи и улучшить механизмы выбора адаптеров для большей гибкости и точности.

Annotation:

Class-Incremental Learning (CIL) requires a learning system to continually learn new classes without forgetting. Existing pre-trained model-based CIL methods often freeze the pre-trained network and adapt to incremental tasks using additional lightweight modules such as adapters. However, incorrect module selection during inference hurts performance, and task-specific modules often overlook shared general knowledge, leading to errors on distinguishing between similar classes across tasks. To add...

ID: 2508.08165v1 cs.CV, cs.LG

arXiv PDF

📄 PCA-Guided Autoencoding for Structured Dimensionality Reduction in Active Infrared Thermography

2025-08-13

Авторы:

Mohammed Salah, Numan Saeed, Davor Svetinovic, Stefano Sfarra, Mohammed Omar, Yusra Abdulrahman

## Контекст Active Infrared Thermography (AIRT) является эффективной методом неразрушающего контроля (NDT) для открытия подкристальных аномалий в промышленных компонентах. Однако, большая высокомерность данных AIRT представляет значимые вызовы для различных методов обработки и анализа. Нейронные сети с нелинейными автокодировщиками (AEs) широко используются для уменьшения размерности данных AIRT. Тем не менее, в рамках предложенных систем не возникает пространства, ограниченного структурой, что ограничивает их эффективность в задачах характеристики дефектов. Данная работа предлагает PCA-guided autoencoding framework для получения пространства структуры, которое может эффективно характеризировать нелинейные функции в AIRT, улучшая точность дефектной классификации. ## Метод Предлагаемый PCA-guided autoencoding framework объединяет автокодировщик нейронной сети с методом главных компонент (PCA) для достижения лучшей структурированности в пространстве нейросетевого автокодировщика. Основной инновацией является введение новой функции потерь, названной PCA distillation loss, которая принудительно выравнивает репрезентации нейросети с компонентами PCA. Эта концепция позволяет нейросети присвоить более структурированные веса, улучшая понимание информации в данных AIRT. Для оценки того, насколько пространство характеризует дефекты, предлагается метрика, основанная на нейросетевых моделях, которая анализирует контраст, значение сигнала к шуму (SNR) и эффективность решения задачи. ## Результаты В процессе экспериментов применялись данные из области AIRT, собранные на материалах PVC, CFRP и PLA. Результаты показали, что PCA-guided AE превосходит современные методы уменьшения размерности данных по критериям, таким как контраст, SNR и метрики нейросети. Эти результаты указывают на эффективность в том, что пространство, полученное с помощью PCA-guided AE, характеризует дефекты намного лучше, чем другие методы. Эти результаты отражают то, что структурированное пространство, введенное в PCA distillation loss, позволяет нейросети лучше интерпретировать и выделить нелинейные функции в AIRT. ## Значимость Полученные результаты открывают новые возможности для применения PCA-guided AE в области NDT, особенно в области обнаружения дефектов в материалах PVC, CFRP и PLA. Эта модель может быть применена в различных промышленных секторах, где NDT является критичным. Благодаря структурированному пространству, PCA-guided AE обеспечивает точные данные для выявления дефектов, улучшая возможности обнаружения и мониторинга. Данный подход также показал свою ценность в улучшении общей эффективности и точности AIRT в области NDT. ## Выводы В целом, предложенная PCA-

Annotation:

Active Infrared thermography (AIRT) is a widely adopted non-destructive testing (NDT) technique for detecting subsurface anomalies in industrial components. Due to the high dimensionality of AIRT data, current approaches employ non-linear autoencoders (AEs) for dimensionality reduction. However, the latent space learned by AIRT AEs lacks structure, limiting their effectiveness in downstream defect characterization tasks. To address this limitation, this paper proposes a principal component analy...

ID: 2508.07773v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-13

Авторы:

Tao Tang, Chengxu Yang

## Контекст В области медицинской имейджинга высокая точность диагностики и терапии зависит от качества изображений. Однако, из-за таких факторов, как низкодозная съемка, ограничения оборудования и импульсные искажения, медицинские изображения часто подвержены неоднородному шуму, который сильно сказывается на распознавании структур и обнаружении поражений. Это существенно снижает качество клинической оценки и последующих диагностических задач. Для решения этой проблемы необходимо разработать мощный метод адаптивного денойсинга, который бы учитывал многомерные особенности шума и повышал чувствительность диагностики. ## Метод Предлагаемый фреймворк MIND (Noise-Adaptive Denoising Framework for Medical Images) основывается на сочетании мульти-скайла конволюционных и Transformer-архитектур. Основные компоненты: Noise Level Estimator (NLE), который оценивает градации шума на уровне каналов, и Noise Adaptive Attention Module (NAAB), реализующий кросс-канальное внимание и фузирование спектрально-пространственных признаков. Модель использует сильно выраженный канально-пространственный регулятор при помощи преобразований, взвешенных в соответствии с генерируемым шумом. Данная архитектура позволяет реализовать эффективное кросс-модальное обучение и адаптацию к различным типам шумов в медицинских изображениях. ## Результаты Систематические эксперименты проводились на многомодальных публичных датасетах, включая традиционные и специальные модели шума. Исследования показали, что MIND существенно превосходит существующие методы по таким показателям как PSNR, SSIM и LPIPS, а также повышает F1-меру и ROC-AUC в задачах диагностики. Это свидетельствует о высоком качестве восстановления структур и улучшении значимости диагностических результатов. Модель показала себя как гибкое и эффективное решение для улучшения медицинских изображений и поддержки AI-помощи в клинических задачах. ## Значимость Предложенный подход имеет большое практическое значение в медицинской имейджинге. Он повышает точность диагностики, значительно повышает чувствительность к деталям в изображениях и поддерживает кросс-модальную устойчивость. Это открывает широкие возможности для роботов-диагностиков, повышения эффективности лечения и новых возможностей в нейромашинных исследованиях. Будущие исследования будут нацелены на повышение скорости модели, а также на расширение ее применения к нестандартным типам шумов и более сложным диагностическим сценариям. ## Выводы Разработанный фреймворк MIND доказал свою эффективность в адаптивном денойсинге медицинских и

Annotation:

The core role of medical images in disease diagnosis makes their quality directly affect the accuracy of clinical judgment. However, due to factors such as low-dose scanning, equipment limitations and imaging artifacts, medical images are often accompanied by non-uniform noise interference, which seriously affects structure recognition and lesion detection. This paper proposes a medical image adaptive denoising model (MI-ND) that integrates multi-scale convolutional and Transformer architecture,...

ID: 2508.07817v1 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 FEAT: A Multi-Agent Forensic AI System with Domain-Adapted Large Language Model for Automated Cause-of-Death Analysis

2025-08-13

Авторы:

Chen Shen, Wanqing Zhang, Kehan Li, Erwen Huang, Haitao Bi, Aiying Fan, Yiwen Shen, Hongmei Dong, Ji Zhang, Yuming Shao, Zengjia Liu, Xinshe Liu, Tao Li, Chunxia Yan, Shuanliang Fan, Di Wu, Jianhua Ma, Bin Cong, Zhenyuan Wang, Chunfeng Lian

## Контекст В современной медико-правовой системе существуют серьезные проблемы, связанные с нехваткой квалифицированных специалистов, несогласованностью диагностики и высоким объемом работы. Эти факторы способствуют ошибкам в определении причины смерти и могут привести к неправомерным выводам в правосудии. Одним из главных участников этих проблем является медико-легальная система Китая, где возрастающий набор данных и огромный объем работы становятся крайне трудно управляемыми. Чтобы решить эти проблемы, необходимо автоматизировать процессы анализа и вывода, улучшив точность и скорость диагностики. Наша мотивация заключается в разработке системы, которая могла бы оптимизировать работу значительного числа специалистов и обеспечить консистентность в диагностике. ## Метод Мы предлагаем FEAT (ForEnsic AgenT), многоагентную систему, основанную на доменно-адаптированном размеченном текстовом модели. Эта система включает: (i) **Planner** для декомпозиции задач, (ii) **Local Solvers** для анализа отдельных свидетельств, (iii) **Memory & Reflection Module** для итеративного улучшения и (iv) **Global Solver** для синтеза заключений. Мы использовали **tool-augmented reasoning**, **retrieval-augmented generation**, **forensic-tuned LLMs** и **human-in-the-loop feedback** для обеспечения высокой точности и соответствия правовым и медицинским стандартам. Данная многоуровневая архитектура позволяет гарантировать корректность и эффективность решений, даже при высоком количестве данных. ## Результаты Мы проводили эксперименты на многочисленных коллекциях китайских дел, где FEAT показал значительное превосходство по сравнению с текущими AI-системами в области медико-правового анализа. Мы проверили его в области длинных записей аутопсий и компактных выводов причин смерти. FEAT также продемонстрировал высокую общину в шести различных регионах Китая и высокую согласованность с выводами человеческих экспертов в безуглубленных проверках. Несколько старейшин медицины одобрили результаты FEAT, считая их эквивалентными результатам квалифицированных специалистов, в то же время выделяя лучшую обнаруживаемость тонких элементов доказательств. ## Значимость FEAT может быть применен в многих медико-правовых системах для улучшения эффективности и консистентности работы. Он обеспечивает автоматизацию рутинных процессов, повышает точность диагностики и уменьшает нагрузку на команды экспертов. Это может привести к более справедливому доступу к медицинским услугам и сократить пробелы в медико-легальных процессах. Будущие исследования будут фокусироваться на расширении FEAT для других областей медико-правового анализа и улучшении интеграци

Annotation:

Forensic cause-of-death determination faces systemic challenges, including workforce shortages and diagnostic variability, particularly in high-volume systems like China's medicolegal infrastructure. We introduce FEAT (ForEnsic AgenT), a multi-agent AI framework that automates and standardizes death investigations through a domain-adapted large language model. FEAT's application-oriented architecture integrates: (i) a central Planner for task decomposition, (ii) specialized Local Solvers for evi...

ID: 2508.07950v1 cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Enhancing Construction Site Analysis and Understanding with 3D Segmentation

2025-08-12

Авторы:

Sri Ramana Saketh Vasanthawada, Pengkun Liu, Pingbo Tang

## Контекст Управление и мониторинг прогресса строительных работ являются важными аспектами проектирования и строительства, но требуют значительных ресурсов и времени. Обычные методы мониторинга используют либо статические данные, либо затратные временем и ресурсами работы с данными на площадке. Это приводит к увеличению затрат и снижению эффективности. Задача автоматизации мониторинга строительного прогресса в трудных условиях становится крайне актуальной в поиске решений, которые обеспечивают точность и скорость. Кроме того, существующие методы ориентированы на внутренние пространства, где условия достаточно стабильны. В случае с ситуациями на строительных площадках, где помехи, динамические изменения и сложная структура представляют собой значительные проблемы, существующие модели не показывают достаточной эффективности. Необходима разработка новых алгоритмов, которые могут адаптироваться к таким условиям, обеспечивая более точный и эффективный мониторинг строительных работ. ## Метод В данной работе предлагается использовать два развитых трёхмерных раSEGMЕНТАЦИОННЫХ метода: Segment Anything Model (SAM) и Mask3D. Оба алгоритма были обучены на внутренних данных, но авторы исследуют их эффективность на сложных строительных площадках. SAM - это модель, которая использует глубокую нейронную сеть для выделения объектов на изображениях. Она тренируется для автоматического выделения объектов в изображениях с помощью метода подсказок. Mask3D, в свою очередь, является расширением SAM, расширенном для обработки трёхмерных структур и данных. Авторы проводят эксперименты с тем, чтобы оценить эффективность этих моделей в условиях строительных площадок, на которых обычно используются только статические данные. ## Результаты Для исследования эффективности SAM и Mask3D на строительных площадках были проведены сравнительные эксперименты с использованием реальных данных. Изучены различные условия, включая внутренние и внешние условия, где существуют динамические изменения. Эксперименты показали, что оба модели демонстрируют высокую точность в распознавании объектов и выделении информации внутри трёхмерных моделей. Однако SAM более эффективен в условиях с меньшим динамическим изменением, в то время как Mask3D показал более высокую точность в сложных ситуациях с динамическими изменениями. Таким образом, результаты показывают, что оба метода могут быть эффективно использованы в строительных проектах, но необходимо учитывать их особенности и применять их в зависимости от условий строительной площадки. ## Значимость Получен

Annotation:

Monitoring construction progress is crucial yet resource-intensive, prompting the exploration of computer-vision-based methodologies for enhanced efficiency and scalability. Traditional data acquisition methods, primarily focusing on indoor environments, falter in construction site's complex, cluttered, and dynamically changing conditions. This paper critically evaluates the application of two advanced 3D segmentation methods, Segment Anything Model (SAM) and Mask3D, in challenging outdoor and i...

ID: 2508.05922v1 cs.CV, cs.LG

arXiv PDF

📄 AGI for the Earth, the path, possibilities and how to evaluate intelligence of models that work with Earth Observation Data?

2025-08-12

Авторы:

Mojtaba Valipour, Kelly Zheng, James Lowman, Spencer Szabados, Mike Gartner, Bobby Braswell

## Контекст Область исследования искусственного общего интеллекта (AGI) находится на пике интереса из-за потенциала этой технологии в различных сферах. Одной из актуальных областей применения AGI является работа с Earth Observation Data, которая позволяет моделям понимать и анализировать природные явления на земной поверхности. Несмотря на прогресс в области глубокого обучения, спектральная спутниковая импедианз не получила должного внимания, хотя может стать решающим фактором в достижении новых высот в AGI. Эта область представляет собой уникальные проблемы, такие как высокий размер данных, сложность обработки и специфика спутниковых изображений. Однако она также обладает большим потенциалом для улучшения моделей AGI и увеличения понимания природных процессов. В данной статье мы рассматриваем, почему именно Earth Observation Data может стать ключевым ресурсом для AGI, а также проводим обзор существующих бенчмарков, выявляя их ограничения в оценке моделей в этой области. ## Метод Для изучения проблемы использовалась методология, основанная на анализе существующих работ и бенчмарков, а также на определении новых подходов к оценке моделей, работающих с Earth Observation Data. Мы проанализировали исходные данные, используемые в существующих моделях, и выделили их ограничения в плане общей оценки моделей. Методика включает в себя создание подробного каркаса потребностей в бенчмарке для AGI, который будет эффективно оценивать функциональные возможности моделей в области Earth Observation. Таким образом, мы разработали комплексные требования к новому бенчмарку, который может обеспечить более точную и структурированную оценку моделей AGI в этой области. ## Результаты В ходе работы мы провели эксперименты с использованием различных моделей AGI, применявшихся к различным типам Earth Observation Data. Мы оценили их познание и возможности решения задач, связанных с природными процессами. Наши результаты показали, что существующие бенчмарки не полностью учитывают все аспекты оценки моделей, включая общую генерализацию и контекстное понимание. Мы также выявили точки слабых сторон в существующих моделях, такие как недостаток в обработке спектральных данных и неэффективность в многомодальных задачах. Эти выводы подтвердили необходимость разработки более широкой системы оценки, которая бы позволила получить более точные и адекватные результаты. ## Значимость Результаты исследования имеют значительное значение для развития AGI в области Earth Observation Data. Мы подчеркнули, что развитие совершенного бенчмарка может помочь в исследовании природных процессов, улучшении моделей AGI и расширении их приложений в сферах, таких как климат, энергетика и

Annotation:

Artificial General Intelligence (AGI) is closer than ever to becoming a reality, sparking widespread enthusiasm in the research community to collect and work with various modalities, including text, image, video, and audio. Despite recent efforts, satellite spectral imagery, as an additional modality, has yet to receive the attention it deserves. This area presents unique challenges, but also holds great promise in advancing the capabilities of AGI in understanding the natural world. In this pap...

ID: 2508.06057v1 cs.CV, cs.LG

arXiv PDF

1
2
78
79
80
81
82
83
84

Показано 791 - 800 из 835 записей