📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Neural Artistic Style and Color Transfer Using Deep Learning

2025-08-14

Авторы:

Justin London

## Контекст Область исследования, посвященная нейронным стилям и цветовым передачам с использованием глубокого обучения, лежит в пересечении искусства, информатики и фильмов. Эта технология позволяет создавать неповторимые, инновационные визуальные произведения и улучшает творческую выражественность во многих сферах творчества. Одна из важных задач в цифровом изображении — цветовая передача, которая позволяет адаптировать цвета в исходном изображении к цветам в стиле источника. Эта техника применяется в фильмах и фотографии для улучшения изображений, коррекции изображений и создания новых визуальных эффектов. Несмотря на развитие этой области, существуют проблемы, связанные с несовпадением цветов и яркости между исходным и целевым изображениями. Мотивация построения этого метода заключается в улучшении точности и эффективности цветового и яркостного передачи, используя нейронные сети и математические подходы. ## Метод Методология, представленная в статье, сочетает нейронные стили и цветовую передачу в рамках нейронных сетей. Ключевым аспектом является использование Kullback-Leibler (KL) расхождения для оценки соответствия цветовых и яркостных гистограмм между исходным и целевым изображениями. Этот подход использует глубокое обучение для представления стилей и цветов, а также оценки их расхождений. Архитектура метода включает нейронные сети, которые оценивают цветовые и яркостные параметры, а также выполняют передачу стиля и цвета. Эта архитектура позволяет учитывать характеристики как источника, так и цели, достигая более точного соответствия в результате. ## Результаты Для оценки эффективности метода проводились различные эксперименты на выборке изображений, используя такие методы цветового передачи, как Reinhard, IDT, Cholesky и PCA. Утилизированы статистические методы для расчета гистограмм и характеристик цвета. Результаты показали, что новая методика предоставляет более точные и естественные результаты по сравнению с современными методами. Обнаружено, что использование KL-расхождения позволяет эффективно оценивать качество цветовой и яркостной передачи, а также улучшать результаты стилизации. Эти результаты демонстрируют, что предложенный подход может стать ключевым инструментом в области цифрового изображения. ## Значимость Предложенный подход имеет широкие применения в искусстве, дизайне, фильмах и фотографии. Он позволяет творческим лицам стилизовать изображения, создавать уникальные цветовые эффекты и улучшать качество изображений. Особенно важным явля

Annotation:

Neural artistic style transfers and blends the content and style representation of one image with the style of another. This enables artists to create unique innovative visuals and enhances artistic expression in various fields including art, design, and film. Color transfer algorithms are an important in digital image processing by adjusting the color information in a target image based on the colors in the source image. Color transfer enhances images and videos in film and photography, and can...

ID: 2508.08608v1 cs.CV, cs.LG

arXiv PDF

📄 Automatic and standardized surgical reporting for central nervous system tumors

2025-08-14

Авторы:

David Bouget, Mathilde Gajda Faanes, Asgeir Store Jakola, Frederik Barkhof, Hilko Ardon, Lorenzo Bello, Mitchel S. Berger, Shawn L. Hervey-Jumper, Julia Furtner, Albert J. S. Idema, Barbara Kiesel, Georg Widhalm, Rishi Nandoe Tewarie, Emmanuel Mandonnet, Pierre A. Robe, Michiel Wagemakers, Timothy R. Smith, Philip C. De Witt Hamer, Ole solheim, Ingerid Reinertsen

## Контекст Оценка центральной нервной системы (CNS) и CNS-туморов является ключевым аспектом в медицинской практике. Магнитная резонансная (МР) импедимометрия является неотъемлемой частью этой процедуры, поскольку она помогает в планировании операций, принимать решения о лечении и оценивать послеоперационные результаты и риски осложнений. Несмотря на прогресс в автоматическом разметке и анализе предоберательных данных, автоматизация анализа послеоперационных данных остается сложной задачей. Существующие методы недостаточно удобны и эффективны для постоперационного анализа. Это влечет за собой необходимость в разработке более продвинутых методов, которые могут значительно повысить точность и эффективность постоперационных оценок. ## Метод Для решения этой задачи была разработана инновационная пипелайнная система, включающая модели сегментации и классификации, а также алгоритмы, поддерживающие стандартизацию отчетов. Модели сегментации основываются на архитектуре Attention U-Net, а модели классификации — на DenseNet. Эти модели были обучены на больших многоцентровых данных (2000–7000 пациентов) с использованием 5-кросс-валидации. Метрики оценки включали в себя voxel-wise и object-wise оценки. Для классификации секвенций МР и типа турмов была разработана DenseNet-подобная архитектура, поддерживающая стандартизацию отчетов в соответствии с RANO 2.0. Эта система затем была внедрена в Raidionics — открытую платформу для анализа CNS-турмов. ## Результаты Модели сегментации достигли следующих результатов: voxel-wise Dice-score 87% для неотгрустнованного турмового ядра, 66% для неотгрустнованного турмового ядра, 70% для поперечной секции турмового ядра, 77% для отделания. Классификационные модели показали балансную точность 99,5% для классификации секвенций МР и 80% для классификации типов турмов. Эти результаты превосходят показатели последнего BraTS-чалленга, устанавливая новый стандарт в сфере автоматизированного анализа CNS-турмов. ## Значимость Предлагаемая система имеет широкие возможности применения в клинической практике. Она обеспечивает точные, стандартизированные отчеты, повышает эффективность оперативного управления и помогает лучше оценивать риски осложнений. Эта инновационная технология может существенно снизить нагрузку на клинических специалистов, увеличить точность диагноза и лечения, а также повысить качество постоперационного мониторинга. ## Выводы Разработанная система представляет собой значительный прорыв в области автома

Annotation:

Magnetic resonance (MR) imaging is essential for evaluating central nervous system (CNS) tumors, guiding surgical planning, treatment decisions, and assessing postoperative outcomes and complication risks. While recent work has advanced automated tumor segmentation and report generation, most efforts have focused on preoperative data, with limited attention to postoperative imaging analysis. This study introduces a comprehensive pipeline for standardized postsurtical reporting in CNS tumors. Usi...

ID: 2508.08916v1 cs.CV, cs.LG, I.4.6; J.3

arXiv PDF

📄 Accelerated Volumetric Compression without Hierarchies: A Fourier Feature Based Implicit Neural Representation Approach

2025-08-14

Авторы:

Leona Žůrková, Petr Strakoš, Michal Kravčenko, Tomáš Brzobohatý, Lubomír Říha

#### Контекст В широком спектре областей, таких как медицинская иммунграфия, научные предметные области и развлекательная индустрия, обработка и сжатие трехмерных данных (volumetric data) являются критичными. Традиционные методы сжатия требуют сложных структур данных и многоэтапных преобразований, что приводит к затруднениям в быстром доступу и эффективному хранению данных. В этой статье предлагается новый подход, основанный на глубоком обучении и математических функциях, чтобы решить эти проблемы и обеспечить эффективное сжатие трехмерных данных без использования сложных структур. #### Метод Метод основывается на использовании координатно-ориентированных нейронных представлений, где каждый точка трехмерного объекта закодирована в виде нейронной сети. Для эффективного сжатия используется селективное выбор вокселей (voxel sampling), основанное на морфологических диляциях, чтобы сосредоточиться на активных областях. Функции Фурье используются для эффективного представления данных. Этот подход не требует жестких структур данных, таких как иерархии, что делает его более универсальным и легко интегрируемым в различные приложения. #### Результаты В экспериментах показано, что данный подход позволяет существенно сократить время обучения нейронной сети — до 63.7% (от 30 до 11 минут). Это улучшение достигается с минимальным потерями качества: PSNR (Peak Signal-to-Noise Ratio) уменьшился на 0.59 dB (с 32.60 до 32.01), а SSIM (Structural Similarity Index) — на 0.008 (с 0.948 до 0.940). Нейронное представление, хранящееся в виде весов сети, обеспечивает высокую эффективность сжатия — до 14 раз, что устраняет традиционные сложности с загрузкой данных. #### Значимость Предложенный подход может быть применен в медицинских системах, научных симуляциях и развлекательных приложениях, где требуется быстрый доступ к данным и эффективное хранение. Он обеспечивает высокую степень сжатия без потерь в качестве изображения, что может существенно повысить производительность в сложных инженерных задачах. Будучи структурно-свободным и не требуя иерархических представлений, этот метод является более гибким и скоростном в потребностях практических приложений. #### Выводы Этот исследовательский подход сочетает координатно-ориентированное нейронное представление с морфологическими сжатиями, чтобы обеспечить более эффективное сжатие трехмерных данных. Наши результаты показывают, что новый метод является быстрым и эффективным для сжатия трехмерных данных, и имеет потенциал для расширения в различные области, такие как иску

Annotation:

Volumetric data compression is critical in fields like medical imaging, scientific simulation, and entertainment. We introduce a structure-free neural compression method combining Fourierfeature encoding with selective voxel sampling, yielding compact volumetric representations and faster convergence. Our dynamic voxel selection uses morphological dilation to prioritize active regions, reducing redundant computation without any hierarchical metadata. In the experiment, sparse training reduced tr...

ID: 2508.08937v1 cs.CV, cs.LG

arXiv PDF

📄 VertexRegen: Mesh Generation with Continuous Level of Detail

2025-08-14

Авторы:

Xiang Zhang, Yawar Siddiqui, Armen Avetisyan, Chris Xie, Jakob Engel, Henry Howard-Jenkins

#### Контекст Область геометрического моделирования и визуализации трехмерных объектов играет ключевую роль в различных приложениях, включая графику, интерактивные системы, симуляции и виртуальную реальность. Одна из наиболее сложных задач в этой области — генерация меша (mesh) с плавной сменой уровня детализации (continuous level of detail, CLOD). Традиционные методы либо генерируют меш полностью, либо производят поэтапную генерацию, что приводит к несогласованности в промежуточных этапах. Данная работа адресует проблему построения фреймворка для постепенного повышения подробности трехмерных моделей, обеспечивающего качественную и плавную генерацию во время работы. #### Метод Предлагаемый фреймворк VertexRegen основывается на подходе, инспирированном прогрессивными мешами, но использует процесс, называемый "сжатием вершины" (vertex split) в качестве генеративной модели. Алгоритм работает в двух этапах: вначале происходит разделение вершин существующего меша, а затем — реконструкция подробностей с применением нейронной сети. Эта модель учится различать различные уровни детализации и постепенно повышать уровень детализации в зависимости от требований. Эта реализация позволяет генерировать меш в любой момент процесса, предоставляя динамическую гибкость в выборе уровня детализации. #### Результаты Выполнены эксперименты для сравнения VertexRegen с другими современными методами генерации меша. Использовались различные типы трехмерных моделей, включая симплексы и сложные декоративные объекты. Результаты показали, что VertexRegen достигает качества, сопоставимого с лучшими существующими методами, при этом обеспечивая уникальную возможность получить модель в любой момент процесса генерации. Это делает его применимым в сценариях, где необходима интерактивность или ограниченная мощность вычислений. #### Значимость Предложенный подход имеет широкие области применения, включая виртуальную и дополненную реальность, игровую индустрию, а также приложения в сфере инженерии и анализа данных. Он обеспечивает более эффективную обработку данных, так как пользователь может остановить генерацию в любой момент и получить модель, подходящую под текущие требования. Это делает VertexRegen более гибким и удобным в использовании по сравнению с традиционными методами. #### Выводы Главным достижением работы является разработка VertexRegen, новый фреймворк для генерации меша с продолжительностью, который обеспечивает качественное моделирование и продолжительность во время работы. Он предоставляет гибкую модель для динамического контроля уровня детализации, что делает его примени

Annotation:

We introduce VertexRegen, a novel mesh generation framework that enables generation at a continuous level of detail. Existing autoregressive methods generate meshes in a partial-to-complete manner and thus intermediate steps of generation represent incomplete structures. VertexRegen takes inspiration from progressive meshes and reformulates the process as the reversal of edge collapse, i.e. vertex split, learned through a generative model. Experimental results demonstrate that VertexRegen produc...

ID: 2508.09062v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-14

Авторы:

Tao Tang, Chengxu Yang

## Контекст Медицинские изображения являются ключевым инструментом в диагностике заболеваний, а их качество имеет прямое влияние на точность клинических оценок. Однако существуют несколько факторов, которые приводят к появлению шума в изображениях, такие как недостаточное дозирование при сканировании, ограничения оборудования и визуальные артефакты. Эти факторы приводят к неровному шуму, который серьезно сказывается на распознавании структур и обнаружении недугов. Для решения этой проблемы требуется эффективный подход к денойсингу медицинских изображений, который мог бы улучшить качество изображений и облегчить взаимодействие с ими в процессе диагностики и лечения. ## Метод Модель MI-ND представляет собой новую модель денойсинга медицинских изображений, использующую многомерную архитектуру, включающую конволюционные слои и Transformer. Она включает в себя два основных компонента: нивелятор шума (NLE) и модуль адаптивного внимания (NAAB). NLE оценивает уровень шума в изображении, а NAAB регулирует внимание канала и пространственное построение изображений. Эти модули работают вместе для достижения лучшего восстановления структур и стабильности изображений, даже при наличии шума. Метод также использует кросс-модальную функцию слияния, чтобы обеспечить устойчивость к различным видам шума и кросс-модальным изменениям. ## Результаты Исследования проводились на нескольких многомодальных общедоступных наборах данных. Эксперименты показали, что MI-ND значительно превосходит конкурирующие методы по таким показателям как PSNR, SSIM и LPIPS. Она также повышает F1-меру и ROC-AUC в задачах диагностики, что демонстрирует ее сильную практическую ценность и потенциал для улучшения медицинских изображений. В частности, MI-ND эффективно восстанавливает структуры, повышает чувствительность диагностики и демонстрирует кросс-модальную устойчивость. Эти результаты подтверждают высокую эффективность модели в решении проблем, связанных с шумом в медицинских изображениях. ## Значимость Модель MI-ND может применяться в различных областях медицинской информатики, включая диагностику, лечение и оценку качества изображений. Ее преимущества заключаются в том, что она обеспечивает точное восстановление структур, улучшает чувствительность диагностики и демонстрирует высокую устойчивость к разным видам шума. Эти достижения могут способствовать улучшению качества диагностики, облегчению процессу лечения и повышению уровня доступности медицинских услуг. Будущие исследования будут сосредоточены на улучшении модели для б

Annotation:

The core role of medical images in disease diagnosis makes their quality directly affect the accuracy of clinical judgment. However, due to factors such as low-dose scanning, equipment limitations and imaging artifacts, medical images are often accompanied by non-uniform noise interference, which seriously affects structure recognition and lesion detection. This paper proposes a medical image adaptive denoising model (MI-ND) that integrates multi-scale convolutional and Transformer architecture,...

ID: 2508.07817v2 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 TerraMAE: Learning Spatial-Spectral Representations from Hyperspectral Earth Observation Data via Adaptive Masked Autoencoders

2025-08-13

Авторы:

Tanjim Bin Faruk, Abdul Matin, Shrideep Pallickara, Sangmi Lee Pallickara

## Контекст Hyperspectral satellite imagery представляет собой мощный источник данных для тонкого картирования земных покровов и почв, включая подробные анализы растительности и почвенных свойств. Однако использование современных методов машинного обучения для обработки данных, содержащих 200+ спектральных банд, сталкивается с рядом проблем. Традиционные подходы, ориентированные на RGB и многоканальные данные, неэффективно используют геоспациальные корреляции. Это приводит к потере информации и недостаточной точности в решении задач, таких как классификация почв и земных покровов. Необходимо разработать специальную методологию, которая могла бы эффективно обрабатывать этот тип данных, учитывая его уникальные характеристики. ## Метод TerraMAE представляет собой современную архитектуру, основанную на Masked Autoencoders, с усовершенствованными методами адаптивной группировки каналов. Основная идея заключается в группировке спектральных банд по статистическим свойствам отражаемости, чтобы сохранять корреляции между бандами. Для повышения точности реконструкции используется усовершенствованная функция потерь, которая учитывает как спектральную, так и пространственную точность. Таким образом, TerraMAE не только сохраняет корреляции между спектральными каналами, но также улучшает представимость пространственной информации. Это позволяет получать высококачественные представления для дальнейшего использования в геоспациальных задачах. ## Результаты Использовавшимися данными стали наборы данных hyperspectral imagery, которые охватывают различные географические регионы. В результате использования TerraMAE были получены реконструкции с высокой точностью, улучшенной представимостью спектрально-пространственных свойств. Эксперименты показали, что TerraMAE превосходит существующие подходы в задачах, таких как crop identification (классификация растений), land cover classification (классификация земных покровов) и soil texture prediction (предсказание текстуры почвы). Эти результаты подтверждают эффективность TerraMAE в получении уникальных представлений для разнообразных геоспациальных задач. ## Значимость Результаты TerraMAE могут быть применены в различных областях, включая агрономию, экологию и картографию. Особым преимуществом является улучшенная точность в задачах классификации и предсказания, что может способствовать более эффективному управлению землями и ресурсами. Особенно полезными являются эти достижения в условиях малого количества меток, где современные методы часто сталкиваются с ограничениями. Будущие исследования будут нацелены на расширение применимости TerraMAE к другим типам спутниковых данных и улучшение качест

Annotation:

Hyperspectral satellite imagery offers sub-30 m views of Earth in hundreds of contiguous spectral bands, enabling fine-grained mapping of soils, crops, and land cover. While self-supervised Masked Autoencoders excel on RGB and low-band multispectral data, they struggle to exploit the intricate spatial-spectral correlations in 200+ band hyperspectral images. We introduce TerraMAE, a novel HSI encoding framework specifically designed to learn highly representative spatial-spectral embeddings for d...

ID: 2508.07020v1 cs.CV, cs.LG

arXiv PDF

📄 Membership Inference Attacks with False Discovery Rate Control

2025-08-13

Авторы:

Chenxu Zhao, Wei Qian, Aobo Chen, Mengdi Huai

## Контекст В последнее время глубокие нейронные сети приобрели широкое применение в различных областях, однако они также остаются уязвимыми к различным атакам, в том числе членству. Членствующие (membership) информационные атаки (Membership Inference Attacks, MIAs) стремятся определить, был ли конкретный объект использован в ходе обучения целевой модели. Эти атаки представляют собой серьезную угрозу для приватности данных и могут привести к использованию персональных данных без согласия. Несмотря на активность исследователей в области MIAs, существуют ограничения в обеспечении контроля за выводом ложноположительных результатов (false discovery rate, FDR). Это ограничение связано с неизвестностью основных распределений данных и сложностью учета зависимости между нейронными сетями. Мотивируясь этим, данная работа предлагает новую модель MIAs, которая обеспечивает контроль за FDR и повышает надежность результатов. ## Метод Метод предлагаемой работы основывается на построении модели, которая может не только определять членство, но и контролировать FDR. Метод заключается в том, чтобы учесть зависимости между нейронными сетями, применяя методы статистического анализа для оценки ложноположительных результатов. Была разработана архитектура, которая включает в себя несколько этапов: 1. Инициализация модели, учитывающая FDR-гарантии. 2. Оптимизация модели для повышения точности в определении членства. 3. Интеграция существующих MIA-методов с помощью пост-хок-модели, которая позволяет управлять FDR в реальном времени. Таким образом, разработанная модель может быть интегрирована с различными MIA-методами, обеспечивая управление FDR без изменения основной архитектуры. ## Результаты Работа содержит исследовательские эксперименты, проведенные в различных условиях, включая black-box-и lifelong-настройки. Данные для экспериментов были получены из различных наборов данных, таких как CIFAR-10 и CIFAR-100, чтобы проверить работу модели в различных условиях. Результаты показали, что модель обеспечивает высокую точность в определении членства, при этом контролируя FDR на уровне, заданном пользователем. На основе этих результатов было показано, что разработанная модель может быть эффективно использована для улучшения надежности MIAs, уменьшения риска ложноположительных результатов и увеличения доверия к результатам. ## Значимость Предлагаемая модель имеет широкие возможности применения в различных областях, где необходимо обеспечить конфиденциальность данных и контролировать риск ложноположительных результатов. Особенно она может быть полезна для приложений в сфере медицины, финансов и защиты личных данных, где необходимо обеспе

Annotation:

Recent studies have shown that deep learning models are vulnerable to membership inference attacks (MIAs), which aim to infer whether a data record was used to train a target model or not. To analyze and study these vulnerabilities, various MIA methods have been proposed. Despite the significance and popularity of MIAs, existing works on MIAs are limited in providing guarantees on the false discovery rate (FDR), which refers to the expected proportion of false discoveries among the identified po...

ID: 2508.07066v1 stat.ML, cs.CV, cs.LG

arXiv PDF

📄 AugLift: Boosting Generalization in Lifting-based 3D Human Pose Estimation

2025-08-13

Авторы:

Nikolai Warner, Wenjin Zhang, Irfan Essa, Apaar Sadhwani

#### Контекст Одна из основных задач в глубоком обучении — 3D Human Pose Estimation (HPE) — представляет собой процесс определения трехмерной позы человека на основе изображений или видео. Эта задача находит применение в различных областях, включая робототехнику, работу с имиджем, игровые приложения и системы трекинга движений. Однако существующие модели лифтинг-based, которые преобразуют данные 2D-кейпоинтов в трехмерные позы, часто сталкиваются с проблемами недостаточной общеуниверсальности и существенными различиями при переходе от одного датасета к другому. Мотивация для этого исследования заключается в поиске эффективных способов повысить общеуниверсальность таких моделей, чтобы они могли единообразно работать в различных сценариях и приложениях. #### Метод Предлагаемая методика AugLift представляет собой модульную интеграцию в стандартную рабочую лифтинг-пайплайн. Она базируется на добавлении дополнительных сигналов к стандартным 2D-кейпоинтам, в частности — надежности детекции $(c)$ и оценки глубины $(d)$. Эти дополнительные сигналы вычисляются с помощью предварительно обученных сетей, например, для монокулярной оценки глубины. Это делает AugLift легковесным и модульным решением, которое может быть легко добавлено к существующим моделям лифтинга. Такая модификация позволяет добавить к 2D-кейпоинтам более широкий контекст, который улучшает различие между людьми и объектами в изображениях, а также предоставляет лучшую регуляризацию для моделей. #### Результаты В ходе экспериментов были выполнены тесты на четыре различных датасета для 3D HPE. Результаты показывают, что AugLift улучшает общую среднюю точность лифтинга на 10.1% при перекрестном переходе между датасетами, что позволяет лучше адаптировать модели к реальному миру. Также был отмечен повышение внутридатасетной точности на 4.0%. Эти результаты были достигнуты без дополнительного сбора данных или задействования дополнительных сенсоров. Сравнительный анализ показал, что AugLift сохраняет свою эффективность для различных архитектур лифтинга, что демонстрирует его широкую применимость. #### Значимость Предлагаемая методика AugLift может быть применена в различных областях, где применяются лифтинг-based 3D HPE, включая робототехнику, видеоанализ и системы видеоконференцсвязи. Основные преимущества AugLift заключаются в его простоте и модульности, что позволяет быстро и эффективно улучшить существующие модели. Это улучшение в общей точности и общеуниверсальности может существенно повысить качество решений в сферах, где точное определение 3D-позы является

Annotation:

Lifting-based methods for 3D Human Pose Estimation (HPE), which predict 3D poses from detected 2D keypoints, often generalize poorly to new datasets and real-world settings. To address this, we propose \emph{AugLift}, a simple yet effective reformulation of the standard lifting pipeline that significantly improves generalization performance without requiring additional data collection or sensors. AugLift sparsely enriches the standard input -- the 2D keypoint coordinates $(x, y)$ -- by augmentin...

ID: 2508.07112v1 cs.CV, cs.LG

arXiv PDF

📄 Sensory robustness through top-down feedback and neural stochasticity in recurrent vision models

2025-08-13

Авторы:

Antonino Greco, Marco D'Alessandro, Karl J. Friston, Giovanni Pezzulo, Markus Siegel

## Контекст В области визуального обработки существует длительное противоречие между функциональной ролью верхне-внизу (top-down) мозговых путей и их отсутствием в существующих моделях артифициального видения. Хотя биологические системы такие как мозг человека используют верхне-внизу мозговые пути для улучшения визуального распознавания, большинство моделей искусственного видения основываются лишь на нижне-вверху (feedforward) или рекуррентных архитектурах. Эта разница поднимает вопросы о функциональной важности верхне-внизу мозговых путей. Мотивируется поиском разъяснения, как верхне-внизу мозговые пути могут вкладывать в визуальную процессингу, и как они могут быть реализованы в моделировании. ## Метод Для изучения этой проблемы в данном исследовании использовались конволюционные рекуррентные нейронные сети (ConvRNN). Эти модели были обучены классифицировать изображения, со включенным и отключенным верхне-внизу мозговыми путями. Была также внедрена техника стохастической нейронной вариабельности, в частности, dropout, которая случайным образом подавляла отдельные нейроны в каждой итерации обучения. Эта реализация значительно увеличила результат модели, демонстрируя важность нейронной вариабельности и верхне-внизу мозговых путей для улучшения визуальной обработки. ## Результаты Исследования показали, что ConvRNNs с верхне-внизу мозговыми путями и dropout имели значительные преимущества в скорости обучения и точности. Эти модели были менее чувствительны к шумным помехам и атакам адверсарных входов. Репрезентация выходного слоя, полученная с верхне-внизу мозговыми путями и dropout, стала более оптимальна, что привело к сжатой, но эффективной кодированию информации. Также выявлено, что верхне-внизу мозговые пути способствуют устойчивости динамики сети в условиях выхода за пределы дистрибуции (out-of-distribution). ## Значимость Результаты этого исследования имеют широкие приложения в области искусственного видения, включая обработку изображений, обнаружение объектов и понимание языка. Модель с верхне-внизу мозговыми путями и dropout может использоваться в ситуациях, где необходимо высокое разрешение, высокая производительность и устойчивость к помехам. Также модель может применяться в ситуациях, где важно обеспечить точность, даже при неоптимальных условиях ввода. ## Выводы Выводы показывают, что верхне-внизу мозговые пути и нейронная вариабельность играют ключевую роль в улучшении визуальной обработки. Верхне-внизу мозговые пути помогают стабилизировать динамику сети, в то в

Annotation:

Biological systems leverage top-down feedback for visual processing, yet most artificial vision models succeed in image classification using purely feedforward or recurrent architectures, calling into question the functional significance of descending cortical pathways. Here, we trained convolutional recurrent neural networks (ConvRNN) on image classification in the presence or absence of top-down feedback projections to elucidate the specific computational contributions of those feedback pathwa...

ID: 2508.07115v1 q-bio.NC, cs.CV, cs.LG

arXiv PDF

📄 Commentary Generation for Soccer Highlights

2025-08-13

Авторы:

Chidaksh Ravuru

#################### ## Контекст #################### Создание комментариев для трансляций спортивных событий, в том числе футбола, является важной задачей в области автоматизации искусственного интеллекта. Футбольные трансляции часто подвергаются анализу и комментированию, так как это помогает зрителям углубиться в понимание игры. Однако автоматическое создание комментариев для трансляций требует сложных алгоритмов, включающих видео- и текстовый анализ, а также генерирование естественного языка. Несмотря на то, что темплейт-базные системы были первыми в этой области, они ограничены в точности и гибкости. С появлением мощных нейронных архитектур, таких как MatchVoice, стало возможным достичь более точной и реалистичной генерации комментариев в реальном времени. Одна из творческих проблем в этой области заключается в создании комментариев для самостоятельных выделений игры, таких как голы или критичные моменты. Этот аспект требует точного взаимодействия между видео и текстовым контентом, чтобы обеспечить контекстуальную корректность и актуальность комментариев. #################### ## Метод #################### В ходе работы использовалась расширенная модель MatchVoice, изначально предложенная для генерации комментариев в целом игровом контексте. Методология включала в себя две основные особенности: **коаршиное выравнивание** (точка входа видео) и **точное выравнивание** (определение определенных моментов в видео). Особенностью модели является то, что она работает в режиме реального времени и может выделять ключевые моменты в трансляции. Архитектура модели MatchVoice включает несколько модулей для обработки видео, включая обработку кадров, а также нейронные сети для генерации текста. Эти модули работают в синхронизации, что позволяет модели создавать комментарии, как моментальные, так и контекстуально подходящие. Также было проведено исследование воздействия различных окнах времени на нулевой шот-перформанс модели. #################### ## Результаты #################### Для оценки модели MatchVoice и ее расширения на генерацию комментариев для голов и ключевых моментов использовался датасет GOAL. Этот датасет содержит краткие клипы самостоятельных моментов игры, а не всю игру. Эксперименты были проведены с разными конфигурациями тренировки, включая разные глубины нейросетей, временные окна и жесткость регуляризации. На тестах показана значительная улучшенная точность в генерации комментариев по сравнению с базовой моделью. Также была обнаружена возможность модели генерировать комментарии с нулевым шотом для незнакомых клипов, что свидетельствует о ее высокой универсальности. Однако был выявлен ряд о

Annotation:

Automated soccer commentary generation has evolved from template-based systems to advanced neural architectures, aiming to produce real-time descriptions of sports events. While frameworks like SoccerNet-Caption laid foundational work, their inability to achieve fine-grained alignment between video content and commentary remains a significant challenge. Recent efforts such as MatchTime, with its MatchVoice model, address this issue through coarse and fine-grained alignment techniques, achieving ...

ID: 2508.07543v1 cs.CV, cs.LG

arXiv PDF

1
2
77
78
79
80
81
83
84

Показано 781 - 790 из 835 записей