📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Waleed Khalid, Dmitry Ignatov, Radu Timofte

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reusing existing neural-network components is central to research efficiency, yet discovering, extracting, and validating such modules across thousands of open-source repositories remains difficult. We introduce NN-RAG, a retrieval-augmented generation system that converts large, heterogeneous PyTorch codebases into a searchable and executable library of validated neural modules. Unlike conventional code search or clone-detection tools, NN-RAG performs scope-aware dependency resolution, import-p...
ID: 2512.04329v1 cs.CV, cs.SE
Авторы:

Alvaro Becerra, Pablo Villegas, Ruth Cobos

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Wearable sensors, such as smartwatches, have become increasingly prevalent across domains like healthcare, sports, and education, enabling continuous monitoring of physiological and behavioral data. In the context of education, these technologies offer new opportunities to study cognitive and affective processes such as engagement, attention, and performance. However, the lack of scalable, synchronized, and high-resolution tools for multimodal data acquisition continues to be a significant barri...
ID: 2512.02651v1 cs.HC, cs.CV, cs.SE
Авторы:

Sweta Banerjee, Timo Gosch, Sara Hester, Viktoria Weiss, Thomas Conrad, Taryn A. Donovan, Nils Porsche, Jonas Ammeling, Christoph Stroblberger, Robert Klopfleisch, Christopher Kaltenecker, Christof A. Bertram, Katharina Breininger, Marc Aubreville

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The annotation of large scale histopathology image datasets remains a major bottleneck in developing robust deep learning models for clinically relevant tasks, such as mitotic figure classification. Folder-based annotation workflows are usually slow, fatiguing, and difficult to scale. To address these challenges, we introduce SWipeable ANnotations (SWAN), an open-source, MIT-licensed web application that enables intuitive image patch classification using a swiping gesture. SWAN supports both des...
ID: 2511.08271v1 cs.CV, cs.SE
Авторы:

Qiushi Sun, Jingyang Gong, Yang Liu, Qiaosheng Chen, Lei Li, Kai Chen, Qipeng Guo, Ben Kao, Fei Yuan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The scope of neural code intelligence is rapidly expanding beyond text-based source code to encompass the rich visual outputs that programs generate. This visual dimension is critical for advanced applications like flexible content generation and precise, program-driven editing of visualizations. However, progress has been impeded by the scarcity of high-quality multimodal code data, a bottleneck stemming from challenges in synthesis and quality assessment. To address these challenges, we make c...
ID: 2510.23538v1 cs.AI, cs.CL, cs.CV, cs.SE
Авторы:

Emmanuel Nsengiyumvaa, Leonard Niyitegekaa, Eric Umuhoza

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Accurate livestock identification is a cornerstone of modern farming: it supports health monitoring, breeding programs, and productivity tracking. However, common pig identification methods, such as ear tags and microchips, are often unreliable, costly, target pure breeds, and thus impractical for small-scale farmers. To address this gap, we propose a noninvasive biometric identification approach that leverages uniqueness of the auricular vein patterns. To this end, we have collected 800 ear ima...
ID: 2510.02197v1 cs.CV, cs.SE
Авторы:

Ilhan Skender, Kailin Tong, Selim Solmaz, Daniel Watzenig

## Контекст Транспортная безопасность является критически важной проблемой в мировом масштабе, требующей эффективных и оперативных мер для снижения рисков и оказания помощи жертвам. Одним из ключевых аспектов транспортной безопасности является систематическая и точная детекция аварийных ситуаций в режиме реального времени. Инфраструктурные видеокамеры, развернутые во всемирных городах, предлагают широкие возможности для автоматизированного мониторинга и детекции аварий. Однако существующие подходы часто требуют обширных массивов меток данных для обучения моделей, что ограничивает их применение в реальных условиях. В данной работе рассматривается мощность многомодальных больших языковых моделей (MLLMs) для детекции и описания трафических аварий, используя изображения с инфраструктурных камер. Этот подход снижает необходимость в больших датасетах с метками, обеспечивая более гибкий и эффективный метод для решения проблемы транспортной безопасности. ## Метод Для эффективного использования MLLMs был разработан процесс оценки и модификации входных данных, чтобы оптимизировать вывод модели. Были использованы следующие технические решения: 1. **Модель YOLO** — для детекции объектов на изображениях в режиме реального времени. 2. **Deep SORT** — для последовательного отслеживания объектов на серии кадров. 3. **Segment Anything (SAM)** — для точного изолирования объектов внутри кадров. Эти инструменты были интегрированы в процесс подготовки входных данных для моделей MLLMs, чтобы улучшить точность и объяснимость результатов. Были проведены эксперименты с помощью симулированного DeepAccident датасета из CARLA, который предлагает реалистичные сценарии транспортных происшествий. Модели Gemini 1.5, 2.0, Gemma 3 и Pixtral были оценены на способности к точной детекции и описанию транспортных аварий без дополнительного файн-тюнинга. ## Результаты Экспериментальные исследования показали, что Pixtral показала наилучшие результаты, достигнув F1-скора 71% и реколл 83%. Модели Gemini 1.5 и 2.0 продемонстрировали высокую точность с помощью усовершенствованных запросов, хотя Gemini 1.5 потеряла в F1-скоре и реколлекции. Gemma 3 продемонстрировала более устойчивую и балансированную производительность с минимальными колебаниями. Эти результаты указывают на потенциал MLLMs для улучшения автоматизированных систем мониторинга транспорта, особенно когда интегрируются с современными техническими подходами. ## Значимость Результаты работы могут быть применены в различных сферах, включая автоматизированные системы мониторин
Annotation:
Traffic safety remains a critical global concern, with timely and accurate accident detection essential for hazard reduction and rapid emergency response. Infrastructure-based vision sensors offer scalable and efficient solutions for continuous real-time monitoring, facilitating automated detection of accidents directly from captured images. This research investigates the zero-shot capabilities of multimodal large language models (MLLMs) for detecting and describing traffic accidents using image...
ID: 2509.19096v2 cs.CV, cs.SE
Авторы:

Khue Nong Thuc, Khoa Tran Nguyen Anh, Tai Nguyen Huy, Du Nguyen Hao Hong, Khanh Dinh Ba

## Контекст Современные технологии IoT (Интернета вещей) вносят существенный вклад в развитие умных домов, особенно в области управления продуктами питания. Однако существуют несколько проблем, связанных с эффективным организацией продуктов в домашней среде. Одним из главных трудностей является неэффективность управления продуктами питания, приводящая к простоям, потере и неоптимальному потреблению ресурсов. Эти проблемы могут быть устранены путем интеграции IoT с компьютерным зрением, что позволяет улучшить эффективность управления и уменьшить простои. ## Метод Предлагаемая система включает в себя три основных модуля: модуль данных, модуль обнаружения и управления предметами, а также модуль визуализации. Для обнаружения предметов используется модель компьютерного зрения, которая основывается на функциональной калибровке моделей с помощью адаптивной оценки ошибок. Эта модель демонстрирует значительные улучшения в надежности обнаружения в различных условиях освещения и в условиях высокой плотности хранения продуктов. ## Результаты В результате экспериментов было показано, что подход к функциональной калибровке моделей, включающий адаптивную оценку ошибок, позволил значительно улучшить достоверность обнаружения объектов в различных условиях. На практике это привело к уменьшению простои в управлении продуктами и к повышению эффективности распределения продуктов в домашней среде. Эти результаты подтверждают эффективность и реальную полезность предлагаемого подхода. ## Значимость Предлагаемый подход может быть применен в различных областях, включая домашнее управление продуктами питания и закупки продуктов. Высокая точность и надежность системы позволяют значительно уменьшить потери и улучшить уровень жизни. Этот подход может способствовать уменьшению простоев, оптимизации хранения продуктов и улучшению оптимизации домашнего потребления. ## Выводы Предлагаемая система позволяет повысить уровень управления продуктами питания, увеличить эффективность и уменьшить простои в домашнем жизнерадостном течении. Будущим исследованиям следует уделить внимание улучшению точности моделей и их применению в различных средах, чтобы продвинуть цели устойчивого развития и домашнее управление продуктами питания.
Annotation:
The Internet of Things (IoT) plays a crucial role in enabling seamless connectivity and intelligent home automation, particularly in food management. By integrating IoT with computer vision, the smart fridge employs an ESP32-CAM to establish a monitoring subsystem that enhances food management efficiency through real-time food detection, inventory tracking, and temperature monitoring. This benefits waste reduction, grocery planning improvement, and household consumption optimization. In high-den...
ID: 2509.07400v1 eess.SY, cs.CV, cs.SE, cs.SY, C.3; J.7
Авторы:

Jan Phillipp Albrecht, Jose R. A. Godinho, Christina Hübers, Deborah Schmidt

## Контекст X-ray computed tomography (CT) является основным трёхмерным методом для изображения внутренних микроструктур материалов. Однако quantitative analysis этих микроструктур часто сталкивается с рядом проблем, включая импульсные изображения и неточности, вызванные техническими ограничениями технологии. Эти неточности влияют на точность классификации и оценки микроструктур. Чтобы улучшить точность и стабильность такого analysis, необходимо разработать инструменты, которые позволят учесть всё это. Для этого предлагается ARI3D — программное обеспечение для interactive quantification в трехмерных изображениях X-ray CT. ## Метод ARI3D представляет собой инструмент для interactive quantification в трехмерных изображениях X-ray CT. Он позволяет пользователю вручную выделять и классифицировать объекты в изображении. Алгоритмы ARI3D включают технологии, которые учитывают изображательные артифакты, такие как beam hardening и partial volume effect, а также повышают точность и удобство классификации микроструктур. Инструмент включает в себя интерактивные инструменты для segmentation, classification и visualization, которые помогают пользователю обеспечить точный quantification. ## Результаты Программа ARI3D была протестирована на ряде трехмерных CT изображений, в том числе на изображениях полученных при различных изображениих микроструктур материалов. Эксперименты показали, что ARI3D позволяет увеличить точность классификации микроструктур, снизить неточность, вызванную beam hardening, и улучшить обнаружение малых объектов. Также было продемонстрировано, что ARI3D добивается этого с более удобным и intuitiveм интерфейсом пользователя, что делает использование инструмента более эффективным. ## Значимость ARI3D может применяться во многих областях науки, где требуется quantitative analysis микроструктур в трехмерных изображениях. Он помогает улучшить точность и удобство классификации микроструктур, а также уменьшает время, затрачиваемое на их обработку. Это может быть применено в metallurgia, nanotechnology, и других областях, где требуется точная quantitative analysis микроструктур. ## Выводы ARI3D показал свою эффективность в interactive quantification в трехмерных изображениях X-ray CT. Он способен улучшить точность классификации микроструктур и уменьшить неточности, вызванные изображательными артефактами. В дальнейших исследованиях будет рассматриваться возможность расширения инструмента для работы с другими типами изображений и повышения его функциональных возможностей.
Annotation:
X-ray computed tomography (CT) is the main 3D technique for imaging the internal microstructures of materials. Quantitative analysis of the microstructures is usually achieved by applying a sequence of steps that are implemented to the entire 3D image. This is challenged by various imaging artifacts inherent from the technique, e.g., beam hardening and partial volume. Consequently, the analysis requires users to make a number of decisions to segment and classify the microstructures based on the ...
ID: 2508.09849v1 cs.CV, cs.SE
Авторы:

Surej Mouli, Ramaswamy Palaniappan

**Резюме** В данной работе исследованы свойства SSVEP (steady-state visual evoked potential), применяемого в визуально-ориентированных диагностических и биокомпьютерных системах. Однако основной проблемой при использовании вибрирующих визуальных стимулов является наблюдаемая утомляемость пользователя, что ограничивает длительную эксплуатацию и практическое применение. Это усложняется отсутствием достаточной точности в определении ширины импульсов в PWM-генераторах. Авторы изучили влияние высоких дозировочных коэффициентов на SSVEP-отклик и снижение визуальной утомляемости. Для этого использовали эмпирическую модель с PWM-циклами от 50 до 95%, генерируемых настраиваемым жестко запрограммированным источником света. Обнаружено, что увеличение дозировки стимула снижает визуальное напряжение у пользователей, а SSVEP-отклик достигает максимума при дозировке 85%. Это открытие может облегчить применение SSVEP в широкомасштабных практических задачах.
Annotation:
Steady state visual evoked response (SSVEP) is widely used in visual-based diagnosis and applications such as brain computer interfacing due to its high information transfer rate and the capability to activate commands through simple gaze control. However, one major impediment in using flashing visual stimulus to obtain SSVEP is eye fatigue that prevents continued long term use preventing practical deployment. This combined with the difficulty in establishing precise pulse-width modulation (PWM)...
ID: 2508.02359v1 eess.SP, cs.CV, cs.SE