📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Region-Point Joint Representation for Effective Trajectory Similarity Learning

2025-11-19

Авторы:

Hao Long, Silin Zhou, Lisi Chen, Shuo Shang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent learning-based methods have reduced the computational complexity of traditional trajectory similarity computation, but state-of-the-art (SOTA) methods still fail to leverage the comprehensive spectrum of trajectory information for similarity modeling. To tackle this problem, we propose \textbf{RePo}, a novel method that jointly encodes \textbf{Re}gion-wise and \textbf{Po}int-wise features to capture both spatial context and fine-grained moving patterns. For region-wise representation, the...

ID: 2511.13125v1 cs.CV, cs.IR, cs.LG

arXiv PDF

📄 TabRAG: Tabular Document Retrieval via Structured Language Representations

2025-11-15

Авторы:

Jacob Si, Mike Qu, Michelle Lee, Yingzhen Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Ingesting data for Retrieval-Augmented Generation (RAG) involves either fine-tuning the embedding model directly on the target corpus or parsing documents for embedding model encoding. The former, while accurate, incurs high computational hardware requirements, while the latter suffers from suboptimal performance when extracting tabular data. In this work, we address the latter by presenting TabRAG, a parsing-based RAG pipeline designed to tackle table-heavy documents via structured language rep...

ID: 2511.06582v1 cs.CL, cs.AI, cs.CV, cs.IR, cs.LG

arXiv PDF

📄 Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

2025-11-05

Авторы:

Ilyass Moummad, Kawtar Zaher, Hervé Goëau, Alexis Joly

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Efficient large-scale retrieval requires representations that are both compact and discriminative. Foundation models provide powerful visual and multimodal embeddings, but nearest neighbor search in these high-dimensional spaces is computationally expensive. Hashing offers an efficient alternative by enabling fast Hamming distance search with binary codes, yet existing approaches often rely on complex pipelines, multi-term objectives, designs specialized for a single learning paradigm, and long ...

ID: 2510.27584v2 cs.CV, cs.IR, cs.LG

arXiv PDF

📄 Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

2025-11-04

Авторы:

Ilyass Moummad, Kawtar Zaher, Hervé Goëau, Alexis Joly

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.27584v1 cs.CV, cs.IR, cs.LG

arXiv PDF

📄 ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

2025-10-01

Авторы:

Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari

## Контекст Biographical причиняются существуют значительные проблемы, такие как ошибки в тексте, недостаточное внимание к культурным контекстам и отсутствие многоязычного подхода. Эти проблемы становятся важными в связи с возрастающим использованием Масштабных Многомодальных Языковых Моделей (ММЯЯММ) в различных сферах, от образования до медицины. Однако существующие методы оценки и улучшения этих моделей недостаточно учитывают их способность работать с биографическими данными. Биографические причиняются являются ключевым аспектом человеческого знания и требуют специализированных подходов для точного понимания и генерации. ADAM предлагает первый полностью оценку и улучшение ММЯЯММ в этом критическом домене. ## Метод ADAM состоит из двух основных компонентов: **AdamDB** и **AdamBench**. **AdamDB** — это многоязычная и мультимодальная база данных, содержащая информацию о 4 миллионах индивидуумов, упорядоченных по географии, времени и профессиям. **AdamBench** включает в себя задачи оценки, основанные на Bloom's taxonomy, с различными уровнями логического роста, охватывающими индуктивное, дедуктивное и другие типы рассуждений. Для снижения ошибок и совершенствования генерации для менее известных личностей, ADAM предлагает **AdamRAG** — систему, основанную на восстановлении и генерации, которая интегрирует контекстные данные, такие как личные фотограммы, для более точного понимания. ## Результаты Исследования показали, что AdamRAG значительно повышает качество генерации в открытых моделях и приносит ограниченные, но заметные улучшения в закрытых. Особо высокие результаты были наблюдаемы в более простых формах логического роста, таких как воспроизведение и разъяснение фактов. Использование изображений лиц показало незначительное улучшение, но менее стабильное по сравнению с восстановлением информации. Эксперименты также показали, что модели лучше справляются с известными личностями, но их производительность значительно ухудшается при работе с менее известными. ## Значимость ADAM устанавливает новый стандарт для оценки и улучшения ММЯЯММ в биографических задачах. Он может применяться в областях, таких как образование, социальные сети и исследования. Его главные преимущества заключаются в улучшении точности генерации, снижении ошибок в выводе и расширении поддержки многоязычности. Этот подход может повлиять на развитие технологий, которые требуют точного понимания и генерации биографических данных, таких как искусственный интеллект в учебных системах или создание профилей в социальных сетях. ## Выводы

Annotation:

We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitiv...

ID: 2509.22991v1 cs.CL, cs.AI, cs.CV, cs.IR, cs.LG

arXiv PDF

📄 Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring

2025-09-09

Авторы:

Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh

## Контекст Устьевый пассивный акустический мониторинг (UPAM) предоставляет богатые данные по пространству и времени для длительного экологического анализа. Однако наличие встроенного шума и сложных зависимостей сигналов ставит под угрозу устойчивость моделей и их общезначимость. Несмотря на то, что мультислойная гладь улучшила локализацию целевых звуков, проблемы, такие как изменчивость изменчивого шума, различные эффекты распространения и смешанные биологические и антропогенные источники, требуют устойчивых архитектур и строгих экологических оценок. Поэтому требуется развитие методов, позволяющих эффективно работать с этими проблемами. ## Метод Разработан новый фреймворк для кросс-валидации, названный GetNetUPAM. Он разделяет данные на отдельные сегменты "сайт-год", сохраняя характеристики записи и обеспечивая, что каждая валидационная партия представляет собой уникальную экологическую подгруппу. Это снижает вероятность переобучения к местным шумам и артефактам сенсоров. Блокировка "сайт-год" включает общую экологическую разнообразность, в то время как классическая кросс-валидация на случайных подмножествах измеряет общую общую общую генерализацию, которая отсутствует в существующих бенчмарках. Используя GetNetUPAM, предлагается модель ARPA-N с адаптивным резолюционным пулингом и вниманием. Адаптивная пульпация с пространственным вниманием расширяет рецептурное поле, ловит крупномасштабную контекстную информацию без избытка параметров. ## Результаты В GetNetUPAM-окружении ARPA-N показала 14,4% увеличение средней точности по сравнению с DenseNet-базлами. Это привело к порядку меньшей вариабельности результатов во всех метриках. Эти результаты доказывают целесообразность ARPA-N в решении проблем устойчивости и общей эффективности моделей в UPAM. ## Значимость Разработанная архитектура и фреймворк могут быть применены в различных задачах мониторинга биоакустики, а также в других областях, где требуется обработка сложных акустических данных. Они обеспечивают более точную и консистентную обработку, что вносит вклад в улучшение оценок экосистем и развитие стоимостно эффективных решений для биоакустического мониторинга. ## Выводы Основным достижением является разработка универсального фреймворка для кросс-валидации и модели с адаптивным вниманием, которые позволяют увеличить точность и стабильность моделей в UPAM. Будущие исследования будут направлены на расширение возможностей модели для обработки более сложных сценариев и включения дополнительных источников данных для

Annotation:

Underwater Passive Acoustic Monitoring (UPAM) provides rich spatiotemporal data for long-term ecological analysis, but intrinsic noise and complex signal dependencies hinder model stability and generalization. Multilayered windowing has improved target sound localization, yet variability from shifting ambient noise, diverse propagation effects, and mixed biological and anthropogenic sources demands robust architectures and rigorous evaluation. We introduce GetNetUPAM, a hierarchical nested cross...

ID: 2509.04682v1 cs.SD, cs.AI, cs.CV, cs.IR, cs.LG, eess.AS

arXiv PDF

📄 Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers

2025-08-16

Авторы:

Hanna Herasimchyk, Robin Labryga, Tomislav Prusina

## Контекст Формирования и присвоения номенклатурных признаков растений — важной задачей в экологии, биологии и агрономии. Изучение растительных сообществ позволяет выявить их структуру, динамику и влияние на окружающую среду. Однако автоматическое распознавание растений с помощью изображений часто сталкивается с проблемами, такими как разнообразие форм и размеров растений, вариабельность условий съемки, и несовпадение между локальными и глобальными признаками. Точное распознавание множественных видов на изображениях квадрата может существенно облегчить процесс оценки растительных сообществ и поддержать усилия по консервации биоразнообразия. Наша исследовательская группа проанализировала проблемы, связанные с подобным видом задач, и предлагает новую модель, которая учитывает эти трудности. ## Метод Мы предлагаем метод, основанный на преобразованиях видящих моделей (Vision Transformers, ViT) для решения задачи множественного меток распознавания растений. В центре нашего подхода лежит DINOv2 Vision Transformer Base (ViT-B/14), тренируемый на одиночных изображениях видов растений. Для того, чтобы адаптироваться к задаче распознавания множественных видов в квадратах, мы использовали несколько классификационных голов для различных типов признаков (вид, подвид, семейство). Для повышения точности, мы внедрили алгоритмы многослойной обработки (multi-scale tiling) для привлечения растений различных размеров, оптимизацию динамических порогов на основе средней длины предсказаний и стратегии сборки моделей (bagging и Hydra). Наши эксперименты проводились на выборке, состоящей из примерно 1,4 миллиона изображений, представляющих 7 806 видов растений. ## Результаты Мы провели эксперименты с нашим подходом на тренировочных данных с 7 806 видов растений. Модель показала высокую точность распознавания видов, достигая 95% для видов, 92% для подвидов и 89% для семейств. Наше решение показало себя эффективно, оказавшись 3-й по результатам в частном лидербورде PlantCLEF 2025. Мы также проверили наш подход на отдельных квадратах, найдя, что он демонстрирует высокую точность в распознавании множественных видов, даже при наличии небольших растений на изображениях. ## Значимость Наш подход имеет широкое применение в различных областях, в том числе в экологии, агрономии, и охране природы. Он может быть использован для автоматизации процессов сбора данных в растительных сообществах, упрощения идентификации видов и поддержки задач консервации биоразнообразия. Также, наш подход может быть применен в агротехнических задачах, таких как раннее выявление болезней растений и определение их видов, что помо

Annotation:

We present a multi-head vision transformer approach for multi-label plant species prediction in vegetation plot images, addressing the PlantCLEF 2025 challenge. The task involves training models on single-species plant images while testing on multi-species quadrat images, creating a drastic domain shift. Our methodology leverages a pre-trained DINOv2 Vision Transformer Base (ViT-B/14) backbone with multiple classification heads for species, genus, and family prediction, utilizing taxonomic hiera...

ID: 2508.10457v1 cs.CV, cs.IR, cs.LG

arXiv PDF

📄 Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

2025-08-09

Авторы:

Shuo Lu, Yanyin Chen, Wei Feng, Jiahao Fan, Fengheng Li, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Jian Liang

Локальная оптимизация и несовпадение метрик оценки с предпочтениями пользователей стали серьезными проблемами в генерации и оценке макетов. Работа предлагает Uni-Layout — расширенный подход, который объединяет генерацию различных типов макетов в единую модель, основанную на естественном языке, и вводит инновационную методику оценки, адаптированную под человеческие предпочтения. Для этого был создан Layout-HF100k, первый большой датасет с экспертной оценкой макетов, позволяющий учитывать визуальные и геометрические свойства. Механизм Chain-of-Thought и модуль оценки достоверности позволяют осуществлять квалитативные и квантитативные оценки. Для уточнения соответствия модели пользовательским предпочтениям, разработана Dynamic-Margin Preference Optimization. Исследования показали, что Uni-Layout превосходит существующие методы как в генерировании, так и в оценке макетов, обеспечивая более человеческий и точный подход.

Annotation:

Layout generation plays a crucial role in enhancing both user experience and design efficiency. However, current approaches suffer from task-specific generation capabilities and perceptually misaligned evaluation metrics, leading to limited applicability and ineffective measurement. In this paper, we propose \textit{Uni-Layout}, a novel framework that achieves unified generation, human-mimicking evaluation and alignment between the two. For universal generation, we incorporate various layout tas...

ID: 2508.02374v1 cs.CV, cs.IR, cs.LG

arXiv PDF