📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

2025-12-03

Авторы:

Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, ret...

ID: 2512.02425v1 cs.CV, cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

2025-11-04

Авторы:

Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The prevailing video retrieval paradigm is structurally misaligned, as narrow benchmarks incentivize correspondingly limited data and single-task training. Therefore, universal capability is suppressed due to the absence of a diagnostic evaluation that defines and demands multi-dimensional generalization. To break this cycle, we introduce a framework built on the co-design of evaluation, data, and modeling. First, we establish the Universal Video Retrieval Benchmark (UVRB), a suite of 16 dataset...

ID: 2510.27571v1 cs.CV, cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 DeepAgent: A General Reasoning Agent with Scalable Toolsets

2025-10-28

Авторы:

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large reasoning models have demonstrated strong problem-solving abilities, yet real-world tasks often require external tools and long-horizon interactions. Existing agent frameworks typically follow predefined workflows, which limit autonomous and global task completion. In this paper, we introduce DeepAgent, an end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution within a single, coherent reasoning process. To address the challenges of long-hor...

ID: 2510.21618v1 cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Agent Learning via Early Experience

2025-10-11

Авторы:

Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to sc...

ID: 2510.08558v1 cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science

2025-10-04

Авторы:

Alireza Salemi, Mihir Parmar, Palash Goyal, Yiwen Song, Jinsung Yoon, Hamed Zamani, Hamid Palangi, Tomas Pfister

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid advancement of Large Language Models (LLMs) has opened new opportunities in data science, yet their practical deployment is often constrained by the challenge of discovering relevant data within large heterogeneous data lakes. Existing methods struggle with this: single-agent systems are quickly overwhelmed by large, heterogeneous files in the large data lakes, while multi-agent systems designed based on a master-slave paradigm depend on a rigid central controller for task allocation t...

ID: 2510.01285v1 cs.MA, cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

2025-10-01

Авторы:

Wei Zhou, Guoliang Li, Haoyu Wang, Yuxing Han, Xufei Wu, Fan Wu, Xuanhe Zhou

## Контекст В последние годы large language models (LLM) продемонстрировали вполне убедительные результаты в задачах Text-to-SQL, где требуется преобразовать синтаксически корректный текстовый запрос в SQL-запрос, соответствующий логике БД. Однако существует еще одна важная задача, называемая Cross-System SQL Translation (чаще всего — SQL-to-SQL), которая заключается в переводе SQL-запроса, написанного для одной базы данных (например, MySQL), на соответствующий запрос, корректный для другой базы данных (например, ClickHouse). Эта задача является достаточно сложной, так как каждая база данных имеет свои особенности в синтаксисе, функциях и системных ограничениях. Несмотря на ее практическую важность, существующие бенчмарки для SQL-задач не очень подходят для эффективной оценки моделей в Cross-System SQL Translation, в основном из-за ограниченного набора систем, с которыми они работают, и неэффективности в отражении реальных системных различий. ## Метод PARROT (Practical And Realistic BenchmaRk for CrOss-System SQL Translation) — это новый бенчмарк для оценки моделей LLM в Cross-System SQL Translation. Он включает 598 пар запросов, полученных из 38 открытых баз данных и реальных бизнес-систем. Авторы специально подготовили эти пары, чтобы оценить то, насколько хорошо модели LLM понимают системно-зависимые различия в SQL. Для расширенного тестирования представлены два дополнительных варианта: PARROT-Diverse (28,003 пар для тестирования многообразия синтаксиса) и PARROT-Simple (5,306 пар для тестирования под конкретные ситуации). Все пары работают с 22 production-grade database systems, что делает PARROT одной из самых мощных и обширных баз для этих задач. Для поддержки будущих исследований авторы также выпустили открытый leaderboard и исходный код на сайте: https://code4db.github.io/parrot-bench/. ## Результаты Авторы провели эксперименты с несколькими популярными LLM, включая GPT-4, LLaMA и др., и оценивали их на PARROT, PARROT-Diverse и PARROT-Simple. Результаты показали, что даже самые продвинутые модели достигают низкую точность (менее 38.53% в среднем) при выполнении задач Cross-System SQL Translation. Это свидетельствует о том, что эта задача значительно сложнее Text-to-SQL и требует более специализированных подходов. Также были проведены тестирования на PARROT-Diverse и PARROT-Simple, которые показали, что LLM способны получать высокую точность на простых задачах, но сильно страдают при работе с системно-зависимыми различиями. ## Значимость PARROT является первым реальностью для эффективной оценки LLM в Cross-System SQL Translation. Его особенность заключается в том, что он хорошо отражает реальные различия систем, что не дает LLM просто "обмануть" бенчмарком, при этом оставаясь полезным для реальных бизнес-систем. Это открывает пути для развития моделей, кото

Annotation:

Large language models (LLMS) have shown increasing effectiveness in Text-to-SQL tasks. However, another closely related problem, Cross-System SQL Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database system (e.g., MySQL) into its equivalent one for another system (e.g., ClickHouse), is of great practical importance but remains underexplored. Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which (1) focus on a limited set of database systems (often...

ID: 2509.23338v1 cs.DB, cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 TASER: Table Agents for Schema-guided Extraction and Recommendation

2025-08-21

Авторы:

Nicole Cho, Kirsty Fielding, William Watson, Sumitra Ganesh, Manuela Veloso

## Контекст Выбор области исследований определяется значительными проблемами в обработке и анализе данных из реальных финансовых документов. Эти документы часто содержат критическую информацию, хранящуюся в многостраничных, многослойных таблицах, которые сложно автоматически обработать. Отсутствие структуры в таблицах, их разнообразие и большое количество записей приводят к значительным сложностям в выделении и интерпретации корректной информации. Это приводит к трудоемкости в процессах анализа и рекомендации структурированных данных. Отсутствие надежных систем, которые могут адаптироваться к такому разнообразию данных, подчеркивает необходимость развития новых подходов к автоматической обработке таких таблиц. ## Метод Мы предлагаем TASER (Table Agents for Schema-guided Extraction and Recommendation) — систему, основанную на агентной модели, для схематического выделения и рекомендации данных из таблиц. Основные элементы TASER: 1. **Табличный детектор** — определяет таблицы в документе и их границы. 2. **Классификатор таблиц** — определяет тип таблицы (например, финансовый отчет). 3. **Расшифровщик таблиц** — извлекает данные из таблицы в структурированном виде. 4. **Рекомендательный агент** — анализирует результаты работы других агентов и рекомендует корректировки схемы. Система постоянно обучается с помощью тренировочных данных и регулярных рекомендаций. Мы разработали методы для обработки многостраничных таблиц с высоким разнообразием данных. Эталонные данные для обучения получены из 22 584 макетных страниц, включая 3 213 таблиц, содержащих сведения об управляемых ресурсах на сумму $731 млрд. ## Результаты Мы провели эксперименты, сравнивая TASER с существующими моделями, такими как Table Transformer. Наши результаты показывают, что TASER превосходит табличные модели существующими методами на 10.1% в объеме выделенных данных. Мы также провели эксперименты с разными параметрами обучения, такими как размер пакета, и выявили, что увеличение размера пакета приводит к значительному улучшению рекомендаций схемы (104.3%). Одним из ключевых результатов является то, что наши модели позволили извлечь данные по финансовым позициям в 9.8% большем количестве случаев. Эти результаты приводят к увеличению точности и эффективности процесса выделения и рекомендации данных. ## Значимость TASER может быть применен в различных финансовых институтах, аналитических компаниях и инвестиционных платформах для повышения эффективности обработки финансовых документов. Он обеспечивает более точную и структурированную выгрузку данных, уменьшая время, затрачиваемое на анализ. Этот под

Annotation:

Real-world financial documents report essential information about an entity's financial holdings that can span millions of different financial instrument types. Yet, these details are often buried in messy, multi-page, fragmented tables - for example, 99.4% of the tables in our dataset have no bounding boxes with the maximum number of rows amounting to 426 per table across 44 pages. To tackle these unique challenges from real-world tables, we present a continuously learning, agentic table extrac...

ID: 2508.13404v2 cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF