📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Agentic Entropy-Balanced Policy Optimization

2025-10-18

Авторы:

Guanting Dong, Licheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recently, Agentic Reinforcement Learning (Agentic RL) has made significant progress in incentivizing the multi-turn, long-horizon tool-use capabilities of web agents. While mainstream agentic RL algorithms autonomously explore high-uncertainty tool-call steps under the guidance of entropy, excessive reliance on entropy signals can impose further constraints, leading to the training collapse. In this paper, we delve into the challenges caused by entropy and propose the Agentic Entropy-Balanced Po...

ID: 2510.14545v1 cs.LG, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 DRIFT: Decompose, Retrieve, Illustrate, then Formalize Theorems

2025-10-15

Авторы:

Meiru Zhang, Philipp Borchert, Milan Gritta, Gerasimos Lampouras

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automating the formalization of mathematical statements for theorem proving remains a major challenge for Large Language Models (LLMs). LLMs struggle to identify and utilize the prerequisite mathematical knowledge and its corresponding formal representation in languages like Lean. Current retrieval-augmented autoformalization methods query external libraries using the informal statement directly, but overlook a fundamental limitation: informal mathematical statements are often complex and offer ...

ID: 2510.10815v2 cs.AI, cs.CL, cs.IR, cs.SC

arXiv PDF

📄 Agent Learning via Early Experience

2025-10-11

Авторы:

Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to sc...

ID: 2510.08558v1 cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Deterministic Legal Retrieval: An Action API for Querying the SAT-Graph RAG

2025-10-09

Авторы:

Hudson de Martim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The Structure-Aware Temporal Graph RAG (SAT-Graph RAG) addresses core limitations of standard Retrieval-Augmented Generation in the legal domain by providing a verifiable knowledge graph that models hierarchical structure, temporal evolution, and causal events of legal norms. However, a critical gap remains: how to reliably query this structured knowledge without sacrificing its deterministic properties. This paper introduces the SAT-Graph API, a formal query execution layer centered on canonica...

ID: 2510.06002v1 cs.AI, cs.CL, cs.IR

arXiv PDF

📄 LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science

2025-10-04

Авторы:

Alireza Salemi, Mihir Parmar, Palash Goyal, Yiwen Song, Jinsung Yoon, Hamed Zamani, Hamid Palangi, Tomas Pfister

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid advancement of Large Language Models (LLMs) has opened new opportunities in data science, yet their practical deployment is often constrained by the challenge of discovering relevant data within large heterogeneous data lakes. Existing methods struggle with this: single-agent systems are quickly overwhelmed by large, heterogeneous files in the large data lakes, while multi-agent systems designed based on a master-slave paradigm depend on a rigid central controller for task allocation t...

ID: 2510.01285v1 cs.MA, cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 From Videos to Indexed Knowledge Graphs -- Framework to Marry Methods for Multimodal Content Analysis and Understanding

2025-10-04

Авторы:

Basem Rizk, Joel Walsh, Mark Core, Benjamin Nye

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Analysis of multi-modal content can be tricky, computationally expensive, and require a significant amount of engineering efforts. Lots of work with pre-trained models on static data is out there, yet fusing these opensource models and methods with complex data such as videos is relatively challenging. In this paper, we present a framework that enables efficiently prototyping pipelines for multi-modal content analysis. We craft a candidate recipe for a pipeline, marrying a set of pre-trained mod...

ID: 2510.01513v1 cs.CV, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

2025-10-01

Авторы:

Wei Zhou, Guoliang Li, Haoyu Wang, Yuxing Han, Xufei Wu, Fan Wu, Xuanhe Zhou

## Контекст В последние годы large language models (LLM) продемонстрировали вполне убедительные результаты в задачах Text-to-SQL, где требуется преобразовать синтаксически корректный текстовый запрос в SQL-запрос, соответствующий логике БД. Однако существует еще одна важная задача, называемая Cross-System SQL Translation (чаще всего — SQL-to-SQL), которая заключается в переводе SQL-запроса, написанного для одной базы данных (например, MySQL), на соответствующий запрос, корректный для другой базы данных (например, ClickHouse). Эта задача является достаточно сложной, так как каждая база данных имеет свои особенности в синтаксисе, функциях и системных ограничениях. Несмотря на ее практическую важность, существующие бенчмарки для SQL-задач не очень подходят для эффективной оценки моделей в Cross-System SQL Translation, в основном из-за ограниченного набора систем, с которыми они работают, и неэффективности в отражении реальных системных различий. ## Метод PARROT (Practical And Realistic BenchmaRk for CrOss-System SQL Translation) — это новый бенчмарк для оценки моделей LLM в Cross-System SQL Translation. Он включает 598 пар запросов, полученных из 38 открытых баз данных и реальных бизнес-систем. Авторы специально подготовили эти пары, чтобы оценить то, насколько хорошо модели LLM понимают системно-зависимые различия в SQL. Для расширенного тестирования представлены два дополнительных варианта: PARROT-Diverse (28,003 пар для тестирования многообразия синтаксиса) и PARROT-Simple (5,306 пар для тестирования под конкретные ситуации). Все пары работают с 22 production-grade database systems, что делает PARROT одной из самых мощных и обширных баз для этих задач. Для поддержки будущих исследований авторы также выпустили открытый leaderboard и исходный код на сайте: https://code4db.github.io/parrot-bench/. ## Результаты Авторы провели эксперименты с несколькими популярными LLM, включая GPT-4, LLaMA и др., и оценивали их на PARROT, PARROT-Diverse и PARROT-Simple. Результаты показали, что даже самые продвинутые модели достигают низкую точность (менее 38.53% в среднем) при выполнении задач Cross-System SQL Translation. Это свидетельствует о том, что эта задача значительно сложнее Text-to-SQL и требует более специализированных подходов. Также были проведены тестирования на PARROT-Diverse и PARROT-Simple, которые показали, что LLM способны получать высокую точность на простых задачах, но сильно страдают при работе с системно-зависимыми различиями. ## Значимость PARROT является первым реальностью для эффективной оценки LLM в Cross-System SQL Translation. Его особенность заключается в том, что он хорошо отражает реальные различия систем, что не дает LLM просто "обмануть" бенчмарком, при этом оставаясь полезным для реальных бизнес-систем. Это открывает пути для развития моделей, кото

Annotation:

Large language models (LLMS) have shown increasing effectiveness in Text-to-SQL tasks. However, another closely related problem, Cross-System SQL Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database system (e.g., MySQL) into its equivalent one for another system (e.g., ClickHouse), is of great practical importance but remains underexplored. Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which (1) focus on a limited set of database systems (often...

ID: 2509.23338v1 cs.DB, cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Delta Activations: A Representation for Finetuned Large Language Models

2025-09-06

Авторы:

Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

#### Контекст Существует многочисленное количество открытого кода и моделей текстовых машинных носителей, созданных для конкретных задач и сфер, включая здравоохранение, юридические задачи и финансы. Однако существуют проблемы с организацией и поиском этих моделей, так как метаданные и репозитории часто являются несогласованными и неструктурированными. Это делает сложной навигацию и понимание того, как модели могут быть применены к новым задачам. Мы предлагаем Delta Activations, метод, который позволяет представить отлаженные модели в виде векторных представлений, измеряя изменения в их внутренних активациях относительно основной модели. Это представление позволяет эффективно кластеризовать модели по домену и задаче, демонстрируя структуру ландшафта моделей. #### Метод Delta Activations определяются как интегральные изменения внутренних активаций модели после обучения, относительно базовой модели. Мы используем методы снижения размерности, такие как t-SNE и UMAP, для визуализации векторных представлений. Для кластеризации используется agglomerative clustering, чтобы разделить модели по домену и задаче. Мы также проводим эксперименты для оценки свойств Delta Activations, включая робастность к разным схемам обучения, а также исследуем характеристики подхода для объединения моделей и выбора моделей. #### Результаты Мы проводим эксперименты с рядом отлаженных моделей, включая известные LLMs, построенные на основе масштабируемых архитектур, таких как T5 и RoBERTa. Мы проводим кластеризацию моделей по домену (например, здравоохранение и финансы) и по задаче (например, распознавание речи и перевод текста). Наши результаты показывают, что Delta Activations эффективно кластеризуют модели по схожести задач и домена, демонстрируя ценную структуру в ландшафте моделей. Мы также показываем, что Delta Activations могут быть использованы для выбора моделей и их объединения, а также позволяют закладывать задачи при помощи нескольких данных для подготовки. #### Значимость Delta Activations могут применяться для улучшения поиска, кластеризации и выбора моделей в среде больших текстовых моделей. Это позволяет сократить время и ресурсы, необходимые для понимания и применения моделей к новым задачам. Мы также ожидаем, что Delta Activations могут помочь повысить прозрачность и понимание в области обучения моделей, а также облегчить процесс применения моделей в различных сферах. #### Выводы Мы представили Delta Activations, метод для представления отлаженных моделей в виде векторных представлений, позволяющий эффективно кластеризовать модели по домену и задаче. Мы показали, что Delta Activations естественно вписываются в структуру ландшафта моделей, демонстрируя ценную информацию для понимания и применения моделей. Мы также показали,

Annotation:

The success of powerful open source Large Language Models (LLMs) has enabled the community to create a vast collection of post-trained models adapted to specific tasks and domains. However, navigating and understanding these models remains challenging due to inconsistent metadata and unstructured repositories. We introduce Delta Activations, a method to represent finetuned models as vector embeddings by measuring shifts in their internal activations relative to a base model. This representation ...

ID: 2509.04442v1 cs.LG, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 THEME : Enhancing Thematic Investing with Semantic Stock Representations and Temporal Dynamics

2025-08-27

Авторы:

Hoyoung Lee, Wonbin Ahn, Suhwan Park, Jaehoon Lee, Minjae Kim, Sungdong Yoo, Taeyoon Lim, Woohyung Lim, Yongjae Lee

## Контекст Тематическое инвестирование стремится формировать портфели, соответствующие структурным трендам, однако выбор соответствующих активов остается сложным из-за перекрывающихся границ отраслей и динамических изменений рынка. Эти трудности ограничивают эффективность темытологических инвестиций. Тем самым, необходимо разработать методы, позволяющие лучше понять связи между темами и активами, а также учитывать изменения рынка. Такой подход позволит повысить качество портфелей и их рисково-вознаграждаемые характеристики. ## Метод Мы предлагаем Thematic Representation Set (TRS) — расширенный набор данных, который использует реальные тематические ETF и дополняется индустриальными классификациями и финансовыми новостными данными. TRS обеспечивает точное определение тематических связей между активами и подробные текстовые профили для каждого актива. На основе TRS мы предлагаем \textsc{THEME}, фреймворк на основе градиентного взвешивания, который строит вложенные семантические и временные модели. Этот фреймворк позволяет лучше идентифицировать тематические связи между активами и учитывать динамику рынка. ## Результаты Мы проверили \textsc{THEME} на нескольких метриках реализации, включая точность, долгосрочную стабильность и риск. Наши результаты показывают, что \textsc{THEME} превышает существующие методы в несколько показателей. Эти результаты демонстрируют, что \textsc{THEME} не только избегает ложных срабатываний, но и обеспечивает более точное понимание тематических связей. ## Значимость Тематическое инвестирование имеет широкое применение в построении портфелей стратегических инвестиций. Метод \textsc{THEME} позволяет улучшить точность выбора активов, учитывая тематические связи и влияние динамики рынка. Это может привести к более эффективным портфелям с уменьшенными рисками и высокими возможностями роста. ## Выводы Мы доказали, что \textsc{THEME} эффективно решает проблему выбора активов в тематическом инвестировании. Наш подход может быть расширен на другие ситуации, где требуется точное понимание семантических связей и временных данных. Наша работа открывает пути для будущих исследований в области адаптивных методов для инвестиционных стратегий.

Annotation:

Thematic investing aims to construct portfolios aligned with structural trends, yet selecting relevant stocks remains challenging due to overlapping sector boundaries and evolving market dynamics. To address this challenge, we construct the Thematic Representation Set (TRS), an extended dataset that begins with real-world thematic ETFs and expands upon them by incorporating industry classifications and financial news to overcome their coverage limitations. The final dataset contains both the exp...

ID: 2508.16936v1 q-fin.PM, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 Extending FKG.in: Towards a Food Claim Traceability Network

2025-08-26

Авторы:

Saransh Kumar Gupta, Rizwan Gulzar Mir, Lipika Dey, Partha Pratim Das, Anirban Sen, Ramesh Jain

## Контекст Мировой фуд-ландшафт насыщен сложными, многогранными и многоуровневыми культурными, научными и коммерческими утверждениями о пищевых продуктах. Они относятся к их составу, свойствам, потенциальным пользам и вредностям, а также к предпочтениям и традиционным убеждениям. Например, есть утверждения, основанные на научных исследованиях (пробиотики способствуют нормальной работе кишечника), такие как "содержатся в огнестрельном оружии", но также есть недостоверные (александр медведев генетиком) или туманные (суперфуды усиливают иммунитет). Подобные утверждения возникают в различных регионах с разными историческими, культурными и регулиаторными контекстами. Однако трудности в их проверке, контекстуализации и отслеживании остаются значительной проблемой. Наша мотивация заключается в разработке инфраструктуры, которая позволяла бы структурировать и проверять такие утверждения, повышая прозрачность, достоверность и удобство для потребителей, политиков и научного сообщества. ## Метод Мы предлагаем развить Food Claim Traceability Network (FCN), являющийся расширением FKG.in, знаний о индийской пищевой культуре. Эта система будет построена на основе графа знаний и использовать семиаутоматизированные процессы знаний для извлечения, валидации и проверки пищевых утверждений. Мы внедрили рабочий процесс, основанный на Large Language Models (LLMs), для целей доказательства концепта. Рабочий процесс включает сбор данных из источников, таких как Reddit, и их приведение к структурированному виду с использованием проверяемого стека технологий. Он также предусматривает проверку источников, автоматическую валидацию утверждений и возможность контекстуализации результатов. Архитектура FCN основывается на прозрачных интерфейсах и использует семиаутоматизированные процессы для поддержки повседневных потребителей, ученых и политических деятелей. ## Результаты Мы провели эксперименты с выборкой данных из Reddit, используя LLM для извлечения и структурирования пищевых утверждений. Процесс включал курение и проверку данных с использованием рабочего процесса FCN. Эксперименты показали, что система способна структурировать утверждения с высоким уровнем точности и предоставлять контексты, помогающие понимать их уникальность и достоверность. Мы показали, как рабочий процесс FCN может быть применен для проверки пищевых утверждений, извлечения их структурированных описаний и поддержки контекстуальных знаний. ## Значимость FCN может быть применено в различных областях, включая поиск знаний, политику в области питания и выбор потребителей

Annotation:

The global food landscape is rife with scientific, cultural, and commercial claims about what foods are, what they do, what they should not do, or should not do. These range from rigorously studied health benefits (probiotics improve gut health) and misrepresentations (soaked almonds make one smarter) to vague promises (superfoods boost immunity) and culturally rooted beliefs (cold foods cause coughs). Despite their widespread influence, the infrastructure for tracing, verifying, and contextuali...

ID: 2508.16117v1 cs.AI, cs.CL, cs.IR

arXiv PDF

Показано 11 - 20 из 25 записей