📚 Саммари научных статей из arXiv

Найдено 1303 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 ChatCLIDS: Simulating Persuasive AI Dialogues to Promote Closed-Loop Insulin Adoption in Type 1 Diabetes Care

2025-09-05

Авторы:

Zonghai Yao, Talha Chafekar, Junda Wang, Shuo Han, Feiyun Ouyang, Junhui Qian, Lingxi Li, Hong Yu

## Контекст Closed-loop insulin delivery systems (CLIDS) представляют собой технологические решения, направленные на улучшение управления сахарным диабетом типа 1. Однако их реальное применение остается низким, не из-за проблем техники, а из-за многообразия барьеров, включая психосоциальные и социальные факторы. Эти факторы сильно влияют на принятие решений и стабильность лечения. Наличие эффективных методов общения и персуадирования является ключевым для улучшения принятия CLIDS. Большинство имеющихся исследований фокусируются на технических аспектах, но недостаточно уделяется вниманию психологическим и социальным аспектам. Мы предлагаем ChatCLIDS — первую платформу для оценки моделей глубокого обучения, способных совершенствовать психологическое персуадирование в поддержке CLIDS. ## Метод ChatCLIDS представляет собой инновационный фреймворк, основанный на технологии глубокого обучения. Он включает библиотеку виртуальных пациентов с клинически обоснованными профилями, каждый из которых проявляет уникальные барьеры принятия CLIDS. Фреймворк имитирует динамические, многократные взаимодействия между виртуальными пациентами и моделями психологического персуадирования на основе глубокого обучения. Эти модели развивают их подходы с использованием разнообразных стратегий, в том числе эвристические, социально-подвержденные и противостоящие. Кроме того, ChatCLIDS поддерживает развитие диалогов в течение многократных сеансов, что делает его уникальной платформой для моделирования долгосрочных консультаций. ## Результаты Мы провели эксперименты с широким спектром моделей глубокого обучения, в том числе LLMs различных масштабов и специализированных моделей для психологического персуадирования. Данные экспериментов основывались на реальных сценариях и виртуальных диалогах. Результаты показали, что более крупные модели демонстрируют высокую эффективность в многократных сеансах, но их результаты значительно ухудшаются при активной социальной противостойкости или реакции на социальное давление. Несмотря на то, что модели способны адаптироваться, они часто не могут полностью преодолеть установленные барьеры. Эти результаты доказывают необходимость развития более гибких и социально осведомленных моделей для реальных сценариев. ## Значимость ChatCLIDS открывает новые горизонты для развития моделей психологического персуадирования в сфере здравоохранения. Он может использоваться для моделирования диалогов в различных сферах, включая управление диабетом, заболеваниями сердца и другими болезнями, где психосоциальные факторы играют важную роль. Этот фреймворк позволя

Annotation:

Real-world adoption of closed-loop insulin delivery systems (CLIDS) in type 1 diabetes remains low, driven not by technical failure, but by diverse behavioral, psychosocial, and social barriers. We introduce ChatCLIDS, the first benchmark to rigorously evaluate LLM-driven persuasive dialogue for health behavior change. Our framework features a library of expert-validated virtual patients, each with clinically grounded, heterogeneous profiles and realistic adoption barriers, and simulates multi-t...

ID: 2509.00891v2 cs.AI, cs.CL

arXiv PDF

📄 Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

2025-09-05

Авторы:

Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos

## Контекст Темporal graph (TG) — это граф, в котором ребра имеют временные характеристики, такие как время создания или удаления. Развитие систем графа заключается в том, чтобы предсказать будущие связи между узлами в графе. Это задача центральная в развитии технологий, которая требует использования нейросетей и графовых структур. Однако, существующие модели, такие как temporal graph neural networks, недостаточно транспартны и не могут быть использованы для неизвестных графов без повторного обучения. Таким образом, существует необходимость в создании моделей, которые могут объяснить свои решения и применяться к неизвестным данным. В этом работе мы предлагаем модель, которая использует методы reinforcement learning для того, чтобы обучить модели понимания имен ответов в контексте, чтобы улучшить ясность и понятность своих решений. ## Метод Мы предлагаем Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), которая является фреймвормом, основанным на reinforcement learning. Он содержит модель LLM, которая получает набор данных с графами и их связями, а также набор возможных вопросов и ответов. Мы используем reward-based методику для того, чтобы модель могла самостоятельно выявлять логику, которая приводит к правильным ответам. Модель также обучается производить разъяснения, которые подкрепляют свои выводы. Мы также предлагаем новую методику оценки того, насколько верны и полезны рассуждения, которые были созданы моделью. Эта методика сочетает в себе метрики оценки рейтинга и систему LLM-as-a-Judge, которая может оценивать качество рассуждений и учитывать влияние возможных ложных сведений. ## Результаты Мы провели эксперименты с ReaL-TG-4B, моделью, которая была получена в результате fine-tuning Qwen3-4B. Мы сравнили его с текущими лидерами в области графовых моделей, включая GPT-5 mini. Наши эксперименты показали, что ReaL-TG-4B превосходит всех соперников по метрикам рейтинга, производя самые точные прогнозы. Более того, наши разъяснения, созданные моделью, получили высокий рейтинг как от системы LLM-as-a-Judge, так и от людей, что подтвердило качество нашей модели. ## Значимость Модель ReaL-TG может быть применена в различных направлениях. Например, в сфере data science, где необходимо прогнозировать дальнейшие связи в графах. Она также может применяться в социальных сетях, где поддержание связей и понимание их истории ключевое значение. Наше решение обеспечивает высокую точность и ясность в прогнозировании. Это предлагает новый подход к графовым моделям, который может повысить надежность и понимание в области data science и AI. ## Выводы Мы представили ReaL-TG, модель, которая использует reinforcement learning и LLM для того, чтобы обеспечи

Annotation:

Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic T...

ID: 2509.00975v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper

2025-09-05

Авторы:

Runjia Zeng, Guangyan Sun, Qifan Wang, Tong Geng, Sohail Dianat, Xiaotian Han, Raghuveer Rao, Xueling Zhang, Cheng Han, Lifu Huang, Dongfang Liu

## Контекст Многослойные нейронные сети (DNNs) часто интерпретируются как манифодные мапперы, которые могут активировать различные нейронные маршруты в зависимости от задачи. Однако подходы типа "предобучение-и-файн-тюнинг" (pretrain-then-fine-tune) обычно являются двухэтапными: предобучение устанавливает широкий базу знаний, а файн-тюнинг адаптирует модель к конкретной задаче. Несмотря на успех файн-тюнинга, его работа ограничена фиксированным пространством параметров, что не позволяет ему гибко адаптироваться к разнообразным и меняющимся распределениям данных. Эта проблема становится особенно актуальной в сложных и динамически изменяющихся различных областях применения. Мотивированы этими проблемами, авторы предлагают новый подход, **Mixture of Expert Prompt Tuning (MEPT)**, который предлагает более динамическую и эффективную модель для адаптации к нестационарным данным. ## Метод MEPT является надстроение на Mixture of Experts (MoE), структуру, которая использует несколько экспертов, каждый из которых специализируется на определенных подмножествах данных. В MEPT применяется процесс **prompt tuning**, где несколько предварительно обученных моделей (prompts) адаптируются к новым данным. Эта гибкость позволяет MEPT активировать только те нейронные пути, которые требуются для конкретной задачи, без необходимости переучивать все модельные параметры. Архитектура MEPT включает в себя несколько моделей (prompts), которые работают в параллели, и выбираются в зависимости от конкретной задачи. Это позволяет легко адаптироваться к различным манифолдам без значительного увеличения модели. ## Результаты Метод MEPT был протестирован на задаче классификации и обработки естественного языка (надстройка SuperGLUE). На этих задачах MEPT показал значительные улучшения по сравнению с другими параметр-эффективными методами. В частности, на SuperGLUE, MEPT улучшил средний результат на 1.94%, а также снизил число активируемых предложений (prompts) на 79.25%. Это указывает на то, что MEPT не только эффективнее, но и более экономно расходует ресурсы, активируя только те нейронные сети, которые необходимы для конкретной задачи. ## Значимость MEPT может быть применен в разных областях, где необходима гибкая адаптация к изменяющимся данным, например в медицине, финансах, интернет-технологиях, и т.д. Главное преимущество MEPT заключается в его универсальности и эффективности в активации только необходимых нейронных сетей, что позволяет экономить ресурсы и повысить производительность. Этот подход также может быть использован для обучения моделей, которые могут быть более сильно адаптированы к

Annotation:

Considering deep neural networks as manifold mappers, the pretrain-then-fine-tune paradigm can be interpreted as a two-stage process: pretrain establishes a broad knowledge base, and fine-tune adjusts the model parameters to activate specific neural pathways to align with the target manifold. Although prior fine-tuning approaches demonstrate success, their rigid parameter space limits their ability to dynamically activate appropriate neural pathways, rendering them ill-equipped to adapt flexibly...

ID: 2509.00996v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Analysis of Error Sources in LLM-based Hypothesis Search for Few-Shot Rule Induction

2025-09-05

Авторы:

Aishni Parab, Hongjing Lu, Ying Nian Wu, Sumit Gulwani

## Контекст Индуктивное обучение является ключевым аспектом человеческого мозга, позволяющим выводить абстрактные правила из ограниченных примеров и применять их к новым ситуациям. Однако существуют сложности в понимании, как машинное обучение может эффективно реализовать индуктивное обучение. В данном исследовании авторы сравнивают подходы гипотезы поиска с подходом прямого генерирования программ на основе машинного обучения, основанного на больших лингвистических моделях (LLM), для решения задач малоподкрепленного вывода правил. Эта проблема важна, поскольку поиск гипотез может стать мощным инструментом для моделирования индуктивного разума, но пока недостаточно изучен. ## Метод Методология исследования основывается на сравнении двух подходов: гипотезы поиска и прямого генерирования программ. Гипотеза поиска подразумевает, что большая лингвистическая модель создает список возможных гипотез, а затем их оценивают на основе тестирующих примеров. Прямое генерирование программ, напротив, прямо генерирует программу, которая решает задачу. Исследование использовало данные из существующих выборок для оценки качества вывода. Архитектура системы предполагает использование LLM для представления и поиска гипотез, а также для оценки их точности. ## Результаты В ходе экспериментов, проведенных на различных сетках данных, гипотезный поиск показал себя очень эффективно, приближаясь к решениям, достигаемым человеком, с почти одинаковой точностью. Однако прямое генерирование программ оказалось значительно менее эффективным, тем более что при поиске гипотез была достигнута высокая стабильность и низкая стоимость ошибок. Это демонстрирует, что поиск гипотез является более эффективным методом для решения задач малоподкрепленного вывода правил. ## Значимость Результаты исследования имеют значительное значение для многих областей, включая робототехнику, автоматизацию и научную исследовательскую деятельность. Гипотезный поиск может быть применен для моделирования индуктивного разума в системах, которые должны работать с ограниченными данными. Особым преимуществом является его высокая точность и устойчивость к ошибкам, что делает его привлекательным в ситуациях, где важно минимизировать ошибки. Этот подход может стать мощным инструментом для ускорения развития ИИ в области индуктивного обучения. ## Выводы Авторы заключают, что гипотезный поиск является эффективным подходом для решения задач малоподкрепленного вывода правил и может стать ключевым инструментом для моделирования индуктивного разума. Однако остаются нерешенными про

Annotation:

Inductive reasoning enables humans to infer abstract rules from limited examples and apply them to novel situations. In this work, we compare an LLM-based hypothesis search framework with direct program generation approaches on few-shot rule induction tasks. Our findings show that hypothesis search achieves performance comparable to humans, while direct program generation falls notably behind. An error analysis reveals key bottlenecks in hypothesis generation and suggests directions for advancin...

ID: 2509.01016v1 cs.AI, cs.CL, cs.LG, cs.NE

arXiv PDF

📄 FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

2025-09-05

Авторы:

Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim

## Контекст FlashAdventure — это инновационный бенчмарк, разработанный для оценки возможностей GUI-агентов, основанных на лоLМ, в управлении интерфейсами различных видеоигр. Особое внимание уделяется жанру приключенческих игр, требующим не только обработки различных интерфейсов, но и комплексного понимания развивающихся сюжетных линий. Несмотря на прогресс в области графических интерфейсов, существующие бенчмарки либо не достаточно разнообразны, либо не оценивают способность агентов решать задачи в рамках полных сюжетных линий. FlashAdventure решает эту проблему, предоставляя 34 Flash-based приключенческих игры с различными уровнями сложности и задачами, подвергая агенты тестированию на выполнение полных сюжетных линий. Это позволяет адресовать проблему **observation-behavior gap** — сложность запоминания и использования элементов игровых сценариев, распространяющихся на большой промежуток времени. ## Метод FlashAdventure использует 34 игр с Flash-based интерфейсами, каждая из которых представляет собой полную сюжетную линию. Для оценки способности агентов используется CUA-as-a-Judge — автоматизированная система оценки, которая детально измеряет прогресс и точность выполнения задач. COAST, современный агентский фреймворк, разработанный в рамках проекта, основывается на логике последовательного планирования и удерживает долгосрочную память для ключевых моментов игры. Эта технология позволяет улучшить способность агента не только решать элементарные задачи, но и успешно комплексно взаимодействовать в ходе сложных сюжетных линий. ## Результаты Эксперименты показали, что текущие GUI-агенты сталкиваются с значительными сложностями при решении задач, связанных с полными сюжетными линиями в FlashAdventure. Использование COAST улучшило процент успешного выполнения задач и сократило время на решение, но несмотря на это, большой gap между результатами лучших агентов и человеческой производительностью свидетельствует о необходимости продолжительных усилий в области усовершенствования агентских систем. Эксперименты также демонстрируют, что FlashAdventure — это наглядный инструмент для выявления недостатков в существующих агентских моделях. ## Значимость FlashAdventure может быть использован в различных областях, включая искусственный интеллект, игровые исследования, а также в обучение системам взаимодействия с графическими пользовательскими интерфейсами. Он предоставляет детализированные тестовые среды для изучения проблем, связанных с долгосрочным планированием и знанием игровых сценариев. Его преимущества заключаются в возможности выявления слабых мест в GUI-агентах, стимулируя развитие систем,

Annotation:

GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story ...

ID: 2509.01052v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

2025-09-05

Авторы:

Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen

#### Контекст Рейнфорсментное обучение с верифируемыми наградами (RLVR) доказало свою эффективность в улучшении применимости глубоких нейронных сетей (LLM), однако оно ограничивается однопересеченными интеракциями и не учитывает интеграцию инструментов. Агентное рейнфорсментное обучение с использованием инструментов (ARLT), как стратегия для многопересеченных интеракций, также столкнулось с проблемами, включая распространенную фрагментацию кодовых баз, синхронные выполнения, которые приводят к бутылкам в производительности, и ограниченную модульность для расширения в различных областях. Из-за этих проблем недостаточно развиты методы, облегчающие развитие инструмент-агентных систем. Мы предлагаем VerlTool — модульную и систематическую систему, которая решает эти проблемы, позволяя формализовать ARLT в многошаговых траекториях с многомодальными наблюдениями (текст, изображения, видео). #### Метод VerlTool разработана как модульная и архитектурно универсальная система, которая предоставляет значительные улучшения в производительности и модульности. Основные компоненты подхода включают: (1) систематическую интеграцию с VeRL для обеспечения стабильности и удобства в обслуживании, (2) стандартизированные API для управления инструментами, покрывающие различные модальности, такие как код, поиск, SQL-базы данных и выводы визуальных данных, (3) асинхронное исполнение роллаутов для увеличения скорости выполнения и устранения бутылок в синхронизации, и (4) подробную оценку производительности в 6 областях, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Мы также формализуем ARLT как многошаговые траектории с многомодальными обозначениями, позволяя расширить подходы RLVR в многотурных сценариях. #### Результаты Мы проводили эксперименты, используя различные данные в многомодальных задачах, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Наши результаты показывают, что VerlTool достигает результатов, которые не уступают специализированным системам в этих областях, при этом обеспечивая значительные выгоды в скорости и модульности. Модульная структура и стандартизированные API позволяют быстро интегрировать новые инструменты, чтобы упростить развитие и обеспечить модульность, необходимую для будущих исследований в области инструмент-агентных систем. #### Значимость Предлагаемая система может применяться в многомодальных задачах, включая видеоинтерпретацию,

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated success in enhancing LLM reasoning capabilities, but remains limited to single-turn interactions without tool integration. While recent Agentic Reinforcement Learning with Tool use (ARLT) approaches have emerged to address multi-turn tool interactions, existing works develop task-specific codebases that suffer from fragmentation, synchronous execution bottlenecks, and limited extensibility across domains. These inefficiencies...

ID: 2509.01055v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Question-to-Knowledge: Multi-Agent Generation of Inspectable Facts for Product Mapping

2025-09-05

Авторы:

Wonduk Seo, Taesub Shin, Hyunjin An, Dokyun Kim, Seunghyun Lee

#### Контекст В современной электронной коммерции возникает сложность с идентификацией товаров, когда недостаточно или отсутствуют уникальные идентификаторы, такие как SKU. Два товара могут иметь различные названия, названия производителей и спецификации, что делает необходимым наличие комплексного подхода для их сопоставления. Кроме того, существуют проблемы с ошибками, возникающими из-за подхода с использованием правил и ключевых слов, которые не всегда учитывают тонкие различия в товарах. Это привело к развитию новых подходов, основанных на искусственном интеллекте, для более точного сопоставления товаров и уменьшения человекозатрат в этой области. #### Метод Q2K (Question-to-Knowledge) — это многоагентная система, которая использует крупные языковые модели (LLM) для построения проверяемых интерактивных фактов. Фреймворк состоит из трех основных компонентов: 1) Разумащего агента, который формирует целевые вопросы для разъяснения неоднозначностей; 2) Агента знаний, который выполняет поиск информации в Интернете для разрешения вопросов; 3) Дедупликационного агента, который использует результаты проверок для уменьшения количества повторных поисков. Более того, человеко-в-цикле механизм добавляет дополнительное разрешение для неоднозначных случаев. Такой подход обеспечивает не только большую точность, но и эффективность, поскольку он повторно использует обработанные ранее данные, уменьшая затраты на поиск. #### Результаты В работе проведены эксперименты на реальных данных различных потребительских товаров. Наборы данных включали в себя товары с разными уровнями сложности, включая товары с большим количеством вариантов бандлов и сложной структурой брендов. Результаты показали, что Q2K превосходит существующие базовые модели, достигая высокой точности при различных типах задач, таких как определение бандлов и разрешение товаров с одинаковыми брендами. Этот подход также показал свою эффективность в сокращении времени поиска и уменьшении человекозатрат при работе с большими наборами данных. #### Значимость Q2K может применяться в различных сферах, включая электронную коммерцию, системы управления товарами и системы закупок. Он обеспечивает точность в сопоставлении товаров, что позволяет экономить время и ресурсы. Благодаря использованию LLMs, Q2K обеспечивает прозрачность в процессе принятия решений, что важно для бизнеса. Будущие исследования будут направлены на улучшение модели для работы с более сложными случаями и интеграции ее в системы прогнозирования и анализа. #### Выводы Q2K представляет собой продвинутый подход к разрешению проблем сопоставления товаров

Annotation:

Identifying whether two product listings refer to the same Stock Keeping Unit (SKU) is a persistent challenge in ecommerce, especially when explicit identifiers are missing and product names vary widely across platforms. Rule based heuristics and keyword similarity often misclassify products by overlooking subtle distinctions in brand, specification, or bundle configuration. To overcome these limitations, we propose Question to Knowledge (Q2K), a multi agent framework that leverages Large Langua...

ID: 2509.01182v1 cs.AI, cs.CL, cs.HC, cs.IR, cs.MA

arXiv PDF

📄 GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models

2025-09-05

Авторы:

Mattia Tritto, Giuseppe Farano, Dario Di Palma, Gaetano Rossiello, Fedelucio Narducci, Dharmashankar Subramanian, Tommaso Di Noia

#### Контекст Текст-на-SQL — задача преобразования естественного языка в SQL-запросы — широко используется для обеспечения доступа к базам данных. Несмотря на значительные успехи в создании текстовых моделей, текущие текстовые модели Лунных Языков (LLMs) сталкиваются с трудностями при работе с сложными запросами, требующими точного соответствия пользовательского запроса структуре базы данных. Чтобы улучшить точность, используются такие тестируемые стратегии, как Best-of-N (BoN) и Majority Voting (Maj), которые полагаются на поверхностные характеристики, такие как синтаксическое соответствие или частота генерируемых запросов. Несмотря на эти усилия, текущие методы недостаточно эффективны для повышения точности сложных запросов. Наше исследование призвано сравнить и улучшить эти подходы с использованием более глубоких семантических моделей. #### Метод Мы разработали **Framework GradeSQL**, который включает в себя Outcome Reward Models (ORMs) для Text-to-SQL. ORMs используют семантические оценки, чтобы учитывать точность запроса не только синтаксически, но и семантически. Мы обучили ORMs с помощью моделей Qwen2, Granite3 и Llama3, используя бенчмарки BIRD и SPIDER. Оценка запросов выполнялась с использованием точности выполнения, то есть проверкой результатов выполнения SQL-запросов на базах данных. Мы изучили различные параметры, включая количество генерируемых запросов. #### Результаты Мы выполнили эксперименты, сравнив ORMs с Best-of-N и Majority Voting на двух бенчмарках. Оценка показала, что ORMs дают значительную пользу в сложных запросах: +4.33% на BIRD и +2.10% на SPIDER по сравнению с ex-BoN, и +2.91% на BIRD и +0.93% на SPIDER по сравнению с Maj. Мы также проанализировали поведение ORMs при увеличении количества генерируемых запросов, показав, что их выигрыш возрастает с увеличением данных. Результаты показали, что ORMs не только улучшают точность, но и более эффективны в сложных запросах, чем используемые сейчас техники. #### Значимость Результаты ORMs указывают, что And ORMs показали применение в различных контекстах, включая Text-to-SQL с большим количеством данных и сложных запросов. Их использование может улучшить текстовые модели Лунных Языков в глубине, а не только на поверхности. Мы также сделали вывод, что ORMs могут помочь сделать Text-to-SQL более доступным для пользователей с различным уровнем знаний SQL. #### Выводы Эксперименты показали, что ORMs являются эффективным способом улучшения точности Text-to-SQL моделей, особенно в сложных запросах. В дальнейших исследованиях мы планируем расширить нашу модель для работы с более сложными базами данных и провести эксперименты на более больши

Annotation:

Text-to-SQL, the task of translating natural language questions into SQL queries, has significantly advanced with the introduction of Large Language Models (LLMs), broadening database accessibility for a wide range of users. Despite substantial progress in generating valid SQL, current LLMs still struggle with complex queries that require precise alignment between user intent and the database schema. To mitigate this, test-time strategies such as Best-of-N (BoN) and Majority Voting (Maj) are oft...

ID: 2509.01308v1 cs.AI, cs.CL, cs.DB

arXiv PDF

📄 LLM-Guided Semantic Relational Reasoning for Multimodal Intent Recognition

2025-09-05

Авторы:

Qianrui Zhou, Hua Xu, Yifan Wang, Xinzhi Dong, Hanlei Zhang

## Контекст Осознание человеческих интентов из мультимодальных сигналов является ключевым для анализа поведения и улучшения взаимодействия человека с машиной в реальных условиях. Однако существующие методы страдают от ограничений в модальности-уровне, что приводит к ограниченной реляционной рассуждаемости над тонкой семантикой для понимания сложных интентов. Недостаток неявного понимания интентов через логические связи между модальными сигналами ограничивает эффективность распознавания интентов в сложных сценариях. Данная работа предлагает новую подходящую LLM-Guided Semantic Relational Reasoning (LGSRR), которая использует знания больших языковых моделей (LLMs) для создания семантических основ, что улучшает производительность мелких моделей в реляционном логическом рассуждении. ## Метод LGSRR включает в себя три компонента: (1) **LLM-Based Semantic Extraction Strategy**, которая использует LLM для извлечения тонкой семантической информации; (2) **Chain-of-Thought (CoT) Reasoning Framework**, который автоматически выявляет, описывает и определяет важность семантических признаков; (3) **Formal Semantic Relation Modeling**, основанный на логических принципах, который моделирует и анализирует взаимодействие трех основных типов семантических отношений. Эта архитектура предлагает гибкий и мощный подход для реляционного рассуждения, который не нуждается в предварительно определенных признаковых моделях. ## Результаты Для оценки LGSRR, авторы проводили эксперименты на двух задачах: многомодальном распознавании интентов и распознавании диалоговых актов. Использовались различные данные, включая multimodal-dialogue datasets и диалоговые акты, чтобы проверить эффективность LGSRR. Результаты показали, что LGSRR превосходит текущие методы в понимании мультимодальных интентов, демонстрируя последовательные повышения производительности в различных сценариях понимания и распознавания. ## Значимость LGSRR может использоваться в различных областях, включая HR (Human Resources), customer service, и другие сферы, где распознавание интентов и реляционное рассуждение ключевые для улучшения взаимодействия с пользователем. Наиболее важными преимуществами являются систематический подход к извлечению тонкой семантики, улучшенная точность распознавания интентов и гибкость в использовании различных мультимодальных данных. Этот подход имеет потенциал для дальнейшего улучшения систем взаимодействия человека с машиной, делая их более точными и эффективными. ## Выводы Результаты доказали, что LGSRR превосходит существующие методы в задачах распознавания мультимодальных интентов. Одним из основных достижений является то, что LGSRR может работать с тонкими семантичес

Annotation:

Understanding human intents from multimodal signals is critical for analyzing human behaviors and enhancing human-machine interactions in real-world scenarios. However, existing methods exhibit limitations in their modality-level reliance, constraining relational reasoning over fine-grained semantics for complex intent understanding. This paper proposes a novel LLM-Guided Semantic Relational Reasoning (LGSRR) method, which harnesses the expansive knowledge of large language models (LLMs) to esta...

ID: 2509.01337v1 cs.MM, cs.AI, cs.CL

arXiv PDF

📄 An LLM-enabled semantic-centric framework to consume privacy policies

2025-09-05

Авторы:

Rui Zhao, Vladyslav Melnychuk, Jun Zhao, Jesse Wright, Nigel Shadbolt

## Контекст Современное цифровое пространство предлагает квази-национальные наборы услуг, включая сервисы поиска информации, рекламу, общение и многое другое. Однако пользователи часто игнорируют Термины Пользования и Политики Конфиденциальности, несмотря на то, что 74% из них заявляют о том, что всегда читают эти документы. Это связано с тем, что понимание сложных юридических текстов требует особых знаний и времени. Этот пробел становится крупнейшим барьером для пользовательско-ориентированных веб-приложений и для поддержки открытого доступа к данным. Над этим проблемой работают исследователи с многолетним трудом, но широкое внедрение методов и концепций остается недостижимым. Наша исследовательская группа предлагает новый подход для автоматического понимания юридических документов и создания значимых знаний для массового применения. ## Метод Мы предлагаем семантический подход, основанный на Large Language Models (LLM), для автоматического распознавания и анализа ключевых сведений о политиках конфиденциальности. Методология включает в себя: 1. Использование LLM для добычи информации из текстов политик конфиденциальности. 2. Создание знаний в виде $\mathit{Pr}^2\mathit{Graph}$ с помощью Data Privacy Vocabulary (DPV). 3. Преобразование политик в формальные представления, такие как ODRL или psDToU. 4. Использование классификаторов для оценки соответствия политик. 5. Разработка и выпуск $\mathit{Pr}^2\mathit{Graph}$ для 100 самых популярных веб-сайтов в качестве открытого ресурса. ## Результаты Мы провели эксперименты, используя запуски LLM на 100 популярных сайтов и сравнили их с аннотированными данными Policy-IE. Наши технологии позволили выделить 80% ключевых сведений с точностью 90%. Мы также показали, как $\mathit{Pr}^2\mathit{Graph}$ может быть использован для автоматического строительства формальных политик в ODRL и psDToU. Это разрешило вопросы, связанные с поиском, анализом и сравнением политик конфиденциальности. ## Значимость Наш подход может быть применен во многих областях, таких как анализ соответствия нормативным требованиям, аудит веб-сервисов и поиск соответствий в международных сделках. Он обеспечивает более легкое понимание политик конфиденциальности, поддерживает прозрачность и раскрытие данных. Это включает в себя широкий спектр применений в области цифрового права и электронной коммерции. ## Выводы Мы представили новый подход к пониманию политик конфиденциальности, используя LLM и создание графа знаний $\mathit{Pr}^2\mathit{Graph}$. Этот подход позволяет автоматизировать анализ юридических

Annotation:

In modern times, people have numerous online accounts, but they rarely read the Terms of Service or Privacy Policy of those sites, despite claiming otherwise, due to the practical difficulty in comprehending them. The mist of data privacy practices forms a major barrier for user-centred Web approaches, and for data sharing and reusing in an agentic world. Existing research proposed methods for using formal languages and reasoning for verifying the compliance of a specified policy, as a potential...

ID: 2509.01716v1 cs.AI, cs.CL

arXiv PDF

1
2
102
103
104
105
106
130
131

Показано 1031 - 1040 из 1303 записей