📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Question-to-Knowledge: Multi-Agent Generation of Inspectable Facts for Product Mapping

2025-09-05

Авторы:

Wonduk Seo, Taesub Shin, Hyunjin An, Dokyun Kim, Seunghyun Lee

#### Контекст В современной электронной коммерции возникает сложность с идентификацией товаров, когда недостаточно или отсутствуют уникальные идентификаторы, такие как SKU. Два товара могут иметь различные названия, названия производителей и спецификации, что делает необходимым наличие комплексного подхода для их сопоставления. Кроме того, существуют проблемы с ошибками, возникающими из-за подхода с использованием правил и ключевых слов, которые не всегда учитывают тонкие различия в товарах. Это привело к развитию новых подходов, основанных на искусственном интеллекте, для более точного сопоставления товаров и уменьшения человекозатрат в этой области. #### Метод Q2K (Question-to-Knowledge) — это многоагентная система, которая использует крупные языковые модели (LLM) для построения проверяемых интерактивных фактов. Фреймворк состоит из трех основных компонентов: 1) Разумащего агента, который формирует целевые вопросы для разъяснения неоднозначностей; 2) Агента знаний, который выполняет поиск информации в Интернете для разрешения вопросов; 3) Дедупликационного агента, который использует результаты проверок для уменьшения количества повторных поисков. Более того, человеко-в-цикле механизм добавляет дополнительное разрешение для неоднозначных случаев. Такой подход обеспечивает не только большую точность, но и эффективность, поскольку он повторно использует обработанные ранее данные, уменьшая затраты на поиск. #### Результаты В работе проведены эксперименты на реальных данных различных потребительских товаров. Наборы данных включали в себя товары с разными уровнями сложности, включая товары с большим количеством вариантов бандлов и сложной структурой брендов. Результаты показали, что Q2K превосходит существующие базовые модели, достигая высокой точности при различных типах задач, таких как определение бандлов и разрешение товаров с одинаковыми брендами. Этот подход также показал свою эффективность в сокращении времени поиска и уменьшении человекозатрат при работе с большими наборами данных. #### Значимость Q2K может применяться в различных сферах, включая электронную коммерцию, системы управления товарами и системы закупок. Он обеспечивает точность в сопоставлении товаров, что позволяет экономить время и ресурсы. Благодаря использованию LLMs, Q2K обеспечивает прозрачность в процессе принятия решений, что важно для бизнеса. Будущие исследования будут направлены на улучшение модели для работы с более сложными случаями и интеграции ее в системы прогнозирования и анализа. #### Выводы Q2K представляет собой продвинутый подход к разрешению проблем сопоставления товаров

Annotation:

Identifying whether two product listings refer to the same Stock Keeping Unit (SKU) is a persistent challenge in ecommerce, especially when explicit identifiers are missing and product names vary widely across platforms. Rule based heuristics and keyword similarity often misclassify products by overlooking subtle distinctions in brand, specification, or bundle configuration. To overcome these limitations, we propose Question to Knowledge (Q2K), a multi agent framework that leverages Large Langua...

ID: 2509.01182v1 cs.AI, cs.CL, cs.HC, cs.IR, cs.MA

arXiv PDF

📄 ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering

2025-08-29

Авторы:

Paritosh Parmar, Eric Peh, Basura Fernando

#### Контекст Видео-вопросание (VideoQA) является ключевым заданием в области обработки видео, которое призвано извлечь обоснованные ответы на вопросы, основанные на видеоконтенте. Несмотря на существующие модели, они часто сталкиваются с проблемами в высоком рассуждении и логическом обосновании ответов. Это возникает из-за скрытого характера моделей, которые используют опасные, монолитные трубы, соединяющие интерпретацию видео, казуальное выводение и генерацию ответов. Такие подходы отличаются неэффективностью и непрозрачностью, что вносит существенные ограничения на интерпретируемость и надежность моделей. Мы предлагаем новый модульный подход, который разделяет работу на казуальные цепочки в качестве интерпретируемых посредников. Этот подход вдохновлен моделями человеческого рассудка и позволяет создавать логически корректные и понятные ответы. #### Метод Предлагаемая модель, ChainReaction!, состоит из двух стадий: **Causal Chain Extractor (CCE)** и **Causal Chain-Driven Answerer (CCDA)**. CCE является модулем, который извлекает упрощенные и логически точные цепочки причин-следствий из пар видео и вопроса. Эти цепочки используются в качестве посредников для обоснованного вывода. CCDA, в свою очередь, генерирует ответы, ориентируясь на цепочки. Мы также предлагаем новую методику генерации качественных причинно-следственных цепочек с использованием бо LLM. Это позволяет улучшить качество данных для обучения моделей, которым недостаточно естественно-языковых причинных цепочек в существующих коллекциях. Мы также предлагаем новый показатель CauCo для оценки качества ответов на видеозадачу в свете причинных отношений. #### Результаты Мы провели эксперименты на трех крупных бенчмарках в области VideoQA, включая ShARC, SocialVideoQA и VQA-HIC. Наш подход показал значительные улучшения по сравнению с состоянием искусства в трех областях: точность ответов, вывод и интерпретируемость. Модель ChainReaction! обеспечила дополнительные выигрыши в понимании и логическом обосновании ответов. Также, модель демонстрирует повышенный уровень повторного использования в разных сценариях, таких как урокные видео, социальные ролики и трансляции спортивных событий. Эта гибкость указывает на перспективу CCE в качестве модуля для причинного вывода в разных областях. #### Значимость Наш подход имеет относительную значимость в нескольких областях. Во-первых, он предлагает передовые результаты в VideoQA, особенно в задачах, требующих высокого уровня анализа и обоснования. Во-вторых, он позволяет создавать ответы, имеющие теоретический языковой формат, что увеличивает надежность и

Annotation:

Existing Causal-Why Video Question Answering (VideoQA) models often struggle with higher-order reasoning, relying on opaque, monolithic pipelines that entangle video understanding, causal inference, and answer generation. These black-box approaches offer limited interpretability and tend to depend on shallow heuristics. We propose a novel, modular framework that explicitly decouples causal reasoning from answer generation, introducing natural language causal chains as interpretable intermediate ...

ID: 2508.21010v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications

2025-08-27

Авторы:

Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter

## Контекст В статье рассматриваются вопросы использования систем автоматического распознавания речи (ASR) в контексте взаимодействия человека с роботом (HRI). Авторы подчеркивают, что в реальных условиях работы ASR сталкиваются с недостатками качества аудиопотока, влиянием экологических факторов, разнообразием пользователей и требованиями к реакции на сложные типы речи. Эти аспекты создают специфические вызовы для HRI, где ошибки распознавания могут привести к проблемам в выполнении задач, понижению доверия пользователей и угрозам безопасности. Цель работы — оценить потенциал современных ASR-систем в HRI, а также выявить их ограничения и биазы. ## Метод Исследование основывается на экспериментальном подходе, включающем оценку четырех современных ASR-систем на основе данных из восьми публичных баз данных, представляющих шесть типов сложности: доменно-специфическая, с акцентом, шумная, возрастно-варьирующаяся, имеющая империя, и спонтанная речь. Модели распознавания выслушивались на примере различных типов речи, окружающих технологии в HRI, что позволило выявить различия в их поведении в разных условиях. Техническая архитектура ASR-систем и методы их оценки были выбраны с учетом требований к точности и устойчивости в HRI. ## Результаты Результаты вы most significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety. ## Значимость Полученные результаты имеют значительные потенциальные применения в разработке более надежных и универсальных систем взаимодействия человек-робот. ASR-системы, эффективно работающие в различных условиях, могут существенно улучшить удобство и безопасность HRI. Данные работы могут повлиять на оптимизацию моделей распознавания и их применение в реальных сценариях, включая роботизированные дома, промышленность и здравоохранение. ## Выводы Авторы выводят, что несмотря на прогресс в развитии ASR, существуют серьезные ограничения, которые необходимо устранить для эффективного применения в HRI. Будущие исследования будут сосредотачиваться на улучшении устойчивости моделей к шуму, разнообразию речи и ситуационным сложностям. Также планируется расширение использования наборов данных для более широкой оценки и улучшения ASR-систем. Эти улучшения имеют важное значение для развития надежных и безопасных систем HRI.

Annotation:

Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impair...

ID: 2508.17753v1 cs.RO, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs

2025-08-22

Авторы:

Luca Annese, Sabrina Patania, Silvia Serino, Tom Foulsham, Silvia Rossi, Azzurra Ruggeri, Dimitri Ognibene

## Контекст Последние достижения в области бо LARGE LANGUAGE MODELS (LLMs) и развития фреймворков для реализации рационального мышления дали существенный потенциал для улучшения моделей, которые могут выступать в роли компаньонов и специалистов в коллективных задачах. Однако, среди них возникают серьезные ограждения в понимании того, что другой агент может увидеть или знать. Такие проблемы возникают в связи с недостаточным раскрытием моделей для активного восприятия, участия в коллективной работе и понимания того, что другие знают (епистемический рассуждения). Наша исследовательская проблема заключается в исследовании, насколько удается улучшить эти способности с помощью структурированных примеров, полученных из графов решений, порождаемых планировщиком Fast Downward. Мы хотим протестировать, могут ли эти примеры улучшить точность и эффективность в решении задач, требующих активного восприятия и эпистемической работы в целом. ## Метод Мы разработали специальный подход, который использует графы решений, порождаемые планировщиком Fast Downward, для создания множества структурированных примеров. Эти примеры разделяются на три категории: 1) Оптимальные пути для достижения целей (G-type); 2) Информативные пути, содержащие решения в задачах (E-type); 3) Детальные пошаговые сравнения действий и их альтернатив (L-type). Затем, на основе этих примеров, мы создаем "мысленно-действительные" примеры, где требуется изложение логики каждого решения. Эти примеры используются для обучения агентов, работающих в рамках ReAct-фреймворка. Мы проверяем, насколько эффективны эти примеры в улучшении возможностей агентов по разделению внимания и пониманию того, что другой агент может видеть и узнать. ## Результаты Мы провели эксперименты, в которых LLMs-агенты проходили задачи, требующие активного восприятия и эпистемических рассуждений. Мы сравнивали результаты, полученные с использованием разных видов структурированных примеров. Оказалось, что на задачи, требующие базового фильтра внимания, агенты проявили достаточную эффективность. Однако, когда задачи требуют рассуждений о видимости, скрытых пространствах и стоимости эпистемических действий, агенты начали проявлять существенные недостатки. Например, они не всегда могут справиться с конкретным восприятием пространства и подбирать наиболее эффективные альтернативы действий. ## Значимость Наши результаты показывают, что, несмотря на улучшения в некоторых аспектах, структурированные примеры оказываются недостаточными для достижения значительных улучшений в эпистемических моделях. Например

Annotation:

Recent advances in large language models (LLMs) and reasoning frameworks have opened new possibilities for improving the perspective -taking capabilities of autonomous agents. However, tasks that involve active perception, collaborative reasoning, and perspective taking (understanding what another agent can see or knows) pose persistent challenges for current LLM-based systems. This study investigates the potential of structured examples derived from transformed solution graphs generated by the ...

ID: 2508.14564v1 cs.AI, cs.CL, cs.HC, I.2.9; I.2.10; I.2.7; J.4

arXiv PDF

📄 CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs

2025-08-19

Авторы:

Hongtao Liu, Zhicheng Du, Zihe Wang, Weiran Shen

## Контекст Стратегическое разумение является ключевым аспектом искусственного разума, определяющим успешность взаимодействия роботов с окружающим миром. Оценивать этот аспект чрезвычайно сложно, так как существующие методы часто основываются на метриках эффективности, которые оказываются недостаточно надежными из-за разнообразия поведенческих моделей противников и структур игр. Недостаток универсальных методов по evaluation стратегического разума значительно ограничивает возможности интеллектуальных систем внедряться в реальные приложения. Для решения этой проблемы, мы предлагаем **CHBench** — новый фреймворк для оценки стратегического разума, основанный на моделях когнитивного хиерархии, известных из экономической теории. Наша гипотеза заключается в том, что агенты имеют ограниченное разумение, то есть различные агенты применяют разные уровни рациональности в своих решениях. ## Метод CHBench представляет собой трехфазную систематическую модель для оценки стратегического разума. В первой фазе мы выбираем 15 нормальных игр, структура которых позволяет выявить различные уровни стратегического разума. Во второй фазе, мы используем данные из шести современных глубоких нейронных сетей (LLMs), обученных различным типам задач, чтобы получить многообразие стратегических моделей. Затем, в третьей фазе, мы применяем эти модели для систематического тестирования поведения LLMs в разных ситуациях. Использование этой модели позволяет установить не только качество поведения LLMs, но и выявить влияние различных механизмов (например, чат-функции и памяти) на их стратегическое решающие способности. ## Результаты Мы провели эксперименты, используя CHBench для оценки шести современных LLMs в 15 играх. Результаты показали, что LLMs показывают схожую стратегическую работу в разных ситуациях, что confirmeaza логику фреймворка. Мы также провели эксперименты, которые показали, что Chat Mechanism сильно затрудняет стратегическое разумение, но Memory Mechanism улучшает его. Эти результаты подтверждают, что CHBench представляет собой надежный инструмент для оценки стратегического разума LLMs, с возможностью применения в различных прикладных задачах. ## Значимость CHBench может быть применен в различных прикладных областях, включая разработку и оценку стратегических алгоритмов, ботов для игр, систем управления и даже в сфере роботов-консультантов. Он предлагает новый подход к оценке стратегии, который не зависит от конкретных метрик эффективности. Это позволяет оценивать стратегическое разумение llms с более широким перспективным взглядом, с учетом разных моделей рациональности. Мы так

Annotation:

Game-playing ability serves as an indicator for evaluating the strategic reasoning capability of large language models (LLMs). While most existing studies rely on utility performance metrics, which are not robust enough due to variations in opponent behavior and game structure. To address this limitation, we propose \textbf{Cognitive Hierarchy Benchmark (CHBench)}, a novel evaluation framework inspired by the cognitive hierarchy models from behavioral economics. We hypothesize that agents have b...

ID: 2508.11944v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps

2025-08-19

Авторы:

Kangyu Wang, Hongliang He, Lin Liu, Ruiqi Liang, Zhenzhong Lan, Jianguo Li

#### Контекст Large Language Models (LLMs) и Multimodal Large Language Models (MLLMs) обеспечили всплеск развития искусственного интеллекта, достигая близкого к человеческому уровня эффективности в различных задачах. Несмотря на это, большинство существующих бенчмарков и рейтинговых платформ (например, MMLU и Chatbot Arena) опираются на статические данные или подборку общедоступных задач, не отражающих настоящие сценарии применения в реальной жизни. Это существенно ограничивает возможность оценить реальное качество и применимость моделей. Инновационная платформа Inclusion Arena призвана устранить этот фактор, предлагая новый подход к оценке моделей на основе реальных пользовательских интеракций. #### Метод Inclusion Arena представляет собой платформу для live leaderboard, где модели оцениваются на основе парного сравнения, внедренного непосредственно в приложения, использующие AI. Методология основывается на двух ключевых инновациях: (1) **Placement Matches**, механизм, позволяющий быстро оценить новые модели при их внедрении в платформу; и (2) **Proximity Sampling**, стратегия сравнения моделей, выделяющая модели с близким уровнем качества, чтобы увеличить точность и стабильность рейтингов. Архитектура платформы интегрирует эти методы в натуральные пользовательские интеракции, обеспечивая действительно практические оценки моделей. #### Результаты Платформа провела широкие эмпирические эксперименты, используя стандартные и пользовательские данные в различных сценариях. Результаты показали, что Inclusion Arena достигает более высокой детерминированности рейтингов по сравнению с традиционными подходами. Метод Placement Matches позволяет быстро создавать надежные оценки для новых моделей, а Proximity Sampling увеличивает уровень информативности сравнения, уменьшая риск неточности рейтинга. Также тесты показали, что Inclusion Arena значительно снижает риск внешних вмешательств или манипуляций. #### Значимость Inclusion Arena может использоваться в различных областях, где требуется оценка моделей для реальных приложений, таких как NLP, обработка мультимодальных данных, интеллектуальные системы рекомендаций или системы взаимодействия с пользователем. Основные преимущества заключаются в том, что платформа использует реальные данные интеракций, обеспечивает более точные рейтинги, и снижает риск выполнять нечестные или неэффективные модели. Потенциальное влияние заключается в улучшении качества моделей AI, их применимости и стабильности в реальных сценариях. #### Выводы Inclusion Arena успешно ставит под угрозу традиционные подходы к оценке моделей, предлагая новый, более функциональный метод, основанный на реальных пользовательских данных. На данном этапе, плат

Annotation:

Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have ushered in a new era of AI capabilities, demonstrating near-human-level performance across diverse scenarios. While numerous benchmarks (e.g., MMLU) and leaderboards (e.g., Chatbot Arena) have been proposed to help evolve the development of LLMs and MLLMs, most rely on static datasets or crowdsourced general-domain prompts, often falling short of reflecting performance in real-world applications. To bridge this critic...

ID: 2508.11452v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Beyond Pixels: Exploring DOM Downsampling for LLM-Based Web Agents

2025-08-09

Авторы:

Thassilo M. Schiepanski, Nicholas Piël

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время продвинутые языковые модели (LLMs) позволили создать автономных веб-агентов, которые могут выполнять задачи в веб-приложениях. Такие модели действуют как моментальные бэкенды доменной модели, консультируясь с веб-задачами и соответствующим состоянием приложения. Однако ключевой проблемой является сериализация состояния приложения, так называемый "снапшот". Существующие веб-агенты опираются на "уземлённые" GUI-снапшоты, то есть скриншоты с визуальными подсказками, чтобы представлять состояние пользовательского интерфейса (UI). Этот подход приближает процесс к человеческому восприятию, и изображения представляют собой относительно дешевый формат ввода для моделей. Однако, визуальное восприятие LLMs ещё недостаточно развито в сравнении с их способностью интерпретировать код. Другой подход заключается в использовании DOM-снапшотов, которые структурно похожи на HTML и могут быть более эффективными. Тем не менее, большой размер входных токенов в DOM-снапшотах препятствует их эффективному использованию в веб-агентах. Эта проблема становится особенно актуальной, учитывая, что LLMs должны обрабатывать большие объёмы данных в рамках своего контекстного окна. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый алгоритм под названием D2Snap – первый в своем роде алгоритм для сжатия DOM-снапшотов. D2Snap основан на бэкенде GPT-4o и разработан для сокращения размера входных данных, сохраняя при этом ключевую информацию о пользовательском интерфейсе. Алгоритм спроектирован таким образом, чтобы сократить количество токенов, необходимых для представления DOM-снапшота, при этом сохраняя его структурные особенности. D2Snap выполняет "доуменьшение" DOM-снапшотов, сохраняя их иерархическую структуру, которая является важной особенностью для LLMs. Это позволяет модели эффективнее обрабатывать входные данные, не превышая пределы контекстного окна модели. Благодаря этому, D2Snap может быть интегрирован в веб-агентов для выполнения задач, связанных с веб-приложениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности D2Snap авторы провели серию экспериментов на основе датасета Online-Mind2Web. В этих экспериментах были использованы задачи, где LLMs должны были выполнять различные действия на основе веб-интерфейса. Результаты показали, что D2Snap-сжатые DOM-снапшоты достигают успешности в 67% случаев, что соответствует базовому уровню успешности GUI-снапшотов (65%), но с меньшим количеством токенов входных данных (порядок величины 1e3). Кроме того, были исследованы различные конфигурации D2Snap, и один из них, который использовал немного больше токенов, но все еще помещался в контекстном окне модели, показал лучшие результаты, превосходя базовый GUI-снапшот на 8%. Это подтверждает, что иерархическая структура DOM является важной особенностью для LLMs и может быть эффективно использована для повышения точности выполнения задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод D2Snap имеет значительный потенциал для практического применения в области веб-агентов. Благодаря своей способности сокращать размер DOM-снапшотов, D2Snap позволяет LLMs более эффективно обрабатывать данные веб-интерфейсов, не превышая ограничений контекстного окна модели. Это может быть особенно полезно в ситуациях, когда необходимо выполнять сложные задачи, требующие обработки больших объёмов данных. Кроме того, D2Snap может быть использован в различных приложениях, где необходимо автоматизировать взаимодействие с веб-приложениями, таких как автоматизация тестирования, мониторинга и анализа веб-страниц. Его эффективность в уменьшении размера входных данных также может быть полезна в ситуациях, где требуется быстрое и эффективное взаимодействие с веб-приложениями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования было показано, что D2Snap является эффективным алгоритмом для сжатия DOM-снапшотов, позволяющим LLMs обрабатывать веб-задачи с высокой точностью. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в частности, на оптимизации его производительности и расширении его применимости к более широкому кругу задач. Также, исследование может быть расширено для включения более сложных веб-интерфейсов и более разнообразных задач, чтобы проверить широкую применимость D2Snap в реальных условиях.

Annotation:

Frontier LLMs only recently enabled serviceable, autonomous web agents. At that, a model poses as an instantaneous domain model backend. Ought to suggest interaction, it is consulted with a web-based task and respective application state. The key problem lies in application state serialisation $\unicode{x2013}$ referred to as snapshot. State-of-the-art web agents are premised on grounded GUI snapshots, i.e., screenshots enhanced with visual cues. Not least to resemble human perception, but for i...

ID: 2508.04412v1 cs.AI, cs.CL, cs.HC

arXiv PDF

Показано 31 - 37 из 37 записей