📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Comparative Study of Neurosymbolic AI Approaches to Interpretable Logical Reasoning

2025-08-06

Авторы:

Michael K. Chen

Данная статья рассматривает проблему ограниченности текущих моделей глубокого обучения (LLMs) в области логического резонанса, особенно в контексте домен-агностических задач. Несмотря на недавний интерес к неуросимволическому AI, который интегрирует логические структуры в нейронные сети, многие модели не обладают достаточной интерпретируемостью и детерминированностью при решении задач логического вывода. Авторы определяют два основных подхода к этой проблеме: интегративный, где символический вывод встроен в нейронные сети, и гибридный, где символический вывод выполняется отдельным символическим решателем. Для сравнения этих подходов, авторы представляют две модели: Logic Neural Network (LNN) для интегративного подхода и LLM-Symbolic Solver (LLM-SS) для гибридного подхода. Исследование показывает, что гибридный подход является более перспективным для развития общего логического резонанса, благодаря более интерпретируемым логическим цепочкам и сохранению преимуществ существующих LLMs. Наконец, авторы предлагают общее, модульное и домен-агностическое фреймворк, основанное на LLM-SS, которое может быть использовано в будущих исследованиях.

Annotation:

General logical reasoning, defined as the ability to reason deductively on domain-agnostic tasks, continues to be a challenge for large language models (LLMs). Current LLMs fail to reason deterministically and are not interpretable. As such, there has been a recent surge in interest in neurosymbolic AI, which attempts to incorporate logic into neural networks. We first identify two main neurosymbolic approaches to improving logical reasoning: (i) the integrative approach comprising models where ...

ID: 2508.03366v1 cs.AI, cs.CL, cs.LG, cs.SC

arXiv PDF

📄 Board Game Arena: A Framework and Benchmark for Assessing Large Language Models via Strategic Play

2025-08-06

Авторы:

Lucia Cipolina-Kun, Marianna Nezhurina, Jenia Jitsev

**Резюме:** В статье представлен фреймворк Board Game Arena, предназначенный для оценки способностей крупных языковых моделей (LLM) к стратегическому принятию решений через игры. Используя библиотеку Google OpenSpiel, фреймворк обеспечивает систематическое сравнение LLM-агентов с другими типами агентов (случайными, человеческими, обученными усилением) в различных типах игр. Он поддерживает интеграцию с API моделей через LiteLLM, локальную развёртку моделей с vLLM и распределённое выполнение задач через Ray. Также предлагаются инструменты для детального анализа процессов резонирования LLM. Результаты показывают, что фреймворк эффективен для эмпирической оценки способностей LLMs к логическому мышлению и игротеоретическому поведению, предоставляя солидную базу для дальнейшего исследования в этой области.

Annotation:

The Board Game Arena library provides a framework for evaluating the decision making abilities of large language models (LLMs) through strategic board games implemented in Google OpenSpiel library. The framework enables systematic comparisons between LLM based agents and other agents (random, human, reinforcement learning agents, etc.) in various game scenarios by wrapping multiple board and matrix games and supporting different agent types. It integrates API access to models via LiteLLM, local ...

ID: 2508.03368v1 cs.AI, cs.GT

arXiv PDF

📄 Data Dependency Inference for Industrial Code Generation Based on UML Sequence Diagrams

2025-08-06

Авторы:

Wenxin Mao, Zhitao Wang Long Wang, Sirong Chen, Cuiyun Gao, Luyang Cao, Ziming Liu, Qiming Zhang, Jun Zhou, Zhi Jin

**Резюме:** Люки языковых моделей (LLM) демонстрируют высокую эффективность в генерации кода из натуральных текстов. Однако текстовые описания часто недостаточно точны для представления сложных требований, таких как сложные поведения системы, условные логики и архитектурные ограничения. Особенно трудно обработать неявные зависимости данных в сервис-ориентированных архитектурах. Для решения этой проблемы, авторы предлагают новый фреймворк UML2Dep, основанный на формальных спецификациях. Они расширяют UML-диаграммы последовательностей, включая в них диаграммы решений и API-спецификации, что позволяет формализовать структурные отношения и бизнес-логику в сервисных взаимодействиях. Далее, они вводят задачу вывода зависимостей данных (DDI), которая строит явную графическую модель зависимостей перед генерацией кода. Задача DDI формализуется как задача решения математических ограничений, используя стратегии промптинга, что позволяет выявить зависимости данных более точно и эффективно. Дополнительная статическая обработка и очистка графа зависимостей снижает контекстную сложность и повышает точность вывода. Ключевым результатом работы является разработка метода, который позволяет генерировать код на основе более точных и формальных спецификаций, снимая неопределённость и повышая точность генерации кода.

Annotation:

Large language models (LLMs) excel at generating code from natural language (NL) descriptions. However, the plain textual descriptions are inherently ambiguous and often fail to capture complex requirements like intricate system behaviors, conditional logic, and architectural constraints; implicit data dependencies in service-oriented architectures are difficult to infer and handle correctly. To bridge this gap, we propose a novel step-by-step code generation framework named UML2Dep by leveragin...

ID: 2508.03379v1 cs.AI, cs.SE

arXiv PDF

📄 Agentic AI in 6G Software Businesses: A Layered Maturity Model

2025-08-06

Авторы:

Muhammad Zohaib, Muhammad Azeem Akbar, Sami Hyrynsalmi, Arif Ali Khan

**Резюме** Возникновение агентных систем ИИ в бизнесе программного обеспечения 6G открывает новые возможности для автономности, масштабируемости и интеллектуального принятия решений в распределенных средах. Однако их внедрение сталкивается с значительными вызовами, такими как техническая незрелость, сложность интеграции, готовность организаций и компромиссы между производительностью и затратами. В работе представлена предварительная тематическая картировка, основанная на многовольном обзоре литературы и целенаправленном исследовании. Идентифицированы 29 факторов, стимулирующих внедрение агентных систем, и 27 факторов, тормозящих его. Эти факторы сгруппированы в пять ключевых тем в каждой группе. Эта работа является начальным этапом более широкого исследования, направленного на разработку и валидацию сложной модели зрелости, основанной на модели CMMI и трех архитектурных измерениях: Данные, Бизнес-логика и Представление. Целью является создание практического фреймворка, помогающего организациям оценивать и развивать свои агентные возможности в соответствии с требованиями 6G.

Annotation:

The emergence of agentic AI systems in 6G software businesses presents both strategic opportunities and significant challenges. While such systems promise increased autonomy, scalability, and intelligent decision-making across distributed environments, their adoption raises concerns regarding technical immaturity, integration complexity, organizational readiness, and performance-cost trade-offs. In this study, we conducted a preliminary thematic mapping to identify factors influencing the adopti...

ID: 2508.03393v1 cs.SE, cs.AI

arXiv PDF

📄 Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis

2025-08-06

Авторы:

Rui Zou, Mengqi Wei, Yutao Zhu, Jirong Wen, Xin Zhao, Jing Chen

Несмотря на продвижение Large Language Models (LLMs) в области резонирования и генерации, они все еще сталкиваются с трудностями в выявлении и диагностике сложных ошибок. Это обусловлено тем, что обучающие задачи LLMs оптимизируются для получения верных ответов, тем самым ограничивая их возможности обучения на ошибках. До недавнего времени, исследования в этой области были ограничены использованием статичных, поверхностных ошибок, что не способствовало улучшению глубоких диагностических способностей. В данной работе предлагается Hide and Seek Game (HSG) — динамическая адверсарная рамака для генерации и диагностики ошибок, примененная к задачам математического резонирования. HSG включает два роли: Sneaky, который генерирует тонкие, обманчивые ошибки, и Diagnosis, который стремится их точно обнаружить. Через адверсарную ко-эволюцию, как степень скрытности ошибок, так и точность диагностики значительно улучшаются. Эксперименты показывают, что HSG улучшает точность диагностики на 16.8%–31.4% по сравнению с базовыми моделями, такими как GPT-4o. Авторы также предоставляют набор данных с обманчивыми ошибками и диагностическими аннотациями, который может служить основой для дальнейших исследований.

Annotation:

Large Language Models (LLMs) excel in reasoning and generation across domains, but still struggle with identifying and diagnosing complex errors. This stems mainly from training objectives that prioritize correct answers, limiting exposure to and learning from errors. While recent studies have begun to address this by introducing error signals, most rely on shallow, static errors, restricting improvement in deep diagnostic ability. To overcome this, we propose Hide and Seek Game (HSG), a dynamic...

ID: 2508.03396v1 cs.AI

arXiv PDF

📄 SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models

2025-08-06

Авторы:

Pingchuan Ma, Xiaopei Yang, Yusong Li, Ming Gui, Felix Krause, Johannes Schusterbauer, Björn Ommer

**Резюме:** SCFlow — это новое решение для неявного разделения стиля и содержания в визуальных моделях, которое избегает заморочки с явным разделением этих концептов. Обычно это сложно из-за их семантического перекрытия и субъективности человеческого восприятия. Существующие методы пытаются отделить стиль и содержание через генеративные или дискриминативные подходы, но сталкиваются с неоднозначностью этих задач. SCFlow использует подход flow-matching, чтобы обучить модель непосредственно слиянию стиля и содержания в обратимом процессе, позволяя разделение возникать естественным образом. Основные идеи заключаются в том, что: 1) обучение только на слияние этих концептов — это хорошо определенная задача; 2) flow-matching работает на произвольных распределениях, не ограничиваясь нормальными распределениями как в диффузионных моделях и нормализующих потоках; 3) синтетический датасет из 510 тысяч образцов (51 стиля × 10 тысяч содержаний) был создан для симуляции данного процесса. Кроме того, SCFlow демонстрирует хорошие результаты в задачах контролируемой генерации и нулевого шота на ImageNet-1k и WikiArt, показывая, что разделение содержания и стиля возникает естественным образом из обратимого процесса слияния.

Annotation:

Explicitly disentangling style and content in vision models remains challenging due to their semantic overlap and the subjectivity of human perception. Existing methods propose separation through generative or discriminative objectives, but they still face the inherent ambiguity of disentangling intertwined concepts. Instead, we ask: Can we bypass explicit disentanglement by learning to merge style and content invertibly, allowing separation to emerge naturally? We propose SCFlow, a flow-matchin...

ID: 2508.03402v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

2025-08-06

Авторы:

Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan

**Резюме:** Существующие vision-language модели (VLMs) имеют ограничения в параметрах, ограниченные возможности самокоррекции и сниженную эффективность при работе с длинными визуальными контекстами и сложным логическим выводом, что приводит к неудовлетворительному результату на задачах, связанных с документами. Для решения этой проблемы был предложен MACT — Multi-Agent Collaboration framework с test-time scaling, разработанный для визуального понимания документов и визуального ответа на вопросы (VQA). MACT состоит из четырех малых агентов с четкими ролями: планирование, выполнение, оценка и ответ. Особенностью является judgment agent, который проверяет корректность и направляет задачу на доработку к предыдущим агентам, что является более эффективным по сравнению с традиционными методами коррекции. Дополнительно, используется mixed reward modeling для балансировки агентских и глобальных целей, а также agent-wise hybrid test-time scaling, адаптирующий стратегии масштабирования для каждого агента в зависимости от их функций. Эксперименты показали, что MACT превосходит существующие модели в задачах с длинными контекстами и сложным логическим выводом, показывая высокую эффективность при меньшем количестве параметров. Три варианта MACT занимают лидирующие позиции в средних баллах на 13 из 15 тестов.

Annotation:

Existing vision-language models (VLMs), whether generalists or specialists, remain constrained by their parameter scale, lack robust self-correction capabilities, and underperform in tasks involving long visual contexts and complex reasoning, resulting in suboptimal performance on document-based tasks. To address this, we propose MACT, a Multi-Agent Collaboration framework with Test-Time scaling, tailored for visual document understanding and visual question answering (VQA). It comprises four di...

ID: 2508.03404v1 cs.CV, cs.AI

arXiv PDF

📄 Multi-Objective Infeasibility Diagnosis for Routing Problems Using Large Language Models

2025-08-06

Авторы:

Kai Li, Ruihao Zheng, Xinye Hao, Zhenkun Wang

В реальных логистических задачах пользователи часто указывают конфликтующие или недопустимые требования, что приводит к невозможности построения оптимизационной модели из-за чрезмерно ограничительных или противоречивых ограничений. Существующие методы, основанные на технологии Large Language Models (LLM), способны диагностировать недопустимые модели, но не учитывают множественных возможных корректировок. Для решения этой проблемы была предложена методика Multi-Objective Infeasibility Diagnosis (MOID), которая сочетает LLM-агентов и многокритериальную оптимизацию в автоматическом решатель для логистических задач. MOID рассматривает как затраты на маршрут, так и нарушения ограничений, генерируя набор компромиссных решений. Далее, с помощью LLM-агентов проводится анализ этих решений, чтобы диагностировать исходную недопустимую модель и предоставить пользователю практические рекомендации. На основе 50 типов недопустимых логистических задач показано, что MOID предлагает более комплексные и практически значимые решения по восстановлению модели и принятию решений по сравнению с существующими методами.

Annotation:

In real-world routing problems, users often propose conflicting or unreasonable requirements, which result in infeasible optimization models due to overly restrictive or contradictory constraints, leading to an empty feasible solution set. Existing Large Language Model (LLM)-based methods attempt to diagnose infeasible models, but modifying such models often involves multiple potential adjustments that these methods do not consider. To fill this gap, we introduce Multi-Objective Infeasibility Di...

ID: 2508.03406v1 cs.AI

arXiv PDF

📄 NeuroSync: Intent-Aware Code-Based Problem Solving via Direct LLM Understanding Modification

2025-08-06

Авторы:

Wenshuo Zhang, Leixian Shen, Shuchang Xu, Jindu Wang, Jian Zhao, Huamin Qu, Linping Yuan

**Резюме:** При использовании конверсационных LLMs для решения доменных задач пользователи с ограниченными навыками программирования часто сталкиваются с проблемой несоответствия их намерений (intents) с генерируемым кодом. Это связано с двунаправленной неоднозначностью: нелинейные пользовательские намерения и задачи программирования должны быть выражены и интерпретированы через линейные последовательности запросов и кода. Для решения этой проблемы предлагается новый парадигмальный подход — **direct intent-task matching**, который внешне представляет и позволяет манипулировать LLM-пониманием задач программирования до фазы генерации кода. Этот подход реализован в системе **NeuroSync**, которая использует knowledge distillation для извлечения понимания LLM, пользовательских намерений и их сопоставлений, поддерживая интуитивное редактирование через визуализации. Результаты технических экспериментов и юзер-стади (N=12) показали, что NeuroSync улучшает соответствие намерений и задач, сокращает когнитивные затраты и повышает эффективность программирования.

Annotation:

Conversational LLMs have been widely adopted by domain users with limited programming experience to solve domain problems. However, these users often face misalignment between their intent and generated code, resulting in frustration and rounds of clarification. This work first investigates the cause of this misalignment, which dues to bidirectional ambiguity: both user intents and coding tasks are inherently nonlinear, yet must be expressed and interpreted through linear prompts and code sequen...

ID: 2508.02823v1 cs.HC, cs.AI, cs.CL, cs.SE

arXiv PDF

📄 SlotMatch: Distilling Temporally Consistent Object-Centric Representations for Unsupervised Video Segmentation

2025-08-06

Авторы:

Diana-Nicoleta Grigore, Neelu Madan, Andreas Mogelmose, Thomas B. Moeslund, Radu Tudor Ionescu

В статье представлена **SlotMatch**, фреймворк для улучшения управляемого видеосегментации с помощью легковесного студентского модели. Основная проблема состоит в том, что современные модели, основанные на slot attention, требуют больших вычислительных ресурсов. Для решения этой задачи SlotMatch использует механизм knowledge distillation для передачи объектно-центрированных представлений от большого учительского модели к легковесному студенту. Это достигается путем выравнивания соответствующих слотов учителя и студента через косинусное сходство, без необходимости дополнительных целей или надзора. Эксперименты на двух датасетах показали, что студент SlotMatch не только сопоставим с учителем SlotContrast, но и превзойдет его, используя в 3,6 раза меньше параметров и работая в 1,9 раза быстрее. Кроме того, студент SlotMatch превосходит предыдущие модели для управляемой видеосегментации.

Annotation:

Unsupervised video segmentation is a challenging computer vision task, especially due to the lack of supervisory signals coupled with the complexity of visual scenes. To overcome this challenge, state-of-the-art models based on slot attention often have to rely on large and computationally expensive neural architectures. To this end, we propose a simple knowledge distillation framework that effectively transfers object-centric representations to a lightweight student. The proposed framework, cal...

ID: 2508.03411v1 cs.CV, cs.AI

arXiv PDF

1
2
3396
3397
3398
3399
3400
3402
3403

Показано 33971 - 33980 из 34022 записей