📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Meiqi Wu, Yaxuan Kang, Xuchen Li, Shiyu Hu, Xiaotang Chen, Yunfeng Kang, Weiqiang Wang, Kaiqi Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Для диагностики и оценки психического состояния человека в области психотерапии и психодиагностики широко используется тест на рисунки (Drawing Projection Test, DPT). Один из наиболее распространенных видов DPT — тематический тест "A Person Picking an Apple from a Tree" (PPAT), который позволяет выявить различные психологические состояния, включая депрессию. Через анализ рисунков можно получить глубокое понимание психического состояния человека, особенно когда они используют такие элементы, как цвета, пространственное расположение и другие визуальные аспекты. Однако, интерпретация рисунков в DPT требует больших усилий со стороны психологов, которые должны основываться на своем опыте и знаниях. Кроме того, тест PPAT имеет определенные ограничения: он выполняется под временным давлением, без возможности получения вербальных подсказок, что может приводить к неточностям в рисунках и отсутствию детальных описаний. В этой области исследования существует необходимость в разработке эффективных методов автоматизированного анализа рисунков, которые позволяют упрощать и улучшать процесс диагностики. Традиционные методы распознавания рисунков обычно сосредоточены на распознавании отдельных объектов, но DPT требует более широкого подхода, который учитывает общую оценку рисунков, включая использование цветов, пространственного расположения и других визуальных элементов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этих проблем, авторы предлагают метод Visual-Semantic Depression Assessment based on LLM (VS-LLM). Этот метод основывается на использовании технологии языковых моделей (LLM) для анализа визуально-семантических аспектов рисунков. Архитектура VS-LLM включает в себя несколько ключевых компонентов: 1. **Визуальный анализ**: Метод анализирует визуальные элементы рисунков, такие как использование цветов, пространственное расположение объектов и общую композицию. Эти элементы играют важную роль в оценке психологического состояния. 2. **Семантический анализ**: Дополнительно к визуальным аспектам, метод учитывает семантические элементы, такие как выбор объектов, их размеры, формы и их взаимодействие. Это позволяет получить более глубокий инсайт в психическое состояние человека. 3. **Интеграция LLM**: Языковые модели используются для обработки и анализа данных, полученных из рисунков. LLM позволяет создавать более точные модели для оценки психического состояния, основываясь на комплексном анализе визуальных и семантических данных. 4. **Автоматизированная система**: Авторы также разработали систему, которая позволяет автоматизировать процесс анализа рисунков, что значительно упрощает работу психологов и повышает эффективность диагностики. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода VS-LLM были проведены эксперименты на базе данных рисунков, собранных в рамках тестирования PPAT. Данные включали рисунки, созданные участниками теста, которые были подвергнуты анализу с помощью предложенного метода. Результаты показали, что метод VS-LLM достигает значительного улучшения по сравнению со знаниями психологов. Конкретно, VS-LLM показал лучшие результаты на 17.6% по сравнению с традиционным методом оценки психологами. Это улучшение связано с более точным анализом визуальных и семантических элементов рисунков, который позволяет выявить более точные характеристики психического состояния. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое применение в области психологической диагностики. Он может быть использован для большого количества задач, таких как: - **Диагностика депрессии**: VS-LLM позволяет быстро и точно оценивать психическое состояние человека на основе его рисунков. - **Психотерапия и консультирование**: Метод может быть использован для поддержки психотерапевтических сессий, помогая психологам лучше понять состояние пациентов. - **Автоматизация процессов**: Автоматическая система упрощает работу психологов, позволяя им сосредоточиться на более сложных аспектах диагностики. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод VS-LLM, который улучшает процесс оценки психического состояния человека на основе рисунков. Этот метод демонстрирует высокую эффективность и может быть применен в различных областях психологии и психотерапии. В будущем, дальнейшее исследование может быть направлено на улучшение точности и расширение областей применения данного метода, а также на интеграцию с другими методами диагностики психического состояния.
Annotation:
The Drawing Projection Test (DPT) is an essential tool in art therapy, allowing psychologists to assess participants' mental states through their sketches. Specifically, through sketches with the theme of "a person picking an apple from a tree (PPAT)", it can be revealed whether the participants are in mental states such as depression. Compared with scales, the DPT can enrich psychologists' understanding of an individual's mental state. However, the interpretation of the PPAT is laborious and de...
ID: 2508.05299v1 cs.CV, cs.AI
Авторы:

Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено фундаментальной проблеме моделирования музыкального ожидания и удивления (surprisal) на основе аудиосигналов. В области музыкальной психологии и когнитивных наук музыкальное удивление рассматривается как ключевой механизм восприятия, который формирует эстетический опыт и структурное понимание музыкальных произведений. Традиционные подходы к оценке музыкального удивления опирались на символьные представления (нотные записи, MIDI) или извлеченные вручную признаки, что ограничивало их применимость к произвольной аудиозаписи. Недавнее исследование внедрило концепцию информационного содержания (Information Content, IC) предсказаний от Generative Infinite-Vocabulary Transformer (GIVT) для моделирования музыкального ожидания непосредственно из аудио. Этот подход продемонстрировал многообещающие результаты, однако страдал от ограничений, связанных с природой трансформерной архитектуры и способами моделирования вероятностного распределения аудиоданных. GIVT, будучи автопрессивной моделью, может не полностью захватывать сложные зависимости в аудиосигналах и имеет ограниченную способность моделировать многомодальные распределения. Авторы статьи поднимают критически важные вопросы: насколько эффективно моделирование информационного содержания может быть реализовано через альтернативные архитектуры, и существуют ли более мощные способы оценки музыкального удивления напрямую из аудио. Особое внимание уделяется выявлению связи между удивлением на различных уровнях абстракции (от низкоуровневых акустических признаков до высокоуровневых музыкальных структур) и характеристиками процесса денойзинга в диффузионных моделях. Это открывает перспективы создания более тонких и контекстуально обусловленных моделей музыкального восприятия. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать автопрессивные диффузионные модели (Autoregressive Diffusion Models, ADMs) в качестве основы для оценки информационного содержания музыкальных аудиозаписей. Методология строится на использовании двух различных диффузионных обыкновенных дифференциальных уравнений (ODEs) для моделирования процесса денойзинга, что позволяет получать более точные оценки правдоподобия по сравнению с GIVT. Ключевой инновацией является гипотеза о том, что оценка удивления на различных уровнях шума в процессе денойзинга соответствует удивлению, связанному с музыкальными и акустическими признаками различной гранулярности. Это означает, что в начальных стадиях денойзинга (высокий уровень шума) модель фокусируется на глобальных структурных характеристиках музыкального фрагмента, тогда как в поздних стадиях (низкий уровень шума) - на мелких деталях и тонких акустических особенностях. Архитектура ADM реализуется через последовательное предсказание параметров распределения шума на каждом временном шаге диффузионного процесса. Информационное содержание вычисляется как отрицательный логарифм правдоподобия наблюдаемого аудиофрагмента при заданных параметрах модели. Это позволяет количественно оценить, насколько "неожиданным" является конкретный музыкальный фрагмент с точки зрения обученной модели. Для валидации метода используются две специализированные задачи: (1) оценка удивления в монофонических мелодических последовательностях, где ожидается, что высокое IC будет соответствовать неожиданным изменениям в мелодической линии, и (2) обнаружение границ музыкальных сегментов в многодорожечной аудиозаписи, где границы должны соответствовать локальным максимумам удивления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включает сравнительный анализ производительности ADMs и GIVT на двух специализированных задачах, а также оценку качества моделирования вероятностных распределений на разнообразных аудиоданных. На первом этапе исследовалась способность моделей захватывать удивление в монофонических питч-последовательностях. Для этого использовались наборы данных с аннотированными мелодиями, где удивление определялось как статистическая неожиданность следующего питча при заданном контексте. Результаты пок
Annotation:
Recently, the information content (IC) of predictions from a Generative Infinite-Vocabulary Transformer (GIVT) has been used to model musical expectancy and surprisal in audio. We investigate the effectiveness of such modelling using IC calculated with autoregressive diffusion models (ADMs). We empirically show that IC estimates of models based on two different diffusion ordinary differential equations (ODEs) describe diverse data better, in terms of negative log-likelihood, than a GIVT. We eval...
ID: 2508.05306v1 cs.SD, cs.AI, eess.AS
Авторы:

Jelle Luijkx, Zlatan Ajanović, Laura Ferranti, Jens Kober

## КОНТЕКСТ И ПРОБЛЕМАТИКА Имитационное обучение является ключевым подходом в области машинного обучения, где агент учится выполнять задачи, имитируя поведение эксперта. Однако в интерактивном имитационном обучении (Interactive Imitation Learning, IIL), требуется значительный уровень взаимодействия с человеческим экспертом, что представляет собой существенное ограничение для широкого применения этого метода. Традиционные методы IIL часто опираются на активное обучение (Active Learning), чтобы сократить количество необходимых запросов к эксперту, фокусируясь на ситуациях, характеризующихся высокой неопределенностью, риском или новизной. Однако, в этих ситуациях, запланированные действия новичка (новичковские действия) обычно не используются, несмотря на то, что они могут содержать ценную информацию о возможностях и уровне неопределенности новичка. Проблема заключается в том, что традиционные подходы не позволяют эффективно использовать новичковские действия для улучшения процесса обучения. Это приводит к неоптимальному использованию ресурсов и повышенной необходимости в человеческом вмешательстве. Чтобы решить эту проблему, необходимо разработать метод, который не только сократит количество запросов к эксперту, но и будет эффективно использовать новичковские действия для улучшения процесса обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый метод под названием **Active Skill-level Data Aggregation (ASkDAgger)**, который использует обратную связь от учителя (эксперта) по отношению к запланированным действиям новичка. Этот метод включает в себя три основных компонента: 1. **S-Aware Gating (SAG)**: Этот компонент регулирует пороговые значения для отбора данных, основываясь на чувствительности, специфичности и минимальной скорости успешного выполнения. Это позволяет адаптировать процесс отбора данных к текущему уровню способностей новичка. 2. **Foresight Interactive Experience Replay (FIER)**: Этот компонент преобразует запланированные действия новичка в демонстрации, которые могут быть использованы для последующего обучения. Это позволяет использовать даже неудачные попытки новичка как ценный источник информации. 3. **Prioritized Interactive Experience Replay (PIER)**: Этот компонент оптимизирует процесс повторного использования данных, определяя приоритеты на основе уровня неопределенности, успешности новичка и возраста демонстраций. Это помогает сократить количество требуемых демонстраций и ускорить адаптацию агента к изменяющимся условиям. Общая архитектура ASkDAgger построена так, чтобы сбалансировать частоту запросов к эксперту и частоту неудачных попыток, уменьшить количество необходимых демонстраций и улучшить обобщающую способность агента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода ASkDAgger были проведены эксперименты на задачах манипуляции, управляемых языком, как в симуляционном, так и в реальном мире. Эксперименты показали, что ASkDAgger уменьшает количество необходимых запросов к эксперту, одновременно повышая успешность выполнения задач и скорость адаптации агента. В экспериментах использовались данные, полученные из симулятора и реального окружения, для моделирования различных сценариев взаимодействия между новичком и экспертом. Результаты показали, что ASkDAgger не только сокращает количество запросов к эксперту, но также повышает качество данных, используемых для обучения, благодаря эффективному использованию новичковских действий. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод ASkDAgger имеет значительное практическое применение в областях, где необходимо обучение агентов на основе демонстраций эксперта. Он может быть использован в таких доменах, как робототехника, автономные транспортные системы и интерактивные системы обучения. Преимущества ASkDAgger включают в себя сокращение частоты запросов к эксперту, улучшение качества обучения и быструю адаптацию к изменяющимся условиям. Потенциальное влияние этого метода заключается в упрощении процесса обучения агентов, что может привести к более широкому использованию имитационного обучения в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ASkDAgger представляет собой значительный шаг вперед в области имитационного обучения, позволяющий эффективно использовать новичковские действия для улучшения процесса обучения. Основные достижения этого метода включают в себя сокращение количества запросов к эксперту, повышение качества обучения и ускорение адаптации агента. В будущем, дальнейшие исследования могут фокусироваться на расширении этого метода для более сложных задач и доменов, а также на интеграции ASkDAgger с другими методами имитационного обучения для дальнейшего улучшения производительности.
Annotation:
Human teaching effort is a significant bottleneck for the broader applicability of interactive imitation learning. To reduce the number of required queries, existing methods employ active learning to query the human teacher only in uncertain, risky, or novel situations. However, during these queries, the novice's planned actions are not utilized despite containing valuable information, such as the novice's capabilities, as well as corresponding uncertainty levels. To this end, we allow the novic...
ID: 2508.05310v1 cs.LG, cs.AI, cs.HC, cs.RO, 68T05, I.2.6; I.2.8; I.2.9
Авторы:

Andrew Kiruluta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие искусственного интеллекта в области глубокого обучения привело к значительным успехи в обработке естественного языка, но эти модели часто сталкиваются с ограничениями в области символического резонирования, причинно-следственного анализа и интерпретируемости. Традиционные нейронные сети, в том числе крупные языковые модели (LLMs), превосходны в обработке неструктурированных данных, но страдают от недостатков в области логического вывода и обработки структурированных данных. Другой подход, символический вывод, хорошо подходит для обработки логических и семантических задач, но более слаб в обработке неструктурированных данных и обобщении. В последние годы возрос интерес к созданию гибридных систем, которые объединяют сильные стороны нейросетевых и символических подходов. Однако многие существующие решения имеют слабую интеграцию между модулями, что приводит к потере консистентности и снижению эффективности. Кроме того, многие системы не позволяют эффективно использовать символические модули в реальном времени, что ограничивает их применимость в задачах, требующих высокой интерактивности и контекстуального вывода. Данная работа предлагает новую архитектуру, которая интегрирует символические модули, такие как деревья решений и случайные леса, с нейросетевыми моделями в рамках единой системы. Целью этой интеграции является создание гибридной системы, которая обеспечивает интерпретируемость, логическую консистентность и высокую эффективность в решении задач, требующих как нейронного, так и символического вывода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенная архитектура основывается на интеграции деревьев решений и случайных лесов в качестве вызываемых оракулов в рамках координированной многоагентной системы. Деревья решений используются для представления логических правил и причинно-следственных отношений, а случайные леса обеспечивают устойчивость и точность в выводе. Эти модули встраиваются в систему как компоненты, которые могут быть вызваны в любой момент времени для проведения логического вывода. В качестве нейросетевого компонента используются крупные языковые модели (LLMs), которые отвечают за абдуктивный вывод, обобщение и интерактивное планирование. LLMs обрабатывают неструктурированные данные и генерируют контекстуальные предложения, которые затем интегрируются с выводом из деревьев решений. Центральной частью системы является оркестратор, который поддерживает консистентность состояния убеждений и координирует взаимодействие между агентами и внешними инструментами. Оркестратор обеспечивает контекстуальную интеграцию вывода из разных модулей, позволяя системе эффективно работать с как структурированными, так и неструктурированными входными данными. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Система была протестирована на нескольких резонированию бенчмарках. На бенчмарке ProofWriter система показала улучшение консистентности вывода на +7.2% за счет проверки логических правил с помощью деревьев решений. На бенчмарке GSM8k, посвященном многошаговым математическим задачам, система достигла увеличения точности на +5.3% благодаря использованию символического аугментирования. На бен
Annotation:
We propose a hybrid architecture that integrates decision tree-based symbolic reasoning with the generative capabilities of large language models (LLMs) within a coordinated multi-agent framework. Unlike prior approaches that loosely couple symbolic and neural modules, our design embeds decision trees and random forests as callable oracles within a unified reasoning system. Tree-based modules enable interpretable rule inference and causal logic, while LLM agents handle abductive reasoning, gener...
ID: 2508.05311v1 cs.AI, cs.CL
Авторы:

Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Retrieval-Augmented Generation (RAG) стал ключевым подходом для расширения внутреннего знания Многомодальных Больших Языковых Моделей (МБЯМ) путем интеграции внешних баз знаний в процесс генерации, что широко применяется в задачах Знаний-ориентированного Ответа на Вопросы с Изображениями (VQA). Несмотря на значительные достижения в этой области, традиционные методы RAG, основанные на неструктурированных документах, часто игнорируют структурные отношения между элементами знаний. Это приводит к возникновению неуместной или вводящей в заблуждение информации, что снижает точность и надежность ответов. Данная проблема особенно актуальна в контексте задач VQA, где точность ответов критически важна. Неспособность существующих методов эффективно обрабатывать структурированные отношения между различными модальностями (такими как текст и изображения) является ключевой проблемой. Кроме того, многие существующие подходы не могут эффективно интегрировать многомодальные знания в процесс генерации, что ограничивает их применимость в реальных сценариях. В связи с этим возникает потребность в разработке новых методологий, которые могут эффективно интегрировать структурированные многомодальные знания в RAG-based VQA системы для улучшения точности и надежности ответов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе авторы предлагают новый метод mKG-RAG, основанный на многомодальных знаниях для улучшения задач VQA. Основная идея заключается в интеграции многомодальных графов знаний (multimodal KGs) в RAG-based VQA фреймворк для обеспечения более точной и структурированной генерации ответов. mKG-RAG использует модели Многомодальных Больших Языковых Моделей (MLLM) для извлечения ключевых слов и оптимизации соответствия текста и изображений. Этот процесс позволяет выделить семантически согласованные и модальностью-алгоритмически оптимизированные сущности и отношения из многомодальных документов. Затем эти сущности и отношения используются для построения высококачественных многомодальных графов знаний (KGs), которые служат структурированным представлением знаний. Кроме того, авторы предлагают двухступенчатую стратегию извлечения, оснащенную вопрос-зависимым многомодальным ретриевером (question-aware multimodal retriever). Эта стратегия позволяет улучшить эффективность извлечения информации и повысить точность получаемых результатов. Этот метод также обеспечивает более точное сопоставление вопроса с соответствующими элементами знаний в многомодальном графе. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексные эксперименты для оценки эффективности mKG-RAG по сравнению с существующими методами. Были использованы различные наборы данных для задач VQA, которые включали как текстовую, так и визуальную информацию. Результаты экспериментов показали, что mKG-RAG значительно превосходит существующие методы показателями точности и надежности ответов. В частности, mKG-RAG показал лучшие результаты в условиях, где вопросы требовали интеграции знаний из различных модальностей. Двухступенчатая стратегия извлечения также показала свою эффективность в обеспечении высокой точности поиска и извлечения релевантных элементов знаний. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ mKG-RAG имеет широкие возможности применения в реальных сценариях, где критически важна точность ответов на вопросы, основанные на многомодальных данных. Этот метод может быть использован в различных областях, таких как медицинские диагностики, системы поддержки решений, интеллектуальные помощники, и других приложениях, требующих интеграции структурированных многомодальных знаний. Основными преимуществами mKG-RAG является его способность обрабатывать сложные взаимосвязи между различными модальностями знаний, что позволяет получать более точные и релевантные ответы. Это может существенно повысить эффективность и надежность систем, основанных на VQA, в различных прикладных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод mKG-RAG, который интегрирует многомодальные графы знаний в RAG-based VQA фреймворк для улучшения точности и надежности ответов. Эксперименты показали, что этот метод значительно превосходит существующие подходы в задачах VQA. В будущем могут быть исследованы другие способы улучшения mKG-RAG, такие как интеграция дополнительных модальностей знаний, улучшение моделей извлечения и генерации, а также применение этого подхода к другим типам задач, требующих интеграции многомодальных знаний.
Annotation:
Recently, Retrieval-Augmented Generation (RAG) has been proposed to expand internal knowledge of Multimodal Large Language Models (MLLMs) by incorporating external knowledge databases into the generation process, which is widely used for knowledge-based Visual Question Answering (VQA) tasks. Despite impressive advancements, vanilla RAG-based VQA methods that rely on unstructured documents and overlook the structural relationships among knowledge elements frequently introduce irrelevant or mislea...
ID: 2508.05318v1 cs.CV, cs.AI
Авторы:

Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Reasoning Language Models (LRLMs) стали важной составляющей для решения сложных задач вывода, используя методы chain-of-thought reasoning. Эти модели генерируют длинные последовательности логических шагов, обычно спускаясь в детали, чтобы достичь более точных решений. Однако, эффективность такого подхода становится все более проблематичной по причине растущего количества циклов рефлексии, вызванных определенными триггер-словами, такими как "Wait" («Ждите») и "Alternatively" («Иначе»). Эти рефлексивные поведения, хоть и помогают улучшить результаты в некоторых случаях, часто приводят к **overthinking problem** – генерации избыточных шагов вывода, которые не несут дополнительной полезности, но значительно увеличивают количество токенов, время выполнения и стоимость вычислений. Проблема в том, что излишняя рефлексия может не только повысить затраты на вычисления, но и ухудшить практическую применимость LRLMs, особенно в ситуациях, где время отклика и эффективность критичны. Таким образом, необходимо разработать методы, которые бы позволили контролировать и оптимизировать процесс рефлексии в моделях, сохраняя при этом высокое качество результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод под названием **Certainty-Guided Reflection Suppression (CGRS)**, который направлен на уменьшение излишней рефлексии в LRLMs. Основная идея заключается в том, чтобы динамически подавлять генерацию рефлексивных триггеров в моменты, когда модель выражает высокую уверенность в своем текущем ответе. Это позволяет избежать ненужных циклов рефлексии без ущерба для качества вывода. CGRS работает как дополнение к существующим autoregressive generation pipelines, не требуя модификации архитектуры модели или дополнительного тренировочного процесса. Алгоритм основывается на оценке уверенности модели в каждом шаге вывода. Если уровень уверенности превышает заданный порог, то генерация рефлексивных триггеров прекращается, что эффективно предотвращает излишнюю генерацию. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на четырех различных бенчмарках резонанса: **AIME24**, **AMC23**, **MATH500** и **GPQA-D**. Результаты показали, что CGRS способен значительно сократить количество токенов, необходимых для генерации ответов, при этом сохраняя точность вывода. В среднем, эффективность сокращения токенов составила от 18.5% до 41.9% в зависимости от задачи и модели. Кроме того, эксперименты показали, что CGRS эффективен на различных архитектурах моделей (DeepSeek-R1-Distill, QwQ-32B, Qwen3) и в различных диапазонах размеров моделей (от 4B до 32B параметров). Это демонстрирует универсальность и скалируемость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CGRS имеет значительное практическое значение для повышения эффективности LRLMs в реальных приложениях. Уменьшение количества токенов не только снижает вычислительные затраты, но также улучшает время отклика моделей, что критично для задач, требующих быстрых решений. Кроме того, метод легко интегрируется в существующие пайплайны, что делает его пригодным для широкого круга приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод CGRS, который эффективно снижает излишнюю рефлексию в LRLMs, сохраняя при этом высокий уровень точности. Будущие исследования могут фокусироваться на дальнейшей оптимизации таких моделей, в том числе на адаптации CGRS к более широкому спектру задач и доменов. Также, исследование влияния других факторов, таких как тип задачи и контекст, может помочь в улучшении эффективности метода.
Annotation:
Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Supp...
ID: 2508.05337v1 cs.CL, cs.AI, cs.LG
Авторы:

Brinnae Bent

Название: The Term 'Agent' Has Been Diluted Beyond Utility and Requires Redefinition Авторы: Brinnae Bent ## КОНТЕКСТ И ПРОБЛЕМАТИКА В области искусственного интеллекта (ИИ) термин "agent" (агент) имеет длительную историю использования, но его значение становится все более размытым из-за разнообразных толкований в различных поддисциплинах. Исходно, термин обозначал систему, способную выполнять действия в окружающей среде для достижения определенных целей. Однако, с ростом сложности ИИ-систем, особенно с появлением больших языковых моделей (Large Language Models, LLM), термин стал использоваться в широком диапазоне контекстов, что привело к неоднозначности и путанице в научном общении, оценке систем, воспроизводимости и разработке политик. Проблема заключается в том, что термин "agent" часто используется без четкого определения, что создает трудности для точного общения научных идей. Например, в некоторых контекстах "agent" может означать простую программу, выполняющую заданные действия, тогда как в других случаях он может относиться к системам с высокой степенью автономности и способностью к обучению и адаптации. Такая неопределенность может привести к несогласованности в научных публикациях, что затрудняет сравнение и оценку различных ИИ-систем. Авторы статьи подчеркивают необходимость пересмотра и переопределения термина "agent" для того, чтобы создать более точный и согласованный язык для описания ИИ-систем. Они предлагают подход, основанный на историческом анализе и современных тенденциях в использовании термина, чтобы определить четкие критерии, по которым система может быть классифицирована как агент. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк, который определяет минимальные требования для того, чтобы система могла быть классифицирована как "агент". Этот фреймворк включает в себя несколько ключевых аспектов, таких как **взаимодействие с окружающей средой**, **способность к обучению и адаптации**, **автономность**, **сложность целей** и **временная когерентность**. 1. **Взаимодействие с средой**: Агент должен быть способен взаимодействовать с окружающей средой, получать информацию и производить действия, которые влияют на среду. 2. **Способность к обучению и адаптации**: Агент должен иметь возможность обучаться на основе своих взаимодействий и адаптироваться к изменениям в среде. 3. **Автономность**: Агент должен быть способен принимать решения и выполнять действия без непосредственного вмешательства человека. 4. **Сложность целей**: Агент должен быть способен работать с комплексными, многоступенчатыми целями, которые могут изменяться со временем. 5. **Временная когерентность**: Агент должен поддерживать когерентность в своих действиях и решениях в течение определенного периода времени. Этот фреймворк также предлагает характеризовать системы вдоль нескольких измерений, чтобы создать более точное описание их свойств и возможностей. Это позволяет избежать однозначного определения "агента", но в то же время сохраняет его многофакторный характер. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы не предоставляют конкретных экспериментальных данных, но они проводят анализ существующих исследований и примеров ИИ-систем для демонстрации преимуществ их фреймворка. Они используют различные случаи из литературы и практических приложений ИИ для иллюстрации того, как их фреймворк может быть применен к разным типам систем. Например, они рассматривают системы, такие как боты для обработки естественного языка, которые могут быть классифицированы как "агенты" по определенным критериям, но не по другим. Это демонстрирует важность их многомерного подхода к определению "агента". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый фреймворк имеет многообразные практические применения. Во-первых, он помогает улучшить четкость и согласованность в научном общении, что важно для того, чтобы исследователи и разработчики могли точно описывать и сравнивать различные ИИ-системы. Это также может повысить воспроизводимость исследований, поскольку более точные определения позволят исследователям более точно описать свои методологии и результаты. Кроме того, фреймворк может быть полезен в области политики и регулирования ИИ. Четкое определение "агента" может помочь в разработке политик, связанных с автономными системами, особенно в контексте безопасности и этики ИИ. Наконец, фреймворк может быть использован в областях, таких как роботизация, автономные транспортные системы, и другие, где точное определение агентских систем критично для успешной реализации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы заключают, что термин "agent" требует переопределения для сохранения его полезности и точности в научном контексте. Они предлагают фреймворк, который позволяет характеризовать системы на основе нескольких критериев, чтобы создать более точное и согласованное определение. В будущем, авторы предлагают продолжить работу над стандартизацией терминологии в области ИИ и расширять использование их фреймворка для описания различных типов систем. Они также выделяют необходимость дальнейших исследований в области этики и политики ИИ, где четкое определение "агента" играет важную роль. В целом, этот подход может способствовать более четкому и последовательному развитию области ИИ, улучшив общение, оценку и регулирование систем, которые могут быть классифицированы как "агенты".
Annotation:
The term 'agent' in artificial intelligence has long carried multiple interpretations across different subfields. Recent developments in AI capabilities, particularly in large language model systems, have amplified this ambiguity, creating significant challenges in research communication, system evaluation and reproducibility, and policy development. This paper argues that the term 'agent' requires redefinition. Drawing from historical analysis and contemporary usage patterns, we propose a frame...
ID: 2508.05338v1 cs.AI, cs.CY
Авторы:

Shunlei Li, Longsen Gao, Jin Wang, Chang Che, Xi Xiao, Jiuwen Cao, Yingbai Hu, Hamid Reza Karimi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие робототехники требует создания систем, способных учиться на основе человеческих демонстраций. Однако традиционные подходы, основанные на имитации низкоуровневых траекторий, сталкиваются со сложностями при адаптации к различным типам объектов, пространственным конфигурациям и конфигурациям манипуляторов. Это ограничивает их применимость в реальных сценариях. Особенностью двуруких роботов является необходимость высокоуровневого пространственного и семантического восприятия, чтобы выполнять задачи, требующие координации между руками. Кроме того, существует проблема генерации политик поведения, которые могли бы быть легко интерпретируемыми и при этом эффективными в исполнении. В данной работе авторы решают эти проблемы, предложив фреймворк, который комбинирует визуальное, языковое и действительное восприятие для решения задач двурукого управления. Основная идея заключается в том, чтобы использовать теоретические подходы к обработке информации для выделения ключевых элементов сцены, таких как руки и объекты, и построить иерархические модели поведения, которые могут быть преобразованы в команды для робота. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод, названный **Graph-Fused Vision-Language-Action (GF-VLA)**, состоит из нескольких этапов. В первую очередь, система использует информационно-теоретические критерии для определения ключевых элементов сцены, таких как руки и объекты, с максимальной релевантностью к задаче. Это позволяет создать **временно упорядоченные сценовые графы**, которые захватывают взаимодействия между руками, объектами и другими элементами сцены. Затем, эти графы функционально связываются с языковым контекстом через трансформерную модель, которая генерирует **иерархические поведенческие деревья** (behavior trees). Эти деревья представляют собой структурированные планы действий, которые могут быть легко интерпретируемыми человеком. Для оптимизации исполнения в двуручных системах, авторы предлагают **политику выбора гриферов** (gripper selection policy), которая определяет оптимальное назначение рук для выполнения задачи без необходимости явного геометрического анализа. Это позволяет улучшить эффективность исполнения задач в двуручных конфигурациях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на четырёх задачах двуручного строительства блоков, включая конструирование символических форм, строительство букв и перестройку геометрических форм. Использованы данные из RGB и Depth камер, которые позволяют моделировать реальные условия работы робота. Результаты показали, что метод GF-VLA достигает высокой точности в построении графов (более 95%) и сегментации подзадач (93%). Использование полученных политик поведения приводит к высоким показателям успешности захвата (94%), точности размещения объектов (89%) и общей успешности выполнения задач (90%). ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий круг применений в области робототехники, особенно в задачах, требующих координации двух рук. Он может быть использован для обучения роботов на основе человеческих демонстраций в таких сферах, как производство, логистика и медицина. Одним из ключевых преимуществ является возможность генерировать интерпретируемые политики поведения, что упрощает отладку и модификацию задач. Кроме того, метод показывает высокую устойчивость к изменениям в пространственных и семантических условиях, что делает его применимым в различных сценариях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен фреймворк GF-VLA, который успешно решает задачи двуручного управления роботами на основе визуальных и языковых данных. Будущие исследования могут фокусироваться на расширении этого подхода для более сложных задач, включая работу в неструктурированных средах и с более сложными объектами. Также предлагается исследовать возможности интеграции этого метода с другими технологиями, такими как обучение с подкреплением, для дальнейшего улучшения производительности и автономности роботов.
Annotation:
Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to generalize across object types, spatial layouts, and manipulator configurations. We propose Graph-Fused Vision-Language-Action (GF-VLA), a framework that enables dual-arm robotic systems to perform task-level reasoning and execution directly from RGB and Depth human demonstrations. GF-VLA first extracts Shannon-information-based cues to identify hands and o...
ID: 2508.05342v1 cs.RO, cs.AI
Авторы:

Asutosh Hota, Jussi P. P. Jokinen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные крупные языковые модели (LLM) продемонстрировали выдающийся прогресс в решении задач правового толкования, аргументации и стратегического взаимодействия. Однако эмпирическое понимание поведения LLM в открытых многокомпонентных сценариях, особенно связанных с обсуждением правовых и этических дилемм, остается крайне ограниченным. Существующие исследования в основном фокусируются на изолированных задачах и не раскрывают комплексные динамики коллективного принятия решений в правовой сфере. Проблематика статьи заключается в отсутствии систематического подхода к анализу того, как LLM взаимодействуют друг с другом при создании правовых норм в условиях многокомпонентной среды. Особенно актуальными являются вопросы формирования доверия между агентами, проявления реципрокности в голосованиях и использования стратегического языка для влияния на коллективные решения. Эти аспекты критически важны для понимания потенциала LLM в автономной разработке законодательства и правовых норм. Авторы подчеркивают, что ограниченность текущих знаний о поведении LLM в правовых контекстах сдерживает развитие AI-систем, способных к автономной разработке и адаптации правовых норм. Необходимость в создании таких систем возрастает в условиях увеличения сложности правовых регуляций и необходимости динамической адаптации законодательства к новым вызовам. Статья стремится заполнить этот пробел путем создания структурированной многокомпонентной симуляции, в которой LLM участвуют в коллективном правотворчестве. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют NomicLaw - инновационную многокомпонентную симуляцию, в которой LLM участвуют в коллективном правотворчестве. Система структурирована следующим образом: каждый агент-LLM получает сложную правовую виньетту и должен предложить конкретное правило для регулирования описанной ситуации. Процесс включает три ключевых этапа: предложение правил, обоснование принципов и голосование за предложения коллег. Методология измерения доверия и реципрокности основана на квантитативном анализе паттернов голосования. Система отслеживает, как агенты голосуют за предложения других участников, выявляя паттерны взаимной поддержки и предательства доверия. Качественный анализ фокусируется на том, как агенты используют стратегический язык для обоснования своих предложений и влияния на коллективные решения. Архитектура эксперимента включает как однородные группы (агенты на основе одной модели), так и гетерогенные группы (различные модели LLM). Это позволяет исследовать, как различия в архитектуре и обучении моделей влияют на коллективную динамику. Симуляция разработана таким образом, чтобы выявить спонтанное формирование альянсов между агентами, проявления предательства доверия и адаптивное изменение риторики в ответ на действия других участников. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты были проведены с участием десяти открытых LLM, охватывающих различные архитектуры и размеры моделей. Для каждой модели были созданы сценарии с однородными и гетерогенными группами, что позволило сравнить поведение моделей в разных контекстах. Правовые виньетты были тщательно подобраны для представления сложных этико-правовых дилемм, требующих сбалансированного подхода. Квантитативные результаты показали заметные различия в паттернах голосования между различными моделями. Некоторые модели демонстрировали высокие уровни реципрокности, последовательно поддерживая предложения агентов, которые ранее поддержали их инициативы. Другие модели проявляли более индивидуалистическое поведение, фокусируясь исключительно на содержании предложений без учета истории взаимодействий. Качественный анализ раскрыл сложные стратегии использования языка. Агенты адаптировали свою риторику в ответ на действия других участников, используя более убедительные аргументы при необходимости заручиться поддержкой. Были зафиксированы случаи формирования стабильных альянсов между определенными моделями, а также инциденты предательства, когда агенты меняли свою позицию
Annotation:
Recent advancements in large language models (LLMs) have extended their capabilities from basic text processing to complex reasoning tasks, including legal interpretation, argumentation, and strategic interaction. However, empirical understanding of LLM behavior in open-ended, multi-agent settings especially those involving deliberation over legal and ethical dilemmas remains limited. We introduce NomicLaw, a structured multi-agent simulation where LLMs engage in collaborative law-making, respon...
ID: 2508.05344v1 cs.AI
Авторы:

Federica Di Stefano, Quentin Manière, Magdalena Ortiz, Mantas Šimkus

## КОНТЕКСТ И ПРОБЛЕМАТИКА Резонный подход с использованием минимальных моделей является ключевым для многих техник представления знаний, но в области Description Logics (DLs) он по-прежнему представляет собой значительную проблему. Минимизация некоторых предикатов, оставляя остальные предикаты фиксированными или меняющимися, как это предлагается в концепции circumscription, была изучена и показала высокую сложность. Однако, случай "чистых" минимальных моделей, где расширение всех предикатов должно быть минимальным, оставался в значительной степени неизученным. В данной статье авторы обращаются к этой проблеме в популярных DLs и получают неожиданно отрицательные результаты: удовлетворение концептов в минимальных моделях является неразрешимой по отношению к $\mathcal{EL}$. Эта неразрешимость также распространяется на очень ограниченный фрагмент tuple-generating dependencies (т.е. зависимостей, генерирующих кортежи). Эти результаты подчеркивают трудности, связанные с минимальными моделями в DLs, и требуют новых подходов для решения этой проблемы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неразрешимости, авторы предлагают ввести условия ацикличности (acyclicity conditions) для TBox (Terminological Box). Эти условия позволяют ограничить комплексность модели, сделав худший случай сложности ниже чем двойное экспоненциальное время. Это позволяет установить связь с недавно изученным подходом pointwise circumscription, который представляет собой более эффективный способ работы с минимальными моделями. Кроме того, авторы рассматривают результаты в данных (data complexity), которые позволяют оптимизировать работу с большими объемами информации. Они также исследуют DL-Lite family, где были получены некоторые положительные результаты для DL-Lite$_{\text{core}}$, но их работа показывает, что в расширении DL-Lite$_{\text{horn}}$ сложность вырастает до ExpSpace-hardness. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты для оценки сложности и применимости их метода. Они используют различные наборы данных и сравнивают результаты существующих методов с их новым подходом. Результаты показывают, что их метод уменьшает сложность в некоторых случаях, особенно когда применяются условия ацикличности. Однако, в некоторых случаях, таких как DL-Lite$_{\text{horn}}$, сложность остается высокой. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод может быть применен в различных областях знаний, где необходимо работать с минимальными моделями для оптимизации процессов. Он может быть полезен в таких областях, как искусственный интеллект, здравоохранение, финансы и другие, где требуется обработка больших объемов данных и оптимизация решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключении, авторы подчеркивают важность их работы в изучении минимальных моделей в DLs и предлагают новые направления для будущих исследований. Они выделяют необходимость дальнейшего исследования методов для улучшения сложности и применимости в реальных системах. Они также предлагают исследовать другие фрагменты DLs, которые могут быть более подходящими для работы с минимальными моделями.
Annotation:
Reasoning with minimal models has always been at the core of many knowledge representation techniques, but we still have only a limited understanding of this problem in Description Logics (DLs). Minimization of some selected predicates, letting the remaining predicates vary or be fixed, as proposed in circumscription, has been explored and exhibits high complexity. The case of `pure' minimal models, where the extension of all predicates must be minimal, has remained largely uncharted. We address...
ID: 2508.05350v1 cs.AI, cs.CC, cs.LO
Показано 14271 - 14280 из 14425 записей