📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 An Explainable Natural Language Framework for Identifying and Notifying Target Audiences In Enterprise Communication

2025-08-09

Авторы:

Vítor N. Lourenço, Mohnish Dubey, Yunfei Bai, Audrey Depeige, Vivek Jain

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных крупномасштабных организациях технического обслуживания управление коммуникациями представляет сложные вызовы, особенно когда речь заходит об идентификации субъектов и координации взаимодействия в условиях сложной сети взаимосвязей между сущностями. Традиционные подходы к коммуникации часто не справляются с этими вызовами, что приводит к информационному перегруженности, увеличению времени отклика и ухудшению эффективности взаимодействия. Такие проблемы особенно критичны в сфере технического обслуживания, где необходимо быстро и точно определять экспертов, ответственных за определенные устройства, производители или соответствующие объекты обслуживания. Дополнительным фактором становится необходимость обеспечить прозрачность и доверие к системе коммуникаций. Пользователи должны понимать, как и почему определенные решения принимаются, чтобы избежать недоверия и повысить эффективность процессов. Традиционные системы часто не могут обеспечить такую прозрачность, что создает дополнительные трудности в управлении коммуникациями. В этой связи возникает потребность в разработке инновационных решений, которые могли бы сочетать гибкость естественного языка с возможностью точного и эффективного определения целевых аудиторий. Такой подход должен обеспечивать не только скорость и точность, но и прозрачность, чтобы пользователи могли доверять системе и эффективно использовать ее в своей работе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный фреймворк, который сочетает технологии RDF графовых баз данных и технологии языковых моделей (LLM) для обработки естественного языка. Этот фреймворк разработан для того, чтобы обрабатывать запросы пользователей в естественном языке и точно определять целевые аудитории на основе сложной сети связей между различными сущностями, такими как оборудование, производители, инженеры по техническому обслуживанию и объекты обслуживания. Ключевой элемент фреймворка – это архитектура планирования и оркестрации, которая позволяет обеспечить прозрачность процесса принятия решений. Эта архитектура позволяет пользователям формулировать запросы на естественном языке, которые могут включать различные концепции, такие как типы оборудования, производители, инженеры и местоположения. Затем, система использует RDF граф для того, чтобы представить эти сущности и их взаимосвязи, а LLM обрабатывает запрос и формирует результат, который может быть легко интерпретирован пользователем. Процесс работы фреймворка включает в себя несколько этапов: вначале, пользователь формулирует запрос на естественном языке, который затем преобразуется в структурированный запрос к графу. Граф представляет собой взаимосвязи между различными сущностями, и система использует эту информацию для того, чтобы определить целевую аудиторию. Наконец, система предоставляет результат в виде подробного отчета, который объясняет, как и почему были выбраны определенные сущности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. В экспериментах использовались данные из реальных ситуаций, связанных с техническим обслуживанием в крупных организациях. Данные включали информацию оборудования, производителей, инженеров и местоположений. Результаты экспериментов показали, что предложенный фреймворк значительно улучшил эффективность коммуникации в организации. Система была в состоянии точно и быстро определять целевые аудитории на основе запросов пользователей, и результаты были представлены в прозрачной и интерпретируемой форме. Кроме того, пользователи отметили высокую степень доверия к системе, так как они могли понимать, как и почему были приняты определенные решения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкие возможности применения в различных областях, где необходимо управлять коммуникациями в условиях сложной сети связей между сущностями. Он может быть использован в сфере технического обслуживания, логистики, управления проектами и других областях, где важно быстро и точно определять целевые аудитории. Одним из ключевых преимуществ фреймворка является его прозрачность. Пользователи могут доверять системе, так как они могут понимать, как и почему были приняты определенные решения. Это повышает эффективность коммуникации и позволяет избежать недоверия к системе. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный фреймворк является важным шагом вперед в области управления коммуникациями в крупных организациях. Он сочетает в себе гибкость естественного языка и точность графовых моделей, что позволяет обеспечить эффективное и прозрачное решение задач коммуникации. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности системы и ее адаптации для различных сфер применения.

Annotation:

In large-scale maintenance organizations, identifying subject matter experts and managing communications across complex entities relationships poses significant challenges -- including information overload and longer response times -- that traditional communication approaches fail to address effectively. We propose a novel framework that combines RDF graph databases with LLMs to process natural language queries for precise audience targeting, while providing transparent reasoning through a plann...

ID: 2508.05267v1 cs.AI

arXiv PDF

📄 FlowState: Sampling Rate Invariant Time Series Forecasting

2025-08-09

Авторы:

Lars Graf, Thomas Ortner, Stanisław Woźniak, Angeliki Pantazi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Time series forecasting является ключевой областью в машинном обучении, применяемой в различных сферах, таких как экономика, промышленность, здравоохранение и многие другие. Однако, несмотря на успех фаундэйшн моделей (FMs) в области естественного языка, их применение к задачам прогнозирования временных рядов остается проблематичным. Традиционные модели, основанные на вариантах трансформеров, сталкиваются с несколькими критичными ограничениями, включая сложности при адаптации к различным темпоральным разрешениям (sampling rates), неэффективность вычислений и ограниченную способность к обобщению на различных промежутках времени. Существующие time series foundation models (TSFMs) требуют больших вычислительных ресурсов для обучения на разных темпоральных разрешениях, что снижает их практическую применимость. Более того, их невозможность эффективно адаптироваться к входным данным разной частоты делает их менее гибкими на практике. Также, многие существующие модели требуют предварительного обучения на данных с различными частотами выборки, что усложняет процесс разработки и применения. В связи с этим, необходимо разработать модель, которая могла бы эффективно работать с временными рядами разной частоты выборки, не требуя для этого значительных компьютерных ресурсов, и обеспечивала бы высокую точность прогнозов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новая архитектура **FlowState**, которая решает проблемы существующих моделей за счет двух ключевых инноваций: **state space model (SSM) based encoder** и **functional basis decoder**. SSM-based encoder позволяет модели работать в непрерывном временном пространстве, что обеспечивает возможность динамической адаптации к различным темпоральным разрешениям. Функциональный декодер, в свою очередь, позволяет модели формировать прогнозы на основе базисных функций, что дает ей возможность гибко регулировать прогнозируемые горизонты. FlowState отличается от других TSFMs тем, что не требует данных с разными частотами выборки для обучения, а вместо этого адаптирует свои внутренние динамические процессы к заданному темпоральному разрешению. Это уменьшает необходимость в больших объемах данных и повышает эффективность модели. Кроме того, авторы предлагают **эффективную стратегию предварительного обучения**, которая улучшает устойчивость модели и ускоряет процесс обучения. Несмотря на то, что FlowState является одной из самых маленьких моделей по количеству параметров, она достигает высокой точности прогнозов и превзойдет все другие модели на задачах GIFT-ZS и Chronos-ZS. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на двух задачах: GIFT-ZS и Chronos-ZS. Эти данные представляют собой временные ряды с различными частотами выборки. Модель FlowState была протестирована на различных конфигурациях, включая различные частоты выборки и прогнозируемые горизонты. Результаты показали, что FlowState не только превзошла все другие модели в терминах точности прогнозов, но и показала высокую эффективность в терминах вычислительных затрат. Благодаря своей способности адаптироваться к разным частотам выборки, FlowState показала стабильно хорошие результаты даже при изменении входных данных в режиме реального времени. Были также проведены **абляционные исследования**, которые подтвердили эффективность каждого компонента модели, включая SSM-based encoder и functional basis decoder. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FlowState имеет широкое применение в различных областях, где необходимо прогнозирование временных рядов с разными частотами выборки. Например, в области финансов, модель может быть использована для прогнозирования цен на фондовом рынке с различными интервалами времени. В промышленности, она может помочь в мониторинге и прогнозировании работы оборудования. Одним из ключевых преимуществ FlowState является её эффективность и малая размерность модели, что делает её пригодной для развертывания на устройствах с ограниченными вычислительными ресурсами. Кроме того, модель подходит для онлайн-адаптации, что делает её подходящей для приложений, требующих динамического изменения частоты выборки. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FlowState представляет собой значительный шаг вперед в области time series forecasting. Благодаря своей способности адаптироваться к разным частотам выборки и эффективному предварительному обучению, она предлагает новый подход к решению задач прогнозирования. В будущем, модель может быть дальше улучшена путем исследования более сложных декодеров или интеграции дополнительных функций для обработки многомерных временных рядов. Также, можно рассмотреть возможность применения FlowState в реальном времени для задач, требующих быстрого реагирования на изменения в данных.

Annotation:

Foundation models (FMs) have transformed natural language processing, but their success has not yet translated to time series forecasting. Existing time series foundation models (TSFMs), often based on transformer variants, struggle with generalization across varying context and target lengths, lack adaptability to different sampling rates, and are computationally inefficient. We introduce FlowState, a novel TSFM architecture that addresses these challenges through two key innovations: a state s...

ID: 2508.05287v1 cs.LG, cs.AI

arXiv PDF

📄 Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction

2025-08-09

Авторы:

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено новой парадигме создания автономных робототехнических систем, в которой роль центрального интеллекта играют фундаментальные модели — большие языковые модели (LLM) и зрительно-языковые модели (VLM). Традиционные подходы к построению поведения роботов опирались на жёстко заданные правила, конечные автоматы или узкоспециализированные нейросети, способные решать лишь заранее предопределённые задачи в ограниченных средах. Однако стремительное развитие фундаментальных моделей, обученных на масштабных интернет-данных, открыло возможность перенести универсальные способности к обобщению, рассуждению и пониманию естественного языка в физический мир. Появление моделей типа GPT-4, PaLM-E или Flamingo позволяет роботу интерпретировать человеческие инструкции в свободной форме, формировать высокоуровневые планы, запрашивать дополнительную информацию и даже самостоятельно исправлять ошибки. Однако интеграция этих моделей в реальные робототехнические системы сталкивается с рядом фундаментальных проблем. Во-первых, LLM/VLM демонстрируют «галлюцинации» и могут выдавать небезопасные или невыполнимые команды. Во-вторых, языковые модели оперируют токенами, тогда как роботам необходимы низкоуровневые сигналы управления (торques, joint angles, end-effector poses). В-третьих, отсутствует единая методология классификации и сравнения подходов: одни работы используют LLM как высокоуровневого планировщика, другие — как генератора кода, третьи — как унифицированный интерфейс к набору специализированных API. Наконец, поле развивается столь стремительно (еженедельно появляются новые open-source проекты, ROS-пакеты и промышленные фреймворки), что традиционные обзоры быстро устаревают. В статье предпринята попытка систематизировать как академические публикации, так и практические наработки сообщества, выделив архитектурные паттерны и предложив таксономию, способную вместить даже экспериментальные прототипы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию. На первом уровне формулируется таксономия, разделяющая все существующие решения по четырём осям: (1) «роль агента», (2) «глубина интеграции модели», (3) «уровень абстракции действий» и (4) «механизм обратной связи». Роль агента охватывает категории «планировщик» (LLM формирует последовательность подзадач), «координатор» (модель выбирает, какой из доступных модулей вызвать), «перцептор» (VLM извлекает семантику из сенсорных данных) и «универсальный интерфейс» (единая точка взаимодействия оператора и системы). Глубина интеграции варьируется от лёгкого «prompt-only» (LLM вызывается как внешняя API без дообучения) до «deep fine-tuning», где модель полностью переобучается на робототехнических датасетах. Уровень абстракции действий разделяет высокоуровневые символьные команды (например, «открой дверь»), среднеуровневые примитивы («схватить ручку») и низкоуровневые сигналы управления (joint torques). Обратная связь может быть лингвистической (успешность задачи описывается текстом), визуальной (сравнение «до/после» кадров) или цифровой (метрики измеряются скалярно). На втором уровне строится сравнительная таблица из 100+ проектов: от ранних работ 2022 года (PaLM-SayCan) до свежих open-source решений вроде ROS 2 GPT Integration или NVIDIA Isaac LLM Agent. Для каждого проекта фиксируется стек ПО (ROS 2, MoveIt, custom simulators), используемые модели (OpenAI GPT-4, Google PaLM-E, open-source LLaVA), типы сенсоров, пространство действий и репортированные метрики. Кроме того, авторы выделяют три архитектурных паттерна: (A) «LLM as Code Generator» (модель пишет Python-скрипты, которые затем исполняются средой), (B) «LLM as Policy Prior» (языковая модель задаёт распределение вероятностей над примитивами, которые уточняются RL или MPC), (C) «LLM as World-Model» (модель имитирует последствия действий и выбирает оптимальные). Предложенная таксономия динамическая: каждый новый проект может быть классифицирован по четырём признакам за

Annotation:

Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (BLMs) are increasing the dexterity and capabilities of robotic systems. This survey paper focuses on those words advancing towards agentic applications and architectures. This includes initial efforts exploring GPT-style interfaces to tooling, as...

ID: 2508.05294v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 VS-LLM: Visual-Semantic Depression Assessment based on LLM for Drawing Projection Test

2025-08-09

Авторы:

Meiqi Wu, Yaxuan Kang, Xuchen Li, Shiyu Hu, Xiaotang Chen, Yunfeng Kang, Weiqiang Wang, Kaiqi Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Для диагностики и оценки психического состояния человека в области психотерапии и психодиагностики широко используется тест на рисунки (Drawing Projection Test, DPT). Один из наиболее распространенных видов DPT — тематический тест "A Person Picking an Apple from a Tree" (PPAT), который позволяет выявить различные психологические состояния, включая депрессию. Через анализ рисунков можно получить глубокое понимание психического состояния человека, особенно когда они используют такие элементы, как цвета, пространственное расположение и другие визуальные аспекты. Однако, интерпретация рисунков в DPT требует больших усилий со стороны психологов, которые должны основываться на своем опыте и знаниях. Кроме того, тест PPAT имеет определенные ограничения: он выполняется под временным давлением, без возможности получения вербальных подсказок, что может приводить к неточностям в рисунках и отсутствию детальных описаний. В этой области исследования существует необходимость в разработке эффективных методов автоматизированного анализа рисунков, которые позволяют упрощать и улучшать процесс диагностики. Традиционные методы распознавания рисунков обычно сосредоточены на распознавании отдельных объектов, но DPT требует более широкого подхода, который учитывает общую оценку рисунков, включая использование цветов, пространственного расположения и других визуальных элементов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этих проблем, авторы предлагают метод Visual-Semantic Depression Assessment based on LLM (VS-LLM). Этот метод основывается на использовании технологии языковых моделей (LLM) для анализа визуально-семантических аспектов рисунков. Архитектура VS-LLM включает в себя несколько ключевых компонентов: 1. **Визуальный анализ**: Метод анализирует визуальные элементы рисунков, такие как использование цветов, пространственное расположение объектов и общую композицию. Эти элементы играют важную роль в оценке психологического состояния. 2. **Семантический анализ**: Дополнительно к визуальным аспектам, метод учитывает семантические элементы, такие как выбор объектов, их размеры, формы и их взаимодействие. Это позволяет получить более глубокий инсайт в психическое состояние человека. 3. **Интеграция LLM**: Языковые модели используются для обработки и анализа данных, полученных из рисунков. LLM позволяет создавать более точные модели для оценки психического состояния, основываясь на комплексном анализе визуальных и семантических данных. 4. **Автоматизированная система**: Авторы также разработали систему, которая позволяет автоматизировать процесс анализа рисунков, что значительно упрощает работу психологов и повышает эффективность диагностики. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода VS-LLM были проведены эксперименты на базе данных рисунков, собранных в рамках тестирования PPAT. Данные включали рисунки, созданные участниками теста, которые были подвергнуты анализу с помощью предложенного метода. Результаты показали, что метод VS-LLM достигает значительного улучшения по сравнению со знаниями психологов. Конкретно, VS-LLM показал лучшие результаты на 17.6% по сравнению с традиционным методом оценки психологами. Это улучшение связано с более точным анализом визуальных и семантических элементов рисунков, который позволяет выявить более точные характеристики психического состояния. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое применение в области психологической диагностики. Он может быть использован для большого количества задач, таких как: - **Диагностика депрессии**: VS-LLM позволяет быстро и точно оценивать психическое состояние человека на основе его рисунков. - **Психотерапия и консультирование**: Метод может быть использован для поддержки психотерапевтических сессий, помогая психологам лучше понять состояние пациентов. - **Автоматизация процессов**: Автоматическая система упрощает работу психологов, позволяя им сосредоточиться на более сложных аспектах диагностики. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод VS-LLM, который улучшает процесс оценки психического состояния человека на основе рисунков. Этот метод демонстрирует высокую эффективность и может быть применен в различных областях психологии и психотерапии. В будущем, дальнейшее исследование может быть направлено на улучшение точности и расширение областей применения данного метода, а также на интеграцию с другими методами диагностики психического состояния.

Annotation:

The Drawing Projection Test (DPT) is an essential tool in art therapy, allowing psychologists to assess participants' mental states through their sketches. Specifically, through sketches with the theme of "a person picking an apple from a tree (PPAT)", it can be revealed whether the participants are in mental states such as depression. Compared with scales, the DPT can enrich psychologists' understanding of an individual's mental state. However, the interpretation of the PPAT is laborious and de...

ID: 2508.05299v1 cs.CV, cs.AI

arXiv PDF

📄 Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces

2025-08-09

Авторы:

Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено фундаментальной проблеме моделирования музыкального ожидания и удивления (surprisal) на основе аудиосигналов. В области музыкальной психологии и когнитивных наук музыкальное удивление рассматривается как ключевой механизм восприятия, который формирует эстетический опыт и структурное понимание музыкальных произведений. Традиционные подходы к оценке музыкального удивления опирались на символьные представления (нотные записи, MIDI) или извлеченные вручную признаки, что ограничивало их применимость к произвольной аудиозаписи. Недавнее исследование внедрило концепцию информационного содержания (Information Content, IC) предсказаний от Generative Infinite-Vocabulary Transformer (GIVT) для моделирования музыкального ожидания непосредственно из аудио. Этот подход продемонстрировал многообещающие результаты, однако страдал от ограничений, связанных с природой трансформерной архитектуры и способами моделирования вероятностного распределения аудиоданных. GIVT, будучи автопрессивной моделью, может не полностью захватывать сложные зависимости в аудиосигналах и имеет ограниченную способность моделировать многомодальные распределения. Авторы статьи поднимают критически важные вопросы: насколько эффективно моделирование информационного содержания может быть реализовано через альтернативные архитектуры, и существуют ли более мощные способы оценки музыкального удивления напрямую из аудио. Особое внимание уделяется выявлению связи между удивлением на различных уровнях абстракции (от низкоуровневых акустических признаков до высокоуровневых музыкальных структур) и характеристиками процесса денойзинга в диффузионных моделях. Это открывает перспективы создания более тонких и контекстуально обусловленных моделей музыкального восприятия. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать автопрессивные диффузионные модели (Autoregressive Diffusion Models, ADMs) в качестве основы для оценки информационного содержания музыкальных аудиозаписей. Методология строится на использовании двух различных диффузионных обыкновенных дифференциальных уравнений (ODEs) для моделирования процесса денойзинга, что позволяет получать более точные оценки правдоподобия по сравнению с GIVT. Ключевой инновацией является гипотеза о том, что оценка удивления на различных уровнях шума в процессе денойзинга соответствует удивлению, связанному с музыкальными и акустическими признаками различной гранулярности. Это означает, что в начальных стадиях денойзинга (высокий уровень шума) модель фокусируется на глобальных структурных характеристиках музыкального фрагмента, тогда как в поздних стадиях (низкий уровень шума) - на мелких деталях и тонких акустических особенностях. Архитектура ADM реализуется через последовательное предсказание параметров распределения шума на каждом временном шаге диффузионного процесса. Информационное содержание вычисляется как отрицательный логарифм правдоподобия наблюдаемого аудиофрагмента при заданных параметрах модели. Это позволяет количественно оценить, насколько "неожиданным" является конкретный музыкальный фрагмент с точки зрения обученной модели. Для валидации метода используются две специализированные задачи: (1) оценка удивления в монофонических мелодических последовательностях, где ожидается, что высокое IC будет соответствовать неожиданным изменениям в мелодической линии, и (2) обнаружение границ музыкальных сегментов в многодорожечной аудиозаписи, где границы должны соответствовать локальным максимумам удивления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включает сравнительный анализ производительности ADMs и GIVT на двух специализированных задачах, а также оценку качества моделирования вероятностных распределений на разнообразных аудиоданных. На первом этапе исследовалась способность моделей захватывать удивление в монофонических питч-последовательностях. Для этого использовались наборы данных с аннотированными мелодиями, где удивление определялось как статистическая неожиданность следующего питча при заданном контексте. Результаты пок

Annotation:

Recently, the information content (IC) of predictions from a Generative Infinite-Vocabulary Transformer (GIVT) has been used to model musical expectancy and surprisal in audio. We investigate the effectiveness of such modelling using IC calculated with autoregressive diffusion models (ADMs). We empirically show that IC estimates of models based on two different diffusion ordinary differential equations (ODEs) describe diverse data better, in terms of negative log-likelihood, than a GIVT. We eval...

ID: 2508.05306v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 ASkDAgger: Active Skill-level Data Aggregation for Interactive Imitation Learning

2025-08-09

Авторы:

Jelle Luijkx, Zlatan Ajanović, Laura Ferranti, Jens Kober

## КОНТЕКСТ И ПРОБЛЕМАТИКА Имитационное обучение является ключевым подходом в области машинного обучения, где агент учится выполнять задачи, имитируя поведение эксперта. Однако в интерактивном имитационном обучении (Interactive Imitation Learning, IIL), требуется значительный уровень взаимодействия с человеческим экспертом, что представляет собой существенное ограничение для широкого применения этого метода. Традиционные методы IIL часто опираются на активное обучение (Active Learning), чтобы сократить количество необходимых запросов к эксперту, фокусируясь на ситуациях, характеризующихся высокой неопределенностью, риском или новизной. Однако, в этих ситуациях, запланированные действия новичка (новичковские действия) обычно не используются, несмотря на то, что они могут содержать ценную информацию о возможностях и уровне неопределенности новичка. Проблема заключается в том, что традиционные подходы не позволяют эффективно использовать новичковские действия для улучшения процесса обучения. Это приводит к неоптимальному использованию ресурсов и повышенной необходимости в человеческом вмешательстве. Чтобы решить эту проблему, необходимо разработать метод, который не только сократит количество запросов к эксперту, но и будет эффективно использовать новичковские действия для улучшения процесса обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый метод под названием **Active Skill-level Data Aggregation (ASkDAgger)**, который использует обратную связь от учителя (эксперта) по отношению к запланированным действиям новичка. Этот метод включает в себя три основных компонента: 1. **S-Aware Gating (SAG)**: Этот компонент регулирует пороговые значения для отбора данных, основываясь на чувствительности, специфичности и минимальной скорости успешного выполнения. Это позволяет адаптировать процесс отбора данных к текущему уровню способностей новичка. 2. **Foresight Interactive Experience Replay (FIER)**: Этот компонент преобразует запланированные действия новичка в демонстрации, которые могут быть использованы для последующего обучения. Это позволяет использовать даже неудачные попытки новичка как ценный источник информации. 3. **Prioritized Interactive Experience Replay (PIER)**: Этот компонент оптимизирует процесс повторного использования данных, определяя приоритеты на основе уровня неопределенности, успешности новичка и возраста демонстраций. Это помогает сократить количество требуемых демонстраций и ускорить адаптацию агента к изменяющимся условиям. Общая архитектура ASkDAgger построена так, чтобы сбалансировать частоту запросов к эксперту и частоту неудачных попыток, уменьшить количество необходимых демонстраций и улучшить обобщающую способность агента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода ASkDAgger были проведены эксперименты на задачах манипуляции, управляемых языком, как в симуляционном, так и в реальном мире. Эксперименты показали, что ASkDAgger уменьшает количество необходимых запросов к эксперту, одновременно повышая успешность выполнения задач и скорость адаптации агента. В экспериментах использовались данные, полученные из симулятора и реального окружения, для моделирования различных сценариев взаимодействия между новичком и экспертом. Результаты показали, что ASkDAgger не только сокращает количество запросов к эксперту, но также повышает качество данных, используемых для обучения, благодаря эффективному использованию новичковских действий. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод ASkDAgger имеет значительное практическое применение в областях, где необходимо обучение агентов на основе демонстраций эксперта. Он может быть использован в таких доменах, как робототехника, автономные транспортные системы и интерактивные системы обучения. Преимущества ASkDAgger включают в себя сокращение частоты запросов к эксперту, улучшение качества обучения и быструю адаптацию к изменяющимся условиям. Потенциальное влияние этого метода заключается в упрощении процесса обучения агентов, что может привести к более широкому использованию имитационного обучения в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ASkDAgger представляет собой значительный шаг вперед в области имитационного обучения, позволяющий эффективно использовать новичковские действия для улучшения процесса обучения. Основные достижения этого метода включают в себя сокращение количества запросов к эксперту, повышение качества обучения и ускорение адаптации агента. В будущем, дальнейшие исследования могут фокусироваться на расширении этого метода для более сложных задач и доменов, а также на интеграции ASkDAgger с другими методами имитационного обучения для дальнейшего улучшения производительности.

Annotation:

Human teaching effort is a significant bottleneck for the broader applicability of interactive imitation learning. To reduce the number of required queries, existing methods employ active learning to query the human teacher only in uncertain, risky, or novel situations. However, during these queries, the novice's planned actions are not utilized despite containing valuable information, such as the novice's capabilities, as well as corresponding uncertainty levels. To this end, we allow the novic...

ID: 2508.05310v1 cs.LG, cs.AI, cs.HC, cs.RO, 68T05, I.2.6; I.2.8; I.2.9

arXiv PDF

📄 A Novel Architecture for Symbolic Reasoning with Decision Trees and LLM Agents

2025-08-09

Авторы:

Andrew Kiruluta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие искусственного интеллекта в области глубокого обучения привело к значительным успехи в обработке естественного языка, но эти модели часто сталкиваются с ограничениями в области символического резонирования, причинно-следственного анализа и интерпретируемости. Традиционные нейронные сети, в том числе крупные языковые модели (LLMs), превосходны в обработке неструктурированных данных, но страдают от недостатков в области логического вывода и обработки структурированных данных. Другой подход, символический вывод, хорошо подходит для обработки логических и семантических задач, но более слаб в обработке неструктурированных данных и обобщении. В последние годы возрос интерес к созданию гибридных систем, которые объединяют сильные стороны нейросетевых и символических подходов. Однако многие существующие решения имеют слабую интеграцию между модулями, что приводит к потере консистентности и снижению эффективности. Кроме того, многие системы не позволяют эффективно использовать символические модули в реальном времени, что ограничивает их применимость в задачах, требующих высокой интерактивности и контекстуального вывода. Данная работа предлагает новую архитектуру, которая интегрирует символические модули, такие как деревья решений и случайные леса, с нейросетевыми моделями в рамках единой системы. Целью этой интеграции является создание гибридной системы, которая обеспечивает интерпретируемость, логическую консистентность и высокую эффективность в решении задач, требующих как нейронного, так и символического вывода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенная архитектура основывается на интеграции деревьев решений и случайных лесов в качестве вызываемых оракулов в рамках координированной многоагентной системы. Деревья решений используются для представления логических правил и причинно-следственных отношений, а случайные леса обеспечивают устойчивость и точность в выводе. Эти модули встраиваются в систему как компоненты, которые могут быть вызваны в любой момент времени для проведения логического вывода. В качестве нейросетевого компонента используются крупные языковые модели (LLMs), которые отвечают за абдуктивный вывод, обобщение и интерактивное планирование. LLMs обрабатывают неструктурированные данные и генерируют контекстуальные предложения, которые затем интегрируются с выводом из деревьев решений. Центральной частью системы является оркестратор, который поддерживает консистентность состояния убеждений и координирует взаимодействие между агентами и внешними инструментами. Оркестратор обеспечивает контекстуальную интеграцию вывода из разных модулей, позволяя системе эффективно работать с как структурированными, так и неструктурированными входными данными. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Система была протестирована на нескольких резонированию бенчмарках. На бенчмарке ProofWriter система показала улучшение консистентности вывода на +7.2% за счет проверки логических правил с помощью деревьев решений. На бенчмарке GSM8k, посвященном многошаговым математическим задачам, система достигла увеличения точности на +5.3% благодаря использованию символического аугментирования. На бен

Annotation:

We propose a hybrid architecture that integrates decision tree-based symbolic reasoning with the generative capabilities of large language models (LLMs) within a coordinated multi-agent framework. Unlike prior approaches that loosely couple symbolic and neural modules, our design embeds decision trees and random forests as callable oracles within a unified reasoning system. Tree-based modules enable interpretable rule inference and causal logic, while LLM agents handle abductive reasoning, gener...

ID: 2508.05311v1 cs.AI, cs.CL

arXiv PDF

📄 mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering

2025-08-09

Авторы:

Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Retrieval-Augmented Generation (RAG) стал ключевым подходом для расширения внутреннего знания Многомодальных Больших Языковых Моделей (МБЯМ) путем интеграции внешних баз знаний в процесс генерации, что широко применяется в задачах Знаний-ориентированного Ответа на Вопросы с Изображениями (VQA). Несмотря на значительные достижения в этой области, традиционные методы RAG, основанные на неструктурированных документах, часто игнорируют структурные отношения между элементами знаний. Это приводит к возникновению неуместной или вводящей в заблуждение информации, что снижает точность и надежность ответов. Данная проблема особенно актуальна в контексте задач VQA, где точность ответов критически важна. Неспособность существующих методов эффективно обрабатывать структурированные отношения между различными модальностями (такими как текст и изображения) является ключевой проблемой. Кроме того, многие существующие подходы не могут эффективно интегрировать многомодальные знания в процесс генерации, что ограничивает их применимость в реальных сценариях. В связи с этим возникает потребность в разработке новых методологий, которые могут эффективно интегрировать структурированные многомодальные знания в RAG-based VQA системы для улучшения точности и надежности ответов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе авторы предлагают новый метод mKG-RAG, основанный на многомодальных знаниях для улучшения задач VQA. Основная идея заключается в интеграции многомодальных графов знаний (multimodal KGs) в RAG-based VQA фреймворк для обеспечения более точной и структурированной генерации ответов. mKG-RAG использует модели Многомодальных Больших Языковых Моделей (MLLM) для извлечения ключевых слов и оптимизации соответствия текста и изображений. Этот процесс позволяет выделить семантически согласованные и модальностью-алгоритмически оптимизированные сущности и отношения из многомодальных документов. Затем эти сущности и отношения используются для построения высококачественных многомодальных графов знаний (KGs), которые служат структурированным представлением знаний. Кроме того, авторы предлагают двухступенчатую стратегию извлечения, оснащенную вопрос-зависимым многомодальным ретриевером (question-aware multimodal retriever). Эта стратегия позволяет улучшить эффективность извлечения информации и повысить точность получаемых результатов. Этот метод также обеспечивает более точное сопоставление вопроса с соответствующими элементами знаний в многомодальном графе. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексные эксперименты для оценки эффективности mKG-RAG по сравнению с существующими методами. Были использованы различные наборы данных для задач VQA, которые включали как текстовую, так и визуальную информацию. Результаты экспериментов показали, что mKG-RAG значительно превосходит существующие методы показателями точности и надежности ответов. В частности, mKG-RAG показал лучшие результаты в условиях, где вопросы требовали интеграции знаний из различных модальностей. Двухступенчатая стратегия извлечения также показала свою эффективность в обеспечении высокой точности поиска и извлечения релевантных элементов знаний. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ mKG-RAG имеет широкие возможности применения в реальных сценариях, где критически важна точность ответов на вопросы, основанные на многомодальных данных. Этот метод может быть использован в различных областях, таких как медицинские диагностики, системы поддержки решений, интеллектуальные помощники, и других приложениях, требующих интеграции структурированных многомодальных знаний. Основными преимуществами mKG-RAG является его способность обрабатывать сложные взаимосвязи между различными модальностями знаний, что позволяет получать более точные и релевантные ответы. Это может существенно повысить эффективность и надежность систем, основанных на VQA, в различных прикладных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод mKG-RAG, который интегрирует многомодальные графы знаний в RAG-based VQA фреймворк для улучшения точности и надежности ответов. Эксперименты показали, что этот метод значительно превосходит существующие подходы в задачах VQA. В будущем могут быть исследованы другие способы улучшения mKG-RAG, такие как интеграция дополнительных модальностей знаний, улучшение моделей извлечения и генерации, а также применение этого подхода к другим типам задач, требующих интеграции многомодальных знаний.

Annotation:

Recently, Retrieval-Augmented Generation (RAG) has been proposed to expand internal knowledge of Multimodal Large Language Models (MLLMs) by incorporating external knowledge databases into the generation process, which is widely used for knowledge-based Visual Question Answering (VQA) tasks. Despite impressive advancements, vanilla RAG-based VQA methods that rely on unstructured documents and overlook the structural relationships among knowledge elements frequently introduce irrelevant or mislea...

ID: 2508.05318v1 cs.CV, cs.AI

arXiv PDF

📄 Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression

2025-08-09

Авторы:

Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Reasoning Language Models (LRLMs) стали важной составляющей для решения сложных задач вывода, используя методы chain-of-thought reasoning. Эти модели генерируют длинные последовательности логических шагов, обычно спускаясь в детали, чтобы достичь более точных решений. Однако, эффективность такого подхода становится все более проблематичной по причине растущего количества циклов рефлексии, вызванных определенными триггер-словами, такими как "Wait" («Ждите») и "Alternatively" («Иначе»). Эти рефлексивные поведения, хоть и помогают улучшить результаты в некоторых случаях, часто приводят к **overthinking problem** – генерации избыточных шагов вывода, которые не несут дополнительной полезности, но значительно увеличивают количество токенов, время выполнения и стоимость вычислений. Проблема в том, что излишняя рефлексия может не только повысить затраты на вычисления, но и ухудшить практическую применимость LRLMs, особенно в ситуациях, где время отклика и эффективность критичны. Таким образом, необходимо разработать методы, которые бы позволили контролировать и оптимизировать процесс рефлексии в моделях, сохраняя при этом высокое качество результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод под названием **Certainty-Guided Reflection Suppression (CGRS)**, который направлен на уменьшение излишней рефлексии в LRLMs. Основная идея заключается в том, чтобы динамически подавлять генерацию рефлексивных триггеров в моменты, когда модель выражает высокую уверенность в своем текущем ответе. Это позволяет избежать ненужных циклов рефлексии без ущерба для качества вывода. CGRS работает как дополнение к существующим autoregressive generation pipelines, не требуя модификации архитектуры модели или дополнительного тренировочного процесса. Алгоритм основывается на оценке уверенности модели в каждом шаге вывода. Если уровень уверенности превышает заданный порог, то генерация рефлексивных триггеров прекращается, что эффективно предотвращает излишнюю генерацию. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на четырех различных бенчмарках резонанса: **AIME24**, **AMC23**, **MATH500** и **GPQA-D**. Результаты показали, что CGRS способен значительно сократить количество токенов, необходимых для генерации ответов, при этом сохраняя точность вывода. В среднем, эффективность сокращения токенов составила от 18.5% до 41.9% в зависимости от задачи и модели. Кроме того, эксперименты показали, что CGRS эффективен на различных архитектурах моделей (DeepSeek-R1-Distill, QwQ-32B, Qwen3) и в различных диапазонах размеров моделей (от 4B до 32B параметров). Это демонстрирует универсальность и скалируемость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CGRS имеет значительное практическое значение для повышения эффективности LRLMs в реальных приложениях. Уменьшение количества токенов не только снижает вычислительные затраты, но также улучшает время отклика моделей, что критично для задач, требующих быстрых решений. Кроме того, метод легко интегрируется в существующие пайплайны, что делает его пригодным для широкого круга приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод CGRS, который эффективно снижает излишнюю рефлексию в LRLMs, сохраняя при этом высокий уровень точности. Будущие исследования могут фокусироваться на дальнейшей оптимизации таких моделей, в том числе на адаптации CGRS к более широкому спектру задач и доменов. Также, исследование влияния других факторов, таких как тип задачи и контекст, может помочь в улучшении эффективности метода.

Annotation:

Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Supp...

ID: 2508.05337v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 The Term 'Agent' Has Been Diluted Beyond Utility and Requires Redefinition

2025-08-09

Авторы:

Brinnae Bent

Название: The Term 'Agent' Has Been Diluted Beyond Utility and Requires Redefinition Авторы: Brinnae Bent ## КОНТЕКСТ И ПРОБЛЕМАТИКА В области искусственного интеллекта (ИИ) термин "agent" (агент) имеет длительную историю использования, но его значение становится все более размытым из-за разнообразных толкований в различных поддисциплинах. Исходно, термин обозначал систему, способную выполнять действия в окружающей среде для достижения определенных целей. Однако, с ростом сложности ИИ-систем, особенно с появлением больших языковых моделей (Large Language Models, LLM), термин стал использоваться в широком диапазоне контекстов, что привело к неоднозначности и путанице в научном общении, оценке систем, воспроизводимости и разработке политик. Проблема заключается в том, что термин "agent" часто используется без четкого определения, что создает трудности для точного общения научных идей. Например, в некоторых контекстах "agent" может означать простую программу, выполняющую заданные действия, тогда как в других случаях он может относиться к системам с высокой степенью автономности и способностью к обучению и адаптации. Такая неопределенность может привести к несогласованности в научных публикациях, что затрудняет сравнение и оценку различных ИИ-систем. Авторы статьи подчеркивают необходимость пересмотра и переопределения термина "agent" для того, чтобы создать более точный и согласованный язык для описания ИИ-систем. Они предлагают подход, основанный на историческом анализе и современных тенденциях в использовании термина, чтобы определить четкие критерии, по которым система может быть классифицирована как агент. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк, который определяет минимальные требования для того, чтобы система могла быть классифицирована как "агент". Этот фреймворк включает в себя несколько ключевых аспектов, таких как **взаимодействие с окружающей средой**, **способность к обучению и адаптации**, **автономность**, **сложность целей** и **временная когерентность**. 1. **Взаимодействие с средой**: Агент должен быть способен взаимодействовать с окружающей средой, получать информацию и производить действия, которые влияют на среду. 2. **Способность к обучению и адаптации**: Агент должен иметь возможность обучаться на основе своих взаимодействий и адаптироваться к изменениям в среде. 3. **Автономность**: Агент должен быть способен принимать решения и выполнять действия без непосредственного вмешательства человека. 4. **Сложность целей**: Агент должен быть способен работать с комплексными, многоступенчатыми целями, которые могут изменяться со временем. 5. **Временная когерентность**: Агент должен поддерживать когерентность в своих действиях и решениях в течение определенного периода времени. Этот фреймворк также предлагает характеризовать системы вдоль нескольких измерений, чтобы создать более точное описание их свойств и возможностей. Это позволяет избежать однозначного определения "агента", но в то же время сохраняет его многофакторный характер. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы не предоставляют конкретных экспериментальных данных, но они проводят анализ существующих исследований и примеров ИИ-систем для демонстрации преимуществ их фреймворка. Они используют различные случаи из литературы и практических приложений ИИ для иллюстрации того, как их фреймворк может быть применен к разным типам систем. Например, они рассматривают системы, такие как боты для обработки естественного языка, которые могут быть классифицированы как "агенты" по определенным критериям, но не по другим. Это демонстрирует важность их многомерного подхода к определению "агента". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый фреймворк имеет многообразные практические применения. Во-первых, он помогает улучшить четкость и согласованность в научном общении, что важно для того, чтобы исследователи и разработчики могли точно описывать и сравнивать различные ИИ-системы. Это также может повысить воспроизводимость исследований, поскольку более точные определения позволят исследователям более точно описать свои методологии и результаты. Кроме того, фреймворк может быть полезен в области политики и регулирования ИИ. Четкое определение "агента" может помочь в разработке политик, связанных с автономными системами, особенно в контексте безопасности и этики ИИ. Наконец, фреймворк может быть использован в областях, таких как роботизация, автономные транспортные системы, и другие, где точное определение агентских систем критично для успешной реализации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы заключают, что термин "agent" требует переопределения для сохранения его полезности и точности в научном контексте. Они предлагают фреймворк, который позволяет характеризовать системы на основе нескольких критериев, чтобы создать более точное и согласованное определение. В будущем, авторы предлагают продолжить работу над стандартизацией терминологии в области ИИ и расширять использование их фреймворка для описания различных типов систем. Они также выделяют необходимость дальнейших исследований в области этики и политики ИИ, где четкое определение "агента" играет важную роль. В целом, этот подход может способствовать более четкому и последовательному развитию области ИИ, улучшив общение, оценку и регулирование систем, которые могут быть классифицированы как "агенты".

Annotation:

The term 'agent' in artificial intelligence has long carried multiple interpretations across different subfields. Recent developments in AI capabilities, particularly in large language model systems, have amplified this ambiguity, creating significant challenges in research communication, system evaluation and reproducibility, and policy development. This paper argues that the term 'agent' requires redefinition. Drawing from historical analysis and contemporary usage patterns, we propose a frame...

ID: 2508.05338v1 cs.AI, cs.CY

arXiv PDF

1
2
3385
3386
3387
3388
3389
3402
3403

Показано 33861 - 33870 из 34022 записей