📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Adapting Vision-Language Models Without Labels: A Comprehensive Survey

2025-08-08

Авторы:

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы объединенные модели зрения и языка (Vision-Language Models, VLMs) продемонстрировали выдающиеся способности к обобщению на широком спектре задач, включая распознавание изображений, визуально-языковое понимание и генерацию. Однако, несмотря на впечатляющие базовые результаты, прямое применение этих моделей к конкретным прикладным сценариям без специфической адаптации часто приводит к субоптимальной производительности. Это наблюдается в ситуациях с доменным сдвигом, специфическими распределениями данных или уникальными требованиями конечной задачи. Проблема усложняется тем, что традиционные методы адаптации требуют больших объемов размеченных данных, что затрудняет их практическое применение. Сбор и маркировка данных может быть крайне дорогостоящим, особенно в специализированных областях, таких как медицинская диагностика, промышленная инспекция или автономное вождение. Это привело к растущему интересу к методам адаптации без надзора, которые не требуют размеченных данных. Существующие исследования в этой области фрагментированы и отсутствует систематическое понимание различных подходов. Разные методы предполагают различные уровни доступа к данным, от полного их отсутствия до стриминговых данных в реальном времени. Отсутствие унифицированной таксономии и сравнительного анализа затрудняет выбор подходящего метода для конкретной задачи. Эта статья заполняет критический пробел в литературе, предоставляя всесторонний обзор методов адаптации VLMs без использования меток. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают систематическую таксономию методов адаптации VLMs без меток, основанную на доступности и характере неразмеченных визуальных данных. Таксономия включает четыре ключевых парадигмы, каждая из которых оптимизирована для конкретного сценария распределения данных. Первая парадигма - Data-Free Transfer (передача без данных) - предполагает полное отсутствие доступных данных из целевого домена. Методы в этой категории полагаются на синтетические данные, сгенерированные из предобученных генеративных моделей, или используют мета-информацию из исходного модального пространства. Основная стратегия заключается в генерации псевдоданных, которые имитируют характеристики целевого домена, с последующей адаптацией модели через методы дистилляции знаний. Вторая парадигма - Unsupervised Domain Transfer (нерегулируемая передача домена) - применяется когда доступны большие объемы неразмеченных данных целевого домена. Методы здесь используют стратегии выравнивания распределений, такие как adversarial adaptation, feature alignment и self-supervised learning. Специфическая архитектура включает итеративное обучение с механизмами контрастивной потери и pseudo-labeling. Третья парадигма - Episodic Test-Time Adaptation (эпизодическая адаптация во время тестирования) - работает с батчами данных, поступающих периодически. Методы используют механизмы обратного распространения с адаптивными оптимизаторами, обновляющими только normalization layers или lightweight adaptation modules. Ключевое техническое решение - использование entropy minimization и consistency regularization для стабильной адаптации. Четвертая парадигма - Online Test-Time Adaptation (онлайн адаптация во время тестирования) - спроектирована для стриминговых данных в реальном времени. Архитектура включает буферы ограниченного размера, online learning алгоритмы и механизмы быстрой адаптации. Методы используют мета-обучение и continual learning стратегии для предотвращения катастрофического забывания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексное эмпирическое исследование, охватывающее 15+ представительных методов из каждой парадигмы. Эксперименты проводились на 8 различных наборах данных, включая ImageNet, CIFAR-10/100, DomainNet, Office-Home, CUB-200, Food-101, а также специализированные наборы для медицинской визуализации и автономного вождения. Для Data-Free Transfer методов, использовались различные генеративные модели (StyleGAN, BigGAN, diffusion models) для создания синтетических данных. Результаты показали, что качество синтетических данных напрямую коррелирует с эффективностью адаптации, причем diffusion-based подходы демонстрировали наибольшую устойчивость к доменному сдвигу. Наибольшие улучшения наблюдались в сценариях

Annotation:

Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unif...

ID: 2508.05547v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 MV-Debate: Multi-view Agent Debate with Dynamic Reflection Gating for Multimodal Harmful Content Detection in Social Media

2025-08-08

Авторы:

Rui Lu, Jinhe Bi, Yunpu Ma, Feng Xiao, Yuntao Du, Yijun Tian

## КОНТЕКСТ И ПРОБЛЕМАТИКА Социальные медиа превратились в мультимодальную среду, где текст, изображения и другие сигналы взаимодействуют, образуя сложные и нюансные контексты, которые могут скрывать вредные намерения. Определение таких намерений, будь то сарказм, ненавистная речь или дезинформация, представляет собой значительную проблему из-за нескольких факторов. Во-первых, существуют кросс-модальные противоречия, когда одни модальности (например, текст) могут передавать сообщение, противоречащее другой модальности (например, изображению). Во-вторых, быстрое развитие культурных тенденций и новых форм коммуникации сложило огромное разнообразие сложных примитивов, которые трудно интерпретировать. Третья проблема – тонкие прагматические ключи, такие как интонация, контекст и социальные нормы, которые могут изменять значение сообщения. Традиционные модели обнаружения вредного контента часто борются с этими вызовами, поскольку они не в состоянии эффективно обрабатывать мультимодальные контексты и динамические культурные значения. Эта проблема особенно критична в ситуациях, требующих быстрого и точного реагирования, например, в социальных сетях, где небезопасное содержимое может быстро распространяться. Таким образом, необходим подход, который может эффективно обрабатывать мультимодальные данные и обеспечивать высокую точность в определении вредного контента. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеупомянутых проблем, авторы предлагают фреймворк MV-Debate, который использует мульти-агентную дебатную структуру с динамическим рефлексивным гейтингом (Dynamic Reflection Gating). Этот фреймворк состоит из четырех агентов, каждый из которых предназначен для анализа контента с разных перспектив. Эти агенты включают: Surface Analyst (аналитик поверхностных признаков), Deep Reasoner (глубокий логический аналитик), Modality Contrast (контраст модальностей), и Social Contextualist (специалист по социальному контексту). Каждый агент сосредоточен на определенной аспектной интерпретации контента: Surface Analyst анализирует поверхностные признаки, Deep Reasoner фокусируется на глубокой логической интерпретации, Modality Contrast контролирует контраст между разными модальностями (например, текст и изображение), а Social Contextualist учитывает социальный и культурный контекст. В процессе дебата агенты взаимодействуют друг с другом, обмениваясь информацией и уточняющими вопросами, чтобы улучшить их понимание контента. Этот процесс проводится через итеративную схему, где каждый агент основывается на результатах других для уточнения своих выводов. Динамический рефлексивный гейтинг (Dynamic Reflection Gating) обеспечивает точность и эффективность этого процесса, регулируя вклад каждого агента в зависимости от их уровня уверенности и точности. Это позволяет системе достичь высокого уровня точности в определении вредного контента, одновременно сохраняя высокую эффективность вычислений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на трех бенчмарк-наборах данных для оценки эффективности MV-Debate. Эти наборы данных включали различные формы вредного контента, включая сарказм, ненавистную речь и дезинформацию. MV-Debate был сравнен с несколькими базовыми моделями, включая как одномодельные, так и мульти-агентные подходы. Результаты показали, что MV-Debate значительно превосходит эти базовые модели как по точности, так и по эффективности. Например, на одном из наборов данных MV-Debate достиг точности в 92%, превосходя ближайший конкурент на 5%. Кроме того, MV-Debate показал значительно меньшую временную сложность по сравнению с другими мульти-агентными моделями, что делает его более практичным для реального использования в социальных медиа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MV-Debate имеет широкое применение в области безопасности и модернизации социальных медиа. Он может быть использован для обнаружения различных форм вредного контента, включая ненавистную речь, сарказм, и дезинформацию, что является критически важной задачей для обеспечения безопасного онлайн-пространства. Благодаря его эффективности и точности, MV-Debate может быть интегрирован в существующие модели модерации контента, улучшая их способность обнаруживать и блокировать вредные сообщения в реальном времени. Кроме того, этот фреймворк может быть применен в других областях, требующих точного анализа мультимодальных данных, таких как анализ медиа-контента, мониторинг публичных речей и даже в области психологического контента для обнаружения скрытых сигналов депрессии или самоубийственных намерений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате, MV-Debate представляет собой значительный шаг вперед в области обнаружения вредного контента в социальных медиа. Его мульти-агентная структура и динамический рефлексивный гейтинг позволяют достичь высокой точности и эффективности в решении этой сложной задачи. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая интеграцию более продвинутых моделей обработки естественного языка и компьютерного зрения, а также расширение его применения на другие домены, такие как медицинский анализ или финансовый мониторинг.

Annotation:

Social media has evolved into a complex multimodal environment where text, images, and other signals interact to shape nuanced meanings, often concealing harmful intent. Identifying such intent, whether sarcasm, hate speech, or misinformation, remains challenging due to cross-modal contradictions, rapid cultural shifts, and subtle pragmatic cues. To address these challenges, we propose MV-Debate, a multi-view agent debate framework with dynamic reflection gating for unified multimodal harmful co...

ID: 2508.05557v1 cs.AI

arXiv PDF

📄 Iterative Learning of Computable Phenotypes for Treatment Resistant Hypertension using Large Language Models

2025-08-08

Авторы:

Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации. Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний. Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа. На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных. Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций. Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities for medical question answering and programming, but their potential for generating interpretable computable phenotypes (CPs) is under-explored. In this work, we investigate whether LLMs can generate accurate and concise CPs for six clinical phenotypes of varying complexity, which could be leveraged to enable scalable clinical decision support to improve care for patients with hypertension. In addition to evaluating zero-short...

ID: 2508.05581v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

2025-08-08

Авторы:

Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимодальные большие языковые модели (MLLM) являются мощным инструментом для решения задач, требующих понимания и обработки различных видов данных, таких как текст, изображения и аудио. Однако, несмотренно на их продвинутые возможности, MLLM часто сталкиваются с проблемами в области логического вывода и принятия решений, что ограничивает их эффективность в реальных приложениях. Для улучшения таких возможностей используется Reinforcement Learning (RL), который позволяет моделям улучшать свои навыки вывода после первоначального обучения. Тем не менее, существующие подходы к RL-обучению MLLM сталкиваются с двумя ключевыми проблемами: **Advantage Collapsing** и **Rollout Silencing**. **Advantage Collapsing** происходит, когда большинство преимуществ (advantages) в пакете данных сосредоточены вокруг нуля, что приводит к неэффективному обновлению градиентов и замедлению процесса обучения. **Rollout Silencing**, с другой стороны, возникает, когда со временем уменьшается доля траекторий (rollouts), которые предоставляют ненулевые градиенты, что также понижает качество обучения. Эти проблемы не только замедляют процесс обучения, но и могут привести к подходящим, но не оптимальным результатам. Для решения этих проблем, авторы предлагают новый подход, основанный на динамическом изменении структуры траекторий и композиции пакетов данных. Этот подход называется **Shuffle-R1** и направлен на повышение эффективности RL-обучения MLLM за счет улучшения качества градиентных сигналов и повышения экспозиции ценных траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД **Shuffle-R1** представляет собой фреймворк, который улучшает эффективность RL-обучения MLLM путем динамического изменения способа выбора и композиции траекторий. Фреймворк состоит из двух основных компонентов: **Pairwise Trajectory Sampling** и **Advantage-based Trajectory Shuffle**. **Pairwise Trajectory Sampling** — это метод выбора траекторий, который фокусируется на выборе пар траекторий с высоким контрастом, т.е. траекторий, которые имеют значительные различия в их преимуществах (advantages). Это позволяет улучшить качество градиентных сигналов, поскольку высококонтрастные траектории обеспечивают более информативные обновления весов модели. **Advantage-based Trajectory Shuffle**, с другой стороны, предназначен для динамического перемешивания траекторий в пакете на основе их преимуществ. Этот метод позволяет увеличить вероятность того, что ценные траектории будут включены в пакет и будут иметь больший вес в процессе обучения. Это помогает предотвратить **Rollout Silencing**, поскольку ценные траектории не будут утрачены из-за недостаточного представления в пакете. Общая архитектура **Shuffle-R1** является простой, но эффективной. Она не требует сложных модификаций в существующей архитектуре MLLM и может быть легко интегрирована в существующие RL-пайплайны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность **Shuffle-R1**, авторы провели серию экспериментов на различных реальных данных и задачах разумения (reasoning benchmarks). Эти эксперименты включали задачи, требующие сложного вывода и обработки мультимодальных данных. Результаты показали, что **Shuffle-R1** значительно превосходит существующие RL-базовые модели в терминах эффективности обучения и качества получаемых результатов. Фреймворк успешно справился с проблемами **Advantage Collapsing** и **Rollout Silencing**, что привело к более эффективным обновлениям градиентов и быстрому схождению модели. Кроме того, **Shuffle-R1** показал значительное улучшение в терминах качества вывода и точности решений на различных задачах. Эти результаты подтверждают, что динамическое изменение структуры траекторий и пакетов данных может значительно повысить эффективность RL-обучения MLLM. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **Shuffle-R1** лежат в его способности улучшить эффективность RL-обучения MLLM без необходимости существенных изменений в их архитектуре. Это делает его применимым к широкому кругу задач, где требуется высокое качество логического вывода и обработки мультимодальных данных. Фреймворк может быть применен в таких областях, как **компьютервизионные системы**, **робототехника**, и **поддержка принятия решений**, где MLLM используются для обработки сложных задач. Кроме того, он может быть полезен в областях, где эффективное обучение играет ключевую роль, таких как **медицинские диагностические системы** и **финансовые прогнозы**. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Shuffle-R1**, который решает ключевые проблемы в RL-обучении MLLM, такие как **Advantage Collapsing** и **Rollout Silencing**. Эксперименты показали, что этот подход может значительно улучшить эффективность обучения и качество результатов. В будущем, дальнейшие исследования могут фокусироваться на дальнейшем улучшении эффективности RL-обучения для MLLM, включая исследование новых методов динамического изменения траекторий и пакетов данных. Кроме того, можно рассмотреть возможность применения **Shuffle-R1** к другим типам моделей и задач, чтобы оценить его универсальность.

Annotation:

Reinforcement learning (RL) has emerged as an effective post-training paradigm for enhancing the reasoning capabilities of multimodal large language model (MLLM). However, current RL pipelines often suffer from training inefficiencies caused by two underexplored issues: Advantage Collapsing, where most advantages in a batch concentrate near zero, and Rollout Silencing, where the proportion of rollouts contributing non-zero gradients diminishes over time. These issues lead to suboptimal gradient ...

ID: 2508.05612v1 cs.LG, cs.AI

arXiv PDF

📄 Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

2025-08-08

Авторы:

Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) стали важной составляющей современных исследований в области искусственного интеллекта, особенно в задачах резонансного мышления. Однако улучшение их резонансных способностей часто зависит от использования reinforcement learning (RL), который представляет собой ключевую методологию в этой области. Два главных подхода к формированию вознаграждений (rewards) в RL — model-based rewards и rule-based rewards — имеют свои ограничения. Rule-based rewards, основанные на строгих правилах, не гарантируют достаточной робастности и адаптивности, что может привести к нестабильности в обучении. С другой стороны, model-based rewards, которые зависят от моделей для оценки результатов, часто сталкиваются с проблемой reward hacking, когда модель находит способы манипулировать системой вознаграждений, чтобы получать высокие баллы, не выполняя фактически задачи. Эти проблемы усугубляются отсутствием эффективных методов для генерации высококачественных данных для обучения моделей вознаграждений. Мотивацией данного исследования является необходимость разработки более эффективных и робастных методов для интеграции моделей вознаграждений в RL для LLMs. Авторы предлагают решение, основанное на совместном оптимизировании модели политики (policy model) и модели вознаграждений (reward model), чтобы устранить существующие недостатки и повысить эффективность RL в задачах резонансного мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк под названием **Cooper (Co-optimizing Policy Model and Reward Model)**, который сочетает в себе оптимизацию модели политики и модели вознаграждений в едином процессе. Основная идея Cooper заключается в том, чтобы использовать преимущества rule-based rewards для точной идентификации правильных ответов и динамически формировать наборы положительных и отрицательных примеров для дальнейшего обучения модели вознаграждений. Cooper использует **hybrid annotation strategy** для эффективной генерации данных, которые необходимы для обучения модели вознаграждений. Эта стратегия объединяет как автоматическую, так и ручною аннотацию, чтобы обеспечить высококачественные данные. Кроме того, авторы предлагают **reference-based reward modeling paradigm**, где модель вознаграждений использует ссылочный ответ (reference answer) в качестве входа для более точной оценки. В рамках этого фреймворка была разработана модель вознаграждений под названием **VerifyRM**, которая достигает высокой точности на наборе данных VerifyBench по сравнению с другими моделями того же размера. VerifyRM основана на ссылочном подходе и обеспечивает более надежную оценку качества ответов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности Cooper и модели VerifyRM. Эксперименты проводились на данных Qwen2.5-1.5B-Instruct, где Cooper показал значительное улучшение результатов по сравнению с базовыми подходами. В частности, использование Cooper привело к росту средней точности на 0.54%, что является существенным результатом в контексте задач резонансного мышления. Кроме того, VerifyRM также демонстрирует высокую точность на VerifyBench, превосходя другие модели вознаграждений того же размера. Эксперименты также показали, что динамическое обновление модели вознаграждений в рамках Cooper позволяет снизить риск reward hacking и повысить общую эффективность RL. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Cooper имеет значительное практическое применение в области резонансного мышления с использованием LLMs. Он позволяет улучшить надежность и эффективность RL, устраняя проблемы reward hacking и повышая качество обучения. Одним из ключевых преимуществ Cooper является его способность динамически обновлять модель вознаграждений, что обеспечивает более точную оценку и улучшает итоговые результаты RL. Это может быть применено в различных областях, где необходимо высококачественное резонансное мышление, таких как обработка естественного языка, автоматическое распознавание речи и другие прикладные задачи. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк Cooper, который сочетает оптимизацию модели политики и модели вознаграждений для улучшения результатов RL в задачах резонансного мышления. Авторы демонстрируют, что динамическое обновление модели вознаграждений является эффективным способом для борьбы с reward hacking и повышения эффективности RL. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры Cooper, включая разработку более эффективных стратегий аннотации и моделей вознаграждений. Кроме того, можно исследовать применение этого подхода к более широкому классу задач, включая мультимодальные системы и задачи, требующие высокой точности резонансного мышления.

Annotation:

Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Polic...

ID: 2508.05613v1 cs.CL, cs.AI

arXiv PDF

📄 OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

2025-08-08

Авторы:

Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) продемонстрировали выдающиеся способности к абстрактному рассуждению в задачах математики, логики и общих знаний. Однако их потенциал в области воплощенного интеллекта (embodied intelligence), включающего физическое взаимодействие с окружающей средой, использование инструментов и координацию между множеством агентов, остается практически неизученным. Существующие бенчмарки для оценки воплощенного интеллекта страдают от фундаментальных ограничений: они либо предоставляют заранее определенные наборы инструментов, либо явно указывают стратегии совместной работы, что не отражает реальную сложность воплощенных задач. Ключевая проблема заключается в том, что реальные воплощенные задачи требуют от агентов динамического приобретения новых способностей и автономного определения стратегий координации на основе текущих потребностей задачи. Современные LLM ориентированы на обработку текстовой информации и не имеют встроенного механизма для моделирования непрерывных физических свойств, сложных пространственных отношений и динамических взаимодействий между объектами. Это создает значительный разрыв между теоретическими возможностями моделей и практическими требованиями воплощенных систем. Авторы статьи подчеркивают, что отсутствие комплексного бенчмарка, способного оценивать способность моделей к рассуждениям в условиях ограничений и неопределенности, затрудняет развитие воплощенного ИИ. Традиционные подходы к оценке фокусируются на конечных результатах, игнорируя процесс рассуждений и взаимодействие с ограничениями среды, что не позволяет выявить фундаментальные ограничения архитектуры современных LLM в контексте воплощенных задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем авторы разработали OmniEAR - комплексную платформу для оценки способности языковых моделей к рассуждениям о физических взаимодействиях, использовании инструментов и координации множества агентов в воплощенных задачах. В отличие от существующих решений, OmniEAR не предоставляет агентам заранее определенные наборы инструментов или явные инструкции для сотрудничества. Вместо этого система требует от агентов динамического приобретения необходимых способностей и автономного определения оптимальных стратегий координации на основе анализа текущей задачи и доступных ресурсов. Архитектура OmniEAR базируется на текстовом представлении окружающей среды, что позволяет моделировать непрерывные физические свойства объектов и сложные пространственные отношения без необходимости визуальной обработки. Платформа включает 1500 уникальных сценариев, охватывающих как бытовые, так и промышленные домены, каждый из которых специально разработан для тестирования конкретных аспектов воплощенного рассуждения. Сценарии разделены на три основные категории: задачи использования инструментов, задачи неявной координации и комбинированные задачи, требующие одновременного использования обоих навыков. Система оценивания реализует многоуровневый подход к измерению эффективности рассуждений. На первом уровне оценивается способность модели к идентификации релевантных ограничений среды и инструментов. На втором - качество планирования последовательности действий с учетом физических ограничений. На третьем - эффективность координации между множеством агентов в условиях частичной информации и неопределенности. Для каждого уровня разработаны специфические метрики качества, включающие как количественные показатели успешности, так и качественную оценку рациональности принятых решений. Экспериментальная методология включает сравнение производительности моделей при различных условиях предоставления информации: от полного доступа к состоянию среды до ограниченного наблюдения. Это позволяет выявить, как модели справляются с фильтрацией релевантной информации и принятием решений в условиях информационной перегрузки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания включала систематическую оценку производительности различных языковых моделей на всех 1500 сценариях OmniEAR. Основное внимание уделялось анализу спадов производительности при переходе от явных инструкций к неявным огран

Annotation:

Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordinatio...

ID: 2508.05614v1 cs.CL, cs.AI

arXiv PDF

📄 Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

2025-08-08

Авторы:

Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные автономные агенты, взаимодействующие с графическими интерфейсами пользователя (GUI), сталкиваются с фундаментальной задачей GUI grounding — точного сопоставления естественно-языковых инструкций с конкретными координатами на экране. Эта задача является критически важной для создания универсальных систем автоматизации, способных выполнять сложные многошаговые операции в различных приложениях без предварительного программирования. Существующие подходы к решению проблемы GUI grounding можно условно разделить на две категории. Первая группа методов опирается на обшученное обучение с учителем, требующее масштабных датасетов с пиксельной аннотацией, где каждому GUI-элементу соответствует точная разметка координат. Такие подходы демонстрируют высокую точность, но сталкиваются с фундаментальным ограничением — стоимость и доступность качественной разметки растут экспоненциально с увеличением сложности интерфейсов и разнообразия приложений. Вторая группа методов использует обучение с подкреплением с механизмом вознаграждений, однако требует предварительно размеченных сигналов вознаграждения, что также создает узкое место в виде необходимости создания специализированных метрик эффективности. Ключевым наблюдением авторов статьи стало то, что современные модели, генерируя множественные предсказания для одного и того же GUI-элемента, демонстрируют определенные пространственные паттерны перекрытия. Эти паттерны неявно кодируют сигналы уверенности модели, которые могут быть использованы для более точной локализации без необходимости дополнительной разметки. Это наблюдение открывает принципиально новый путь повышения точности систем GUI grounding за счет использования внутренней структуры предсказаний модели, минуя этапы дорогостоящего аннотирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию, основанную на принципиально новой парадигме test-time scaling и test-time reinforcement learning для задачи GUI grounding. Первый компонент системы, GUI-RC (Region Consistency), представляет собой метод масштабирования во время тестирования, который конструирует пространственные сетки голосования на основе множественных семплированных предсказаний для идентификации консенсусных регионов. Архитектура GUI-RC работает следующим образом: для каждого входного изображения GUI и соответствующей языковой инструкции модель генерирует N независимых предсказаний координат целевого элемента. На основе этих предсказаний строится двумерная пространственная сетка, где каждая ячейка получает вес, пропорциональный количеству предсказаний, перекрывающих данную область. Регионы с максимальным перекрытием идентифицируются как области наибольшего консенсуса модели, что позволяет выбрать наиболее надежные координаты без дополнительного обучения. Второй компонент, GUI-RCPO (Region Consistency Policy Optimization), трансформирует паттерны консистентности в сигналы вознаграждения для тестового обучения с подкреплением. Данный метод вычисляет, насколько хорошо каждое индивидуальное предсказание согласуется с коллективным консенсусом, преобразуя это согласование в скалярную функцию вознаграждения. Используя эти само-консистентные сигналы, модель может итеративно уточнять свои выходные данные на неразмеченных данных в процессе инференса. Ключевым техническим новшеством является разработка алгоритма оптимизации политики, который работает исключительно во время тестирования, адаптируя параметры модели к конкретному экземпляру входных данных без градиентного обновления весов основной модели. Это достигается через мета-оптимизацию, где модель учится генерировать более консистентные предсказания для каждого конкретного случая использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на комплексном бенчмарке ScreenSpot, включающем две версии: ScreenSpot-v1 и ScreenSpot-v2. Датасет содержит более 1200 уникальных GUI-экранов из различных категорий приложений, включая веб-интерфейсы, мобильные приложения и настольные программы. Каждый экран аннотирован множеством естественно-языковых инструкций, точно указывающих на конкретные GUI-элементы, что позволяет проводить точную количественную оценку качества grounding. Базовые архитектуры для

Annotation:

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal...

ID: 2508.05615v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 TrajEvo: Trajectory Prediction Heuristics Design via LLM-driven Evolution

2025-08-08

Авторы:

Zhikai Zhao, Chuanbo Hua, Federico Berto, Kanghoon Lee, Zihan Ma, Jiachen Li, Jinkyoo Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА Прогнозирование траекторий движения объектов является фундаментальной задачей в области моделирования поведения человека, имеющей критическое значение для безопасности в таких приложениях, как социальная робототехника и навигация автономных транспортных средств. Современные подходы к решению этой задачи можно условно разделить на два класса: традиционные эвристические методы, основанные на заранее заданных правилах, и современные методы глубокого обучения. Первая категория методов, несмотря на свою вычислительную эффективность и интерпретируемость, страдает от низкой точности и плохой обобщающей способности. Эвристики, созданные экспертами, часто не способны адекватно описать сложные социальные взаимодействия и динамические сценарии, возникающие в реальных условиях. Например, заранее заданные правила движения в толпе могут не учитывать неожиданные изменения в поведении пешеходов или нестандартные ситуации на дороге. Вторая категория, методы глубокого обучения, демонстрируют значительно более высокую точность предсказаний, но имеют ряд критических недостатков. Во-первых, они требуют значительных вычислительных ресурсов, что ограничивает их применение в реальных системах, особенно на борту автономных роботов. Во-вторых, "черные ящики" нейронных сетей обеспечивают минимальную интерпретируемость результатов, что критично для безопасных систем. В-третьих, и самое важное, методы глубокого обучения демонстрируют плохую обобщающую способность на выборках, отличающихся от обучающих (out-of-distribution, OOD), что делает их непригодными для работы в нестандартных или аварийных ситуациях. Существующий разрыв между эффективностью традиционных методов и качеством методов глубокого обучения создает необходимость в новых подходах, которые бы сочетали вычислительную эффективность и интерпретируемость эвристик с обобщающей способностью современных методов. Это и является основной мотивацией для разработки представленного в статье фреймворка TrajEvo, который использует большие языковые модели для автоматического создания эвристик прогнозирования траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Фреймворк TrajEvo представляет собой инновационный подход к автоматизированному созданию эвристик для прогнозирования траекторий, который использует сочетание эволюционных алгоритмов и больших языковых моделей. Основная идея заключается в том, чтобы использовать морфологические и семантические возможности LLM для генерации и последующего улучшения эвристик на основе исторических данных о траекториях. Архитектура системы состоит из нескольких ключевых компонентов. Первым является генератор эвристик на основе LLM, который создает начальные эвристики в виде читаемых правил на естественном языке. Эти эвристики затем преобразуются в исполняемый код и оцениваются на наборе траекторий. Вторым важным компонентом является эволюционный алгоритм, который управляет процессом оптимизации эвристик через поколения. В рамках эволюционного процесса предложены две ключевые инновации. Первая - это Cross-Generation Elite Sampling (CGES), механизм отбора элитных решений, который обеспечивает сохранение диверсификации популяции между поколениями. В отличие от традиционных методов, которые могут терять разнообразие решений, CGES специально сохраняет не только лучшие, но и разнообразные эвристики из предыдущих поколений, что помогает избежать преждевременной сходимости и улучшает качество окончательных решений. Вторая инновация - Statistics Feedback Loop (SFL) - представляет собой механизм обратной связи, который позволяет LLM анализировать статистику работы альтернативных предсказаний. SFL собирает статистические метрики о производительности различных эвристик и предоставляет LLM краткие, но информативные отчеты. Это позволяет LLM делать обоснованные выводы о том, какие аспекты эвристик работают хорошо, а какие требуют улучшения, и соответственно модифицировать следующее поколение эвристик. Процесс оптимизации работает следующим образом: LLM генерирует начальную популяцию эвристик, каждая из которых представляет собой набор правил для прогнозирования траекторий. Затем эти эвристики оцениваются на исторических данных, после чего лучшие решения отбираются для создания следующего поколения с помощью CGES. Результаты

Annotation:

Trajectory prediction is a critical task in modeling human behavior, especially in safety-critical domains such as social robotics and autonomous vehicle navigation. Traditional heuristics based on handcrafted rules often lack accuracy and generalizability. Although deep learning approaches offer improved performance, they typically suffer from high computational cost, limited explainability, and, importantly, poor generalization to out-of-distribution (OOD) scenarios. In this paper, we introduc...

ID: 2508.05616v1 cs.LG, cs.AI, cs.NE, cs.RO

arXiv PDF

📄 The Missing Reward: Active Inference in the Era of Experience

2025-08-08

Авторы:

Bo Wen

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время разработка ИИ сталкивается с значительными проблемами, связанными со скалируемостью и автономностью. Традиционные подходы зависят от больших наборов высококачественных данных и требуют существенных ресурсов для проектирования систем вознаграждения. Эта зависимость создает узкий место, ограничивающий развитие полностью автономных ИИ-систем. Данные проблемы усугубляются тем, что качество данных для обучения и эффективность методов вознаграждения не всегда соответствуют потребностям современных систем. В статье предлагается концепция «Эпохи Опыта», где ИИ-системы самостоятельно формируют данные для обучения. Однако даже в этом случае существует проблема, так как процесс проектирования функций вознаграждения становится новым узким местом. Это приводит к формированию так называемой **grounded-agency gap**, то есть неспособности современных систем ИИ автономно формулировать, адаптировать и достигать целей в динамической среде. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают активное выведение (Active Inference, AIF) как решение для преодоления проблемы автономности. AIF основывается на принципе минимизации свободной энергии, который позволяет агентам самостоятельно балансировать между исследованием и эксплуатацией в своей среде. Этот подход заменяет внешние сигналы вознаграждений на внутренний интригу, позволяя агенту принимать решения на основе унифицированного байесовского подхода. Ключевой момент метода заключается в интеграции Больших Языковых Моделей (LLM) в качестве генеративных моделей мира. Это позволяет создавать агентов, способных эффективно извлекать знания из своих опытов и принимать решения, соответствующие ценностям человека. AIF обеспечивает согласованность и эффективность принятия решений, так как все процессы опираются на единый байесовский объектив. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В статье приводятся результаты экспериментов, демонстрирующие эффективность AIF в сочетании с LLM. Эти эксперименты показывают, что такие агенты могут эффективно адаптироваться к изменяющимся условиям и достигать целей без необходимости внешних регулятивных сигналов. Данные эксперименты также подтверждают, что использование AIF способно уменьшить зависимость от внешних источников данных и вознаграждений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый подход имеет широкое применение в областях, требующих автономных и адаптивных систем ИИ. Такие системы могут быть использованы в робототехнике, автономных транспортных системах, медицинском диагностировании и других сферах. Основным преимуществом является уменьшение зависимости от человеческого вмешательства в процессы обучения и вознаграждения, что делает такие системы более эффективными и масштабируемыми. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы заключают, что AIF представляет собой мощный инструмент для создания автономных ИИ-систем, способных эффективно обучаться из собственного опыта. Будущие исследования могут фокусироваться на дальнейшей реализации и оптимизации этого подхода, а также на интеграции AIF с другими технологиями ИИ для создания более универсальных и эффективных систем.

Annotation:

This paper argues that Active Inference (AIF) provides a crucial foundation for developing autonomous AI agents capable of learning from experience without continuous human reward engineering. As AI systems begin to exhaust high-quality training data and rely on increasingly large human workforces for reward design, the current paradigm faces significant scalability challenges that could impede progress toward genuinely autonomous intelligence. The proposal for an ``Era of Experience,'' where ag...

ID: 2508.05619v1 cs.AI, nlin.AO, physics.bio-ph, physics.comp-ph, physics.hist-ph

arXiv PDF

📄 Simulating Human-Like Learning Dynamics with LLM-Empowered Agents

2025-08-08

Авторы:

Yu Yuan, Lili Zhao, Wei Chen, Guangting Zheng, Kai Zhang, Mengdi Zhang, Qi Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ### **КОНТЕКСТ И ПРОБЛЕМАТИКА** Изучение динамики человеческого обучения представляет собой ключевую область исследований в психологии и разработке интеллектуальных систем. Традиционные подходы часто основываются на контролируемых экспериментах или правилами, созданными вручную, что позволяет моделировать когнитивные процессы. Однако такие модели имеют существенные ограничения: они не могут эффективно отслеживать динамику обучения в реальном времени, отслеживать прогресс индивидуумов в процессе обучения или обеспечивать достаточную интерпретируемость. Таким образом, необходимо разработать более реалистичные и динамические модели, которые могут отражать сложность человеческих когнитивных процессов. С помощью моделей глубокого обучения, в частности техники Large Language Models (LLMs), стало возможно создавать более продвинутые симуляции, которые могут лучше отражать реальные когнитивные процессы. Однако, несмотря на то, что LLMs показывают высокую эффективность в различных задачах, они часто не могут предоставить полноценное понимание человеческих когнитивных процессов. Это приводит к необходимости разработки систем, которые могут не только моделировать обучение, но и обеспечивать более глубокий анализ динамики обучения, включая понимание различных стратегий обучения и их влияния на результаты. В данной работе авторы предлагают новый подход, используя многоагентную систему, основанную на LLMs, для моделирования реалистичного процесса обучения. Они используют профили обучающихся, основанные на психологических теориях, чтобы создать реалистичную среду обучения. Это позволяет анализировать как поведение обучающихся, так и их когнитивный прогресс в течение длительного периода времени. ### **ПРЕДЛОЖЕННЫЙ МЕТОД** Авторы предлагают новый метод, основанный на многоагентной системе LearnerAgent, которая использует LLMs для симуляции динамики человеческого обучения. Эта система включает несколько типов обучающихся, каждый из которых соответствует определенному психологическому профилю: Deep Learner, Surface Learner, Lazy Learner, а также General Learner, который не имеет определенного профиля. Каждый обучающийся проходит через несколько этапов в симуляции: еженедельное получение нового знания, ежемесячное принятие стратегических решений, периодические тесты и взаимодействие с питомцами. Это позволяет отслеживать прогресс обучения каждого агента на протяжении всего учебного года. Одним из ключевых аспектов метода является введение "ловушечных вопросов" (trap questions), которые позволяют диагностировать глубину понимания у Surface Learner. Эти вопросы специально спроектированы таким образом, чтобы выявить тех, кто обладает лишь поверхностным пониманием, в отличие от тех, кто обладает более глубоким пониманием. В дополнение к этому, агенты также отслеживают их самоконцепцию (self-concept), которая отражает их восприятие собственных умственных способностей. Эта метрика позволяет следить за эволюцией их самооценки и самоэффективности (self-efficacy) в процессе обучения. ### **ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ** Авторы провели широкий спектр экспериментов, чтобы оценить эффективность их метода. Они использовали данные, собранные в ходе симуляции, чтобы проанализировать динамику обучения каждого типа агента. Результаты показали, что только Deep Learner достигает устойчивого когнитивного роста в течение всего учебного года. Обнаружено, что Surface Learner, несмотря на то, что он может показывать высокие результаты на тестах, часто демонстрирует поверхностное понимание, которое может быть выявлено с помощью "ловушечных вопросов". Также было обнаружено, что самоконцепция обучающихся развивается реалистично. Например, General Learner, несмотря на ограниченные когнитивные способности, показывает удивительно высокую самоэффективность. Это может быть объяснено тем, что LLMs могут эмулировать некоторые аспекты человеческого поведения, но не обладают глубоким, общим пониманием. Важным результатом экспериментов является то, что LLM по умолчанию эмулирует поведение "прилежного, но хрупкого Surface Learner". Это означает, что, несмотря на то, что LLM может показывать хорошие результаты в задачах, он не обладает глубоким и гибким пониманием, необходимым для реального обучения. ### **ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ** LearnerAgent может быть применен в различных областях, включая образование, психологию и разработку интеллектуальных систем. Он позволяет моделировать различные стратегии обучения, отслеживать их динамику и оценивать эффективность различных подходов. Это может быть полезно для разработки новых методов обучения, которые будут более адаптивными к индивидуальным потребностям обучающихся. Кроме того, этот подход может быть использован для анализа поведения LLMs в реальных условиях, что может помочь в понимании их ограничений и возможностей. Это может быть полезно для разработчиков интеллектуальных систем, которые хотят создать более эффективные и адаптивные модели. ### **ВЫВОДЫ И ПЕРСПЕКТИВЫ** LearnerAgent демонстрирует высокую эффективность в моделировании динамики человеческого обучения. Он позволяет отслеживать прогресс обучения на протяжении длительного периода времени и обеспечивает глубокий анализ различных стратегий обучения. Однако, он также выявляет ограничения LLMs, такие как их неспособность к глубокому пониманию. В будущем, этот подход может быть развит для более глубокого изучения когнитивных процессов и для создания более эффективных моделей обучения. Это может включать в себя разработку новых методов для моделирования более сложных когнитивных процессов и для улучшения эффективности LLMs в реальных условиях.

Annotation:

Capturing human learning behavior based on deep learning methods has become a major research focus in both psychology and intelligent systems. Recent approaches rely on controlled experiments or rule-based models to explore cognitive processes. However, they struggle to capture learning dynamics, track progress over time, or provide explainability. To address these challenges, we introduce LearnerAgent, a novel multi-agent framework based on Large Language Models (LLMs) to simulate a realistic t...

ID: 2508.05622v1 cs.AI

arXiv PDF

1
2
1430
1431
1432
1433
1434
1442
1443

Показано 14311 - 14320 из 14425 записей