📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 TrajEvo: Trajectory Prediction Heuristics Design via LLM-driven Evolution

2025-08-08

Авторы:

Zhikai Zhao, Chuanbo Hua, Federico Berto, Kanghoon Lee, Zihan Ma, Jiachen Li, Jinkyoo Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА Прогнозирование траекторий движения объектов является фундаментальной задачей в области моделирования поведения человека, имеющей критическое значение для безопасности в таких приложениях, как социальная робототехника и навигация автономных транспортных средств. Современные подходы к решению этой задачи можно условно разделить на два класса: традиционные эвристические методы, основанные на заранее заданных правилах, и современные методы глубокого обучения. Первая категория методов, несмотря на свою вычислительную эффективность и интерпретируемость, страдает от низкой точности и плохой обобщающей способности. Эвристики, созданные экспертами, часто не способны адекватно описать сложные социальные взаимодействия и динамические сценарии, возникающие в реальных условиях. Например, заранее заданные правила движения в толпе могут не учитывать неожиданные изменения в поведении пешеходов или нестандартные ситуации на дороге. Вторая категория, методы глубокого обучения, демонстрируют значительно более высокую точность предсказаний, но имеют ряд критических недостатков. Во-первых, они требуют значительных вычислительных ресурсов, что ограничивает их применение в реальных системах, особенно на борту автономных роботов. Во-вторых, "черные ящики" нейронных сетей обеспечивают минимальную интерпретируемость результатов, что критично для безопасных систем. В-третьих, и самое важное, методы глубокого обучения демонстрируют плохую обобщающую способность на выборках, отличающихся от обучающих (out-of-distribution, OOD), что делает их непригодными для работы в нестандартных или аварийных ситуациях. Существующий разрыв между эффективностью традиционных методов и качеством методов глубокого обучения создает необходимость в новых подходах, которые бы сочетали вычислительную эффективность и интерпретируемость эвристик с обобщающей способностью современных методов. Это и является основной мотивацией для разработки представленного в статье фреймворка TrajEvo, который использует большие языковые модели для автоматического создания эвристик прогнозирования траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Фреймворк TrajEvo представляет собой инновационный подход к автоматизированному созданию эвристик для прогнозирования траекторий, который использует сочетание эволюционных алгоритмов и больших языковых моделей. Основная идея заключается в том, чтобы использовать морфологические и семантические возможности LLM для генерации и последующего улучшения эвристик на основе исторических данных о траекториях. Архитектура системы состоит из нескольких ключевых компонентов. Первым является генератор эвристик на основе LLM, который создает начальные эвристики в виде читаемых правил на естественном языке. Эти эвристики затем преобразуются в исполняемый код и оцениваются на наборе траекторий. Вторым важным компонентом является эволюционный алгоритм, который управляет процессом оптимизации эвристик через поколения. В рамках эволюционного процесса предложены две ключевые инновации. Первая - это Cross-Generation Elite Sampling (CGES), механизм отбора элитных решений, который обеспечивает сохранение диверсификации популяции между поколениями. В отличие от традиционных методов, которые могут терять разнообразие решений, CGES специально сохраняет не только лучшие, но и разнообразные эвристики из предыдущих поколений, что помогает избежать преждевременной сходимости и улучшает качество окончательных решений. Вторая инновация - Statistics Feedback Loop (SFL) - представляет собой механизм обратной связи, который позволяет LLM анализировать статистику работы альтернативных предсказаний. SFL собирает статистические метрики о производительности различных эвристик и предоставляет LLM краткие, но информативные отчеты. Это позволяет LLM делать обоснованные выводы о том, какие аспекты эвристик работают хорошо, а какие требуют улучшения, и соответственно модифицировать следующее поколение эвристик. Процесс оптимизации работает следующим образом: LLM генерирует начальную популяцию эвристик, каждая из которых представляет собой набор правил для прогнозирования траекторий. Затем эти эвристики оцениваются на исторических данных, после чего лучшие решения отбираются для создания следующего поколения с помощью CGES. Результаты

Annotation:

Trajectory prediction is a critical task in modeling human behavior, especially in safety-critical domains such as social robotics and autonomous vehicle navigation. Traditional heuristics based on handcrafted rules often lack accuracy and generalizability. Although deep learning approaches offer improved performance, they typically suffer from high computational cost, limited explainability, and, importantly, poor generalization to out-of-distribution (OOD) scenarios. In this paper, we introduc...

ID: 2508.05616v1 cs.LG, cs.AI, cs.NE, cs.RO

arXiv PDF

📄 The Missing Reward: Active Inference in the Era of Experience

2025-08-08

Авторы:

Bo Wen

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время разработка ИИ сталкивается с значительными проблемами, связанными со скалируемостью и автономностью. Традиционные подходы зависят от больших наборов высококачественных данных и требуют существенных ресурсов для проектирования систем вознаграждения. Эта зависимость создает узкий место, ограничивающий развитие полностью автономных ИИ-систем. Данные проблемы усугубляются тем, что качество данных для обучения и эффективность методов вознаграждения не всегда соответствуют потребностям современных систем. В статье предлагается концепция «Эпохи Опыта», где ИИ-системы самостоятельно формируют данные для обучения. Однако даже в этом случае существует проблема, так как процесс проектирования функций вознаграждения становится новым узким местом. Это приводит к формированию так называемой **grounded-agency gap**, то есть неспособности современных систем ИИ автономно формулировать, адаптировать и достигать целей в динамической среде. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают активное выведение (Active Inference, AIF) как решение для преодоления проблемы автономности. AIF основывается на принципе минимизации свободной энергии, который позволяет агентам самостоятельно балансировать между исследованием и эксплуатацией в своей среде. Этот подход заменяет внешние сигналы вознаграждений на внутренний интригу, позволяя агенту принимать решения на основе унифицированного байесовского подхода. Ключевой момент метода заключается в интеграции Больших Языковых Моделей (LLM) в качестве генеративных моделей мира. Это позволяет создавать агентов, способных эффективно извлекать знания из своих опытов и принимать решения, соответствующие ценностям человека. AIF обеспечивает согласованность и эффективность принятия решений, так как все процессы опираются на единый байесовский объектив. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В статье приводятся результаты экспериментов, демонстрирующие эффективность AIF в сочетании с LLM. Эти эксперименты показывают, что такие агенты могут эффективно адаптироваться к изменяющимся условиям и достигать целей без необходимости внешних регулятивных сигналов. Данные эксперименты также подтверждают, что использование AIF способно уменьшить зависимость от внешних источников данных и вознаграждений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый подход имеет широкое применение в областях, требующих автономных и адаптивных систем ИИ. Такие системы могут быть использованы в робототехнике, автономных транспортных системах, медицинском диагностировании и других сферах. Основным преимуществом является уменьшение зависимости от человеческого вмешательства в процессы обучения и вознаграждения, что делает такие системы более эффективными и масштабируемыми. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы заключают, что AIF представляет собой мощный инструмент для создания автономных ИИ-систем, способных эффективно обучаться из собственного опыта. Будущие исследования могут фокусироваться на дальнейшей реализации и оптимизации этого подхода, а также на интеграции AIF с другими технологиями ИИ для создания более универсальных и эффективных систем.

Annotation:

This paper argues that Active Inference (AIF) provides a crucial foundation for developing autonomous AI agents capable of learning from experience without continuous human reward engineering. As AI systems begin to exhaust high-quality training data and rely on increasingly large human workforces for reward design, the current paradigm faces significant scalability challenges that could impede progress toward genuinely autonomous intelligence. The proposal for an ``Era of Experience,'' where ag...

ID: 2508.05619v1 cs.AI, nlin.AO, physics.bio-ph, physics.comp-ph, physics.hist-ph

arXiv PDF

📄 Simulating Human-Like Learning Dynamics with LLM-Empowered Agents

2025-08-08

Авторы:

Yu Yuan, Lili Zhao, Wei Chen, Guangting Zheng, Kai Zhang, Mengdi Zhang, Qi Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ### **КОНТЕКСТ И ПРОБЛЕМАТИКА** Изучение динамики человеческого обучения представляет собой ключевую область исследований в психологии и разработке интеллектуальных систем. Традиционные подходы часто основываются на контролируемых экспериментах или правилами, созданными вручную, что позволяет моделировать когнитивные процессы. Однако такие модели имеют существенные ограничения: они не могут эффективно отслеживать динамику обучения в реальном времени, отслеживать прогресс индивидуумов в процессе обучения или обеспечивать достаточную интерпретируемость. Таким образом, необходимо разработать более реалистичные и динамические модели, которые могут отражать сложность человеческих когнитивных процессов. С помощью моделей глубокого обучения, в частности техники Large Language Models (LLMs), стало возможно создавать более продвинутые симуляции, которые могут лучше отражать реальные когнитивные процессы. Однако, несмотря на то, что LLMs показывают высокую эффективность в различных задачах, они часто не могут предоставить полноценное понимание человеческих когнитивных процессов. Это приводит к необходимости разработки систем, которые могут не только моделировать обучение, но и обеспечивать более глубокий анализ динамики обучения, включая понимание различных стратегий обучения и их влияния на результаты. В данной работе авторы предлагают новый подход, используя многоагентную систему, основанную на LLMs, для моделирования реалистичного процесса обучения. Они используют профили обучающихся, основанные на психологических теориях, чтобы создать реалистичную среду обучения. Это позволяет анализировать как поведение обучающихся, так и их когнитивный прогресс в течение длительного периода времени. ### **ПРЕДЛОЖЕННЫЙ МЕТОД** Авторы предлагают новый метод, основанный на многоагентной системе LearnerAgent, которая использует LLMs для симуляции динамики человеческого обучения. Эта система включает несколько типов обучающихся, каждый из которых соответствует определенному психологическому профилю: Deep Learner, Surface Learner, Lazy Learner, а также General Learner, который не имеет определенного профиля. Каждый обучающийся проходит через несколько этапов в симуляции: еженедельное получение нового знания, ежемесячное принятие стратегических решений, периодические тесты и взаимодействие с питомцами. Это позволяет отслеживать прогресс обучения каждого агента на протяжении всего учебного года. Одним из ключевых аспектов метода является введение "ловушечных вопросов" (trap questions), которые позволяют диагностировать глубину понимания у Surface Learner. Эти вопросы специально спроектированы таким образом, чтобы выявить тех, кто обладает лишь поверхностным пониманием, в отличие от тех, кто обладает более глубоким пониманием. В дополнение к этому, агенты также отслеживают их самоконцепцию (self-concept), которая отражает их восприятие собственных умственных способностей. Эта метрика позволяет следить за эволюцией их самооценки и самоэффективности (self-efficacy) в процессе обучения. ### **ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ** Авторы провели широкий спектр экспериментов, чтобы оценить эффективность их метода. Они использовали данные, собранные в ходе симуляции, чтобы проанализировать динамику обучения каждого типа агента. Результаты показали, что только Deep Learner достигает устойчивого когнитивного роста в течение всего учебного года. Обнаружено, что Surface Learner, несмотря на то, что он может показывать высокие результаты на тестах, часто демонстрирует поверхностное понимание, которое может быть выявлено с помощью "ловушечных вопросов". Также было обнаружено, что самоконцепция обучающихся развивается реалистично. Например, General Learner, несмотря на ограниченные когнитивные способности, показывает удивительно высокую самоэффективность. Это может быть объяснено тем, что LLMs могут эмулировать некоторые аспекты человеческого поведения, но не обладают глубоким, общим пониманием. Важным результатом экспериментов является то, что LLM по умолчанию эмулирует поведение "прилежного, но хрупкого Surface Learner". Это означает, что, несмотря на то, что LLM может показывать хорошие результаты в задачах, он не обладает глубоким и гибким пониманием, необходимым для реального обучения. ### **ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ** LearnerAgent может быть применен в различных областях, включая образование, психологию и разработку интеллектуальных систем. Он позволяет моделировать различные стратегии обучения, отслеживать их динамику и оценивать эффективность различных подходов. Это может быть полезно для разработки новых методов обучения, которые будут более адаптивными к индивидуальным потребностям обучающихся. Кроме того, этот подход может быть использован для анализа поведения LLMs в реальных условиях, что может помочь в понимании их ограничений и возможностей. Это может быть полезно для разработчиков интеллектуальных систем, которые хотят создать более эффективные и адаптивные модели. ### **ВЫВОДЫ И ПЕРСПЕКТИВЫ** LearnerAgent демонстрирует высокую эффективность в моделировании динамики человеческого обучения. Он позволяет отслеживать прогресс обучения на протяжении длительного периода времени и обеспечивает глубокий анализ различных стратегий обучения. Однако, он также выявляет ограничения LLMs, такие как их неспособность к глубокому пониманию. В будущем, этот подход может быть развит для более глубокого изучения когнитивных процессов и для создания более эффективных моделей обучения. Это может включать в себя разработку новых методов для моделирования более сложных когнитивных процессов и для улучшения эффективности LLMs в реальных условиях.

Annotation:

Capturing human learning behavior based on deep learning methods has become a major research focus in both psychology and intelligent systems. Recent approaches rely on controlled experiments or rule-based models to explore cognitive processes. However, they struggle to capture learning dynamics, track progress over time, or provide explainability. To address these challenges, we introduce LearnerAgent, a novel multi-agent framework based on Large Language Models (LLMs) to simulate a realistic t...

ID: 2508.05622v1 cs.AI

arXiv PDF

📄 How Do LLMs Persuade? Linear Probes Can Uncover Persuasion Dynamics in Multi-Turn Conversations

2025-08-08

Авторы:

Brandon Jaipersaud, David Krueger, Ekdeep Singh Lubana

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено феномену убеждения человека крупными языковыми моделями (LLM), которое стало особенно актуальным с появлением моделей нового поколения, демонстрирующих репликуемую способность формировать мнения и влиять на поведение пользователей. Несмотря на рост практического применения таких систем в маркетинге, образовании, политике и психологии, научное сообщество до сих пор не обладает инструментами, позволяющими объективно оценить и детально объяснить механизмы, с помощью которых LLM добиваются убеждения. Традиционные подходы, опирающиеся на дорогостоящие методы с опросами пользователей или затратные промпт-эксперименты, не масштабируются и не дают динамической картины изменений в процессе многоходовых диалогов. Ключевой проблемой является отсутствие методов сплошного мониторинга внутренних представлений модели в ходе диалога, что делает невозможным определить момент перелома — мгновение, когда адресат фактически соглашается с аргументами LLM. Также неизвестно, насколько типология личности собеседника и выбор тактики убеждения отражаются в активациях нейросети в реальном времени. Отсутствие прозрачности не позволяет ни предотвращать вредоносное применение технологии, ни улучшать полезные сценарии, требующие этичного убеждения. Работа ставит целью заполнить этот пробел, предложив легковесный, но информативный способ изучения динамики убеждения в естественных многоходовых разговорах, где каждый ход может менять вероятность успеха и требует точечной диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы адаптировали линейные зонды (linear probes) — простейшие логистические регрессоры, обучаемые на замороженных активациях скрытых слоёв LLM — для количественной оценки трёх когнитивных компонентов убеждения: успешности убеждения (success), личностных характеристик собеседника (personality) и тактики убеждения (strategy). Идея состоит в том, что активации на любом слое содержат сжатую информацию, достаточную для линейного классификатора, чтобы предсказать целевую переменную. Процедура обучения включает два этапа. Сначала на фиксированном наборе диалогов вычисляются активации на промежуточных слоях модели (обычно на уровнях, близких к последнему слою энкодера или первому слою декодера). Затем для каждого слоя обучается отдельный зонд, минимизирующий кросс-энтропию между предсказанной меткой и истинной (например, «успех»/«неуспех»). Для надёжности авторы использовали k-fold кросс-валидацию и контролировали переобучение регуляризацией L2. Для задачи «success» метка формировалась на основе явного согласия пользователя или изменения его позиции в анкете до и после диалога. В задаче «personality» использовались психометрические шкалы Большой пятёрки (OCEAN), полученные из предварительного опроса участников. Метки «strategy» кодировались экспертами по 12-ти предопределённым категориям, включая апелляции к авторитету, эмоциональные ловушки, социальное доказательство и т. д. Особенность метода — возможность применять зонд к каждому токену или к усреднённым активациям целого хода, что позволяет отслеживать, в какой именно момент модель «осознаёт» успех убеждения или меняет тактику. В отличие от промптинга, зонды не требуют генерации новых текстов и работают на порядки быстрее, что критично для анализа крупных корпусов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: 1) 12 000 англоязычных диалогов, собранных на Amazon Mechanical Turk, где модель GPT-3.5-turbo убеждала людей поддержать конкретную политическую позицию; 2) 4 500 диалогов по продуктовому маркетингу в сети Reddit, где целью было склонить пользователя к покупке. Для каждого диалога был доступен полный лог реплик, временные метки и метаданные собеседника. Базовым сравнением служил zero-shot промптинг с инструкцией «Определи, было ли достигнуто согласие» и few-shot цепочка мыслей с 5 примерами. Зонды обучались на

Annotation:

Large Language Models (LLMs) have started to demonstrate the ability to persuade humans, yet our understanding of how this dynamic transpires is limited. Recent work has used linear probes, lightweight tools for analyzing model representations, to study various LLM skills such as the ability to model user sentiment and political perspective. Motivated by this, we apply probes to study persuasion dynamics in natural, multi-turn conversations. We leverage insights from cognitive science to train p...

ID: 2508.05625v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 H-Net++: Hierarchical Dynamic Chunking for Tokenizer-Free Language Modelling in Morphologically-Rich Languages

2025-08-08

Авторы:

Mehrdad Zakershahrak, Samira Ghodratnama

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области языковых моделей (LM) на байтовом уровне существует серьезная проблема, связанная с обработкой языков с богатой морфологией (MRLs). Традиционные модели, основанные на байтовых последовательностях, сталкиваются с высокой вычислительной сложностью, так как слова в таких языках часто занимают большое количество байтов. Кроме того, сложность увеличивается из-за необходимости обрабатывать характеристики морфологии, такие как сложные словоформы и артефакты, например, неразрывные пробелы (ZWNJ) в персидском языке. Существующие решения, такие как BPE-based GPT-2-fa, используют предварительную токенизацию, что приводит к жесткой структуре и ухудшению адаптации к динамически изменяющимся структурам текста. Таким образом, необходимо разработать модель, способную обрабатывать морфологические особенности MRLs без токенизации, сохраняя при этом высокую эффективность вычислений. Данная проблематика мотивирует поиск новых подходов к морфологическому анализу и динамической сегментации последовательностей, которые могут улучшить качество модели, особенно на задачах, требующих высокой точности и робастности к шумам в данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД H-NET++ предлагает инновационный подход к моделированию языков без токенизации, основанный на иерархическом динамическом чанкинге (segmentation). Основные компоненты модели включают: 1. **Легковесный Transformer-контекстный миксер (1.9M параметров)**: этот модуль обеспечивает эффективное взаимодействие между чанками (подпоследовательностями), позволяя модели учитывать контекст на различных уровнях. 2. **Двухуровневая латентная гиперприора (two-level latent hyper-prior)**: этот механизм поддерживает согласованность на уровне документа, что критично для обработки длинных текстовых последовательностей. 3. **Специализированная обработка ортографических артефактов**: модель учитывает специфические особенности персидского языка, такие как ZWNJ, что повышает робастность модели к потенциальным коррупциям в данных. 4. **Куррикулум-басисное обучение (curriculum-based training)**: обучение проводится поэтапно с постепенным увеличением длины последовательностей, что позволяет модели эффективнее адаптироваться к сложности задач. Архитектура H-NET++ построена таким образом, чтобы учитывать морфологические границы без явного наложения супервизии, что демонстрирует возможность извлечения лексических единиц на основе динамического анализа. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на корпусе из 1.4 миллиардов токенов персидского языка. H-NET++ достигла значительных улучшений по сравнению с BPE-based GPT-2-fa: - **Снижение BPB (Bits Per Byte)**: на 0.159 BPB (12% лучшая степень сжатия). - **Повышение результатов на ParsGLUE**: на 5.4 процентных пункта. - **Улучшение робастности**: модель показала 53% выше устойчивости к коррупции ZWNJ. - **Точность морфологического анализа**: F1-мера достигла 73.8% на золотых границах морфологии. Полученные результаты показывают, что H-NET++ эффективно адаптируется к морфологической структуре языка, не требуя явной токенизации, и обеспечивает высокую эффективность вычислений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ H-NET++ открывает новые возможности для обработки MRLs в различных приложениях, таких как машинный перевод, анализ текста и поиск информации. Благодаря ее способности обрабатывать морфологические особенности естественного языка без необходимости токенизации, модель может быть использована в задачах, требующих высокой точности и адаптивности к контексту. Кроме того, легковесная архитектура и высокая эффективность вычислений делают H-NET++ приемлемой для развертывания в ресурсоемких средах, где важна быстрая обработка больших объемов текста. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ H-NET++ представляет собой эффективное решение для моделирования языков без токенизации, особенно в MRLs. Ее иерархический динамический чанкинг позволяет обеспечить высокую точность и робастность, одновременно сохраняя вычислительную эффективность. Будущие исследования могут фокусироваться на расширении данного подхода на другие MRLs, а также на интеграции дополнительных механизмов для улучшения интерпретируемости и адаптации модели к нестандартным контекстам.

Annotation:

Byte-level language models eliminate fragile tokenizers but face computational challenges in morphologically-rich languages (MRLs), where words span many bytes. We propose H-NET++, a hierarchical dynamic-chunking model that learns linguistically-informed segmentation through end-to-end training. Key innovations include: (1) a lightweight Transformer context-mixer (1.9M parameters) for cross-chunk attention, (2) a two-level latent hyper-prior for document-level consistency, (3) specialized handli...

ID: 2508.05628v1 cs.CL, cs.AI

arXiv PDF

📄 KuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation

2025-08-08

Авторы:

Changle Qu, Sunhao Dai, Ke Guo, Liqin Zhao, Yanan Niu, Xiao Zhang, Jun Xu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные платформы стриминга переживают беспрецедентный рост, превращаясь из нишевого развлечения в доминирующий формат потребления онлайн-контента. Уникальность живых трансляций заключается в трех ключевых характеристиках: динамично изменяющемся контенте, реальном времени взаимодействия между зрителями и стримерами, а также высокой степени вовлечения аудитории. Эти особенности создают фундаментально новые вызовы для систем рекомендаций, которые невозможно адекватно решать традиционными методами, разработанными для статического контента вроде видео на YouTube или товаров в e-commerce. Академическое сообщество сталкивается с критическим барьером в развитии этой области – отсутствием качественных публичных датасетов, которые бы точно отражали динамическую природу сред стриминга. Существующие открытые данные либо не содержат информации о временных рамках трансляций, либо игнорируют многотипные взаимодействия пользователей, либо не предоставляют достаточного контекста о пользователях и стримерах. Это приводит к тому, что большинство исследований проводится на синтетических или частичных данных, что резко ограничивает воспроизводимость результатов и практическую применимость разработанных алгоритмов. Индустрия, обладающая доступом к реальным данным, значительно опережает академию в понимании и решении специфических задач рекомендаций в живом стриминге. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления разрыва между академией и индустрией авторы разработали KuaiLive – первый в своем роде набор данных, собранный с крупнейшей китайской платформы живых трансляций Kuaishou с аудиторией более 400 миллионов активных пользователей в день. Методология сбора данных была специально спроектирована для захвата всех ключевых аспектов реального взаимодействия пользователей с живым контентом. Датасет охватывает 21-дневный период и содержит детальные логи взаимодействий 23,772 уникальных пользователей с 452,621 стримером. Ключевое техническое решение заключается в точной временной привязке всех событий – авторы записывают точные временные метки начала и окончания каждой трансляции, что позволяет точно моделировать динамику доступного контента. В отличие от существующих решений, KuaiLive включает четыре типа взаимодействий: клики (переход в комнату стримера), комментарии, лайки и отправка виртуальных подарков. Это многоаспектное поведение пользователей позволяет исследовать сложные паттерны вовлеченности. Архитектура данных включает богатую контекстную информацию: демографические и поведенческие признаки пользователей, метаданные стримеров (категория контента, историческая популярность), а также временные характеристики трансляций. Специальное внимание уделено приватности – все идентификаторы были анонимизированы, а чувствительная информация удалена в соответствии с политикой платформы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексный анализ датасета выявил ранее неизвестные паттерны поведения в экосистеме живого стриминга. Статистический анализ показал, что пользователи демонстрируют крайне нестабильный паттерн просмотра – средняя продолжительность пребывания в комнате составляет всего 3.2 минуты, но 5% самых вовлеченных пользователей проводят в стримах более 2 часов в день. Распределение взаимодействий экспоненциально, где 20% стримеров получают 80% всех взаимодействий, что создает значительные вызовы для обеспечения справедливости рекомендаций. Авторы провели систематическую оценку представительных методов рекомендаций на KuaiLive, включая коллаборативную фильтрацию, графовые нейронные сети и последовательные модели. Лучшие результаты показала адаптированная модель GRU4Rec с учетом временной динамики, достигшая MAP@10 = 0.247 для задачи топ-K рекомендаций. Интересно, что традиционные методы, показывающие высокую эффективность на статических данных, продемонстрировали значительное падение производительности (до 40% по NDCG), подчеркивая фундаментальные различия между статическим и живым контентом. Отдельные эксперименты были проведены для задач прогнозирования времени просмотра (RMSE = 1.34 минуты) и стоимости подарков (средняя абсолют

Annotation:

Live streaming platforms have become a dominant form of online content consumption, offering dynamically evolving content, real-time interactions, and highly engaging user experiences. These unique characteristics introduce new challenges that differentiate live streaming recommendation from traditional recommendation settings and have garnered increasing attention from industry in recent years. However, research progress in academia has been hindered by the lack of publicly available datasets t...

ID: 2508.05633v1 cs.IR, cs.AI

arXiv PDF

📄 Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling

2025-08-08

Авторы:

Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область автономной навигации мобильных роботов в густонаселенных средах является одной из наиболее критически важных и сложных задач современной робототехники. Роботы, обученные с использованием методов обучения с подкреплением (RL), демонстрируют впечатляющие результаты в контролируемых условиях, однако сталкиваются с серьезными проблемами при выходе за пределы обучающего распределения. Это явление, известное как проблема распределения (distribution shift), становится особенно критичным в динамических сценариях с пешеходами, где даже небольшие изменения в поведении людей могут привести к катастрофическим последствиям. Существующие подходы к обеспечению безопасности в навигации часто полагаются на предопределенные правила или консервативные стратегии, которые ограничивают маневренность робота и снижают эффективность в типовых ситуациях. Более того, традиционные методы не учитывают неопределенность в прогнозировании поведения пешеходов, что становится решающим фактором при столкновении с нестандартными паттернами движения. Например, внезапное изменение скорости группы пешеходов, появление агрессивно настроенных индивидов или переход от индивидуального к групповому поведению может привести к систематическим провалам в безопасности. Авторы статьи акцентируют внимание на фундаментальном недостатке современных RL-систем: они оптимизируются только для ожидаемого распределения данных, игнорируя хвостовые сценарии, которые могут быть редкими, но критически важными для безопасности. Это создает ложное чувство надежности и делает таких роботов непригодными для реального применения в неструктурированных человеческих средах. Необходим новый подход, который бы интегрировал оценку неопределенности напрямую в процесс принятия решений, позволяя роботу адаптивно реагировать на непредвиденные обстоятельства без компромисса в эффективности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный метод, который решает проблему устойчивости к распределениям через интеграцию адаптивного конформного вывода (adaptive conformal inference) в процесс обучения с подкреплением. Система работает по принципу двухуровневой архитектуры: на первом уровне модель прогнозирует будущие траектории пешеходов с оценкой неопределенности, а на втором - использует эти оценки для принятия безопасных решений. Ключевым инновационным элементом является использование конформного предиктора, который генерирует калиброванные доверительные интервалы для предсказаний движения пешеходов. В отличие от традиционных вероятностных методов, конформный вывод обеспечует гарантированный уровень покрытия независимо от базового распределения данных. Система динамически адаптирует эти интервалы на основе текущей сцены, учитывая такие факторы как плотность толпы, скорость движения и исторические паттерны поведения. Внедрение неопределенностей в пространство наблюдений агента осуществляется через специально разработанное представление, включающее как предсказанные траектории, так и соответствующие им доверительные области. Это позволяет агенту не просто реагировать на предсказанное поведение, но и учитывать вероятность отклонения от этих предсказаний. Обучение проводится с использованием метода ограниченного обучения с подкреплением (constrained RL), где ограничения формулируются в терминах максимально допустимого уровня неопределенности при взаимодействии с человеком. Архитектура системы включает три основных компонента: модуль прогнозирования траекторий на основе LSTM-сети с вниманием, модуль конформного предиктора для генерации доверительных регионов, и политику агента, обученную через алгоритм Proximal Policy Optimization (PPO) с safety constraints. Уникальность подхода заключается в том, что границы безопасности адаптируются онлайн, реагируя на текущий уровень неопределенности в среде. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось в трех основных направлениях: оценка производительности в in-distribution сценариях, тестирование robustness при различных видах distribution shift, и валидация на реальном роботе. Для in-distribution оценки использовался симуляционный датасет, включающий 10,000 с

Annotation:

Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performance degradation when faced with out-of-distribution scenarios. We propose that by properly accounting for the uncertainties of pedestrians, a robot can learn safe navigation policies that are robust to distribution shifts. Our method augments agent observations with prediction uncertainty estimates generated by adaptive conformal inference, and it uses these estimates to guide the agent's behavior...

ID: 2508.05634v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection

2025-08-08

Авторы:

Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng

**Резюме** Развитие AI-систем для генерации изображений привело к появлению гиперреалистичных deepfake, создающих риски для этики и распространения ложных сведений. Традиционные методы обнаружения deepfake, в том числе специфические для лиц или общие для AI-генерируемых данных, не обеспечивают прозрачности, так как формализуют задачу как классификацию без объяснения решений. Хотя некоторые подходы на основе языковых моделей (LLM) предлагают определённый уровень explainability, они страдают от грубых анализов и требуют интенсивной аннотации данных. В этой работе представлен RAIDX — новый фреймворк для обнаружения и объяснения deepfake, который сочетает Retrieval-Augmented Generation (RAG) и Group Relative Policy Optimization (GRPO). RAG используется для добавления внешнего знания, что повышает точность обнаружения, а GRPO позволяет самостоятельно генерировать точные текстовые объяснения и сальиент-карты, не требуя трудоемких аннотаций. Результаты экспериментов на различных датасетах показывают, что RAIDX достигает высокой точности обнаружения и обеспечивает интерпретируемые объяснения, предоставляя как текстовые описания, так и визуальные карты. Этот фреймворк является первым единым решением, которое сочетает RAG и GRPO, решая проблемы точности и прозрачности в обнаружении deepfake.

Annotation:

The rapid advancement of AI-generation models has enabled the creation of hyperrealistic imagery, posing ethical risks through widespread misinformation. Current deepfake detection methods, categorized as face specific detectors or general AI-generated detectors, lack transparency by framing detection as a classification task without explaining decisions. While several LLM-based approaches offer explainability, they suffer from coarse-grained analyses and dependency on labor-intensive annotation...

ID: 2508.04524v1 cs.CV, cs.AI

arXiv PDF

📄 Unveiling the Landscape of Clinical Depression Assessment: From Behavioral Signatures to Psychiatric Reasoning

2025-08-08

Авторы:

Zhuang Chen, Guanqun Bi, Wen Zhang, Jiawei Hu, Aoyun Wang, Xiyao Xiao, Kun Feng, Minlie Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Депрессия представляет собой одно из наиболее распространенных психических расстройств, затрагивающее миллионы людей по всему миру и оказывающее значительное влияние на качество жизни, социальную адаптацию и экономическое благополучие общества. Несмотря на активное развитие методов автоматической диагностики психических расстройств, современные исследования в области автоматизированной оценки депрессии сталкиваются с рядом критических проблем. Во-первых, большинство существующих работ опираются на ограниченные или непроверенные клиническим сообществом наборы данных, что подрывает достоверность и обобщаемость получаемых результатов. Во-вторых, исследователи часто делают акцент на разработке сложных моделей машинного обучения, жертвуя при этом клинической значимостью и практической применимостью в реальных условиях медицинской практики. Существующий разрыв между академическими исследованиями и клинической реальностью проявляется в отсутствии стандартизированных протоколов диагностики, недостаточной валидации методов на репрезентативных когортах пациентов и ограниченном использовании мультимодальных данных, которые могут отражать комплексную картину психического состояния пациента. Традиционные подходы часто игнорируют важность поведенческих маркеров, которые могут быть выявлены через структурированные клинические задания, а также недооценивают роль экспертного клинического заключения в процессе формирования диагноза. Эти проблемы требуют комплексного решения, включающего создание достоверных клинических наборов данных, разработку методов, учитывающих специфику психиатрического диагностического процесса, и переосмысление роли искусственного интеллекта в контексте клинического мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют C-MIND — инновационный клинический нейропсихиатрический мультимодальный диагностический набор данных, собранный в течение двух лет в условиях реальных стационарных обращений. Каждый участник проходил три структурированных психиатрических задания, разработанных для выявления специфических поведенческих паттернов, связанных с депрессией. В процессе выполнения заданий фиксировались аудио- и видеосигналы, создавались расшифровки речи, а также регистрировались данные функциональной ближней инфракрасной спектроскопии (fNIRS), позволяющие оценить активность префронтальной коры мозга. Финальный диагноз каждого пациента формировался коллективом экспертов-клиницистов на основе полного клинического обследования. Методология исследования включает несколько этапов. На первом этапе проводится глубокий анализ поведенческих маркеров, релевантных для диагностики депрессии, включая особенности речевой продукции, мимические выражения, двигательную активность и паттерны межличностного взаимодействия. На втором этапе исследуется вклад различных модальностей данных в общую диагностическую точность путем обучения и сравнения классических моделей машинного обучения на отдельных и комбинированных наборах признаков. Третий этап посвящен изучению способности больших языковых моделей (LLM) воспроизводить логику психиатрического рассуждения, характерную для клинической практики. Для преодоления выявленных ограничений авторы разрабатывают метод направленного клиническим знанием обучения, который интегрирует экспертные знания в процесс рассуждения LLM, обеспечивая более точную и клинически обоснованную диагностику. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования была проведена на основе C-MIND набора данных, включающего данные, собранные в течение двух лет в клинических условиях. В исследовании участвовали пациенты, проходившие диагностическое обследование в стационарных условиях, с подтвержденным диагнозом депрессии или отсутствием такового после полного клинического обследования. Каждый участник выполнял три структурированных психиатрических задания, специально разработанных для активации специфических поведенческих паттернов, связанных с депрессивными расстройствами. В процессе выполнения заданий регистрировались мультимодальные данные: аудиозаписи речи, видеозаписи поведения, расшифровки вербального контента и дан

Annotation:

Depression is a widespread mental disorder that affects millions worldwide. While automated depression assessment shows promise, most studies rely on limited or non-clinically validated data, and often prioritize complex model design over real-world effectiveness. In this paper, we aim to unveil the landscape of clinical depression assessment. We introduce C-MIND, a clinical neuropsychiatric multimodal diagnosis dataset collected over two years from real hospital visits. Each participant complet...

ID: 2508.04531v1 cs.CL, cs.AI

arXiv PDF

📄 MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning

2025-08-08

Авторы:

Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung

## КОНТЕКСТ И ПРОБЛЕМАТИКА Морские видеоролики представляют сложную область для понимания видео, особенно в связи с динамическими движениями морских объектов, изменчивостью окружающей среды, движением камеры, а также сложностью подводных сцен. Эти факторы существенно усложняют задачи видеоанализа, включая видеокапитанизацию (video captioning). Существующие наборы данных для видеокапитанизации традиционно сосредоточены на общих или человеко-центрических областях, что ограничивает их применимость в контексте морских условий. Морские видео требуют более специфичных подходов для понимания движений и поведения морских объектов, что остается недостаточно изученным в современных исследованиях. Дополнительным вызовом является необходимость визуальной землеустройства (visual grounding) для точного определения и классификации морских объектов в видео. Существующие методы часто не способны эффектовно обрабатывать сложные подводные сцены, в которых могут встречаться разнообразные объекты, такие как рыбы, кораллы, и другие элементы морской среды. Это приводит к необходимости разработки новых подходов, которые могут учитывать специфику морских сред и обеспечивать более точную интерпретацию видео. Проблематика видеокапитанизации в морских условиях также осложняется тем, что многие существующие модели не способны эффективно обрабатывать изменения сцены и переходы между объектами. Это может приводить к недостаточной точности и семантической глубине при генерации описаний видео. Таким образом, требуется разработка новых методологий, которые могут обрабатывать сложность морских видео и обеспечивать более глубокое понимание содержания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеупомянутых проблем, авторы предлагают двухэтапную модель видеокапитанизации, ориентированную на морские объекты. Первый этап заключается в создании набора данных, который содержит тройки видео, текста и масок сегментации. Эти маски позволяют выполнять визуальное землеустройство, то есть точно определять и отделять морские объекты на видео. Набор данных также включает в себя аннотации на уровне клипов, что позволяет создавать более детальные и семантически значимые описания. Второй этап заключается в разработке модели, которая использует эти данные для генерации описаний. Модель работает на основе видео, которые разбиваются на клипы для обнаружения значимых переходов объектов и смены сцен. Это позволяет модели лучше понять структуру видео и генерировать более точные описания. Авторы также подчеркивают важность использования сегментации для определения ключевых объектов и их движений, что значительно улучшает качество генерируемых описаний. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить эффективность предложенного подхода. Они использовали набор данных, состоящий из морских видео, аннотированных сегментационными масками и текстовыми описаниями. Модель была протестирована на различных метриках, таких как точность описаний и семантическая значимость генерируемых текстов. Результаты показали, что предложенный подход значительно превосходит существующие методы в видеокапитанизации морских видео. Использование сегментации и разбиения видео на клипы позволило модели лучше определять ключевые моменты и генерировать более детальные описания. Было показано, что модель способна обрабатывать сложные морские сцены и генерировать описания, которые лучше отражают содержание видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области морского мониторинга, экологических исследований и консервации морской фауны. Точные описания морских видео могут быть использованы для мониторинга состояния морских экосистем, анализа поведения морских объектов и мониторинга изменений в морской среде. Благодаря точной сегментации и генерации описаний, модель может быть использована для автоматизации анализа больших объемов морских данных, что значительно упрощает процесс мониторинга и исследования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках этого исследования был предложен новый подход к видеокапитанизации морских видео, который позволяет лучше понять динамику морских объектов и генерировать более точные описания. Будущие исследования могут фокусироваться на улучшении модели путем интеграции дополнительных данных, таких как звуковые аннотации или данные окружающей среды, для еще более точного анализа морских видео. Также можно рассмотреть возможность применения этого подхода к другим областям, где важна точная интерпретация видео, таким как медицинский мониторинг или анализ транспортных систем.

Annotation:

Marine videos present significant challenges for video understanding due to the dynamics of marine objects and the surrounding environment, camera motion, and the complexity of underwater scenes. Existing video captioning datasets, typically focused on generic or human-centric domains, often fail to generalize to the complexities of the marine environment and gain insights about marine life. To address these limitations, we propose a two-stage marine object-oriented video captioning pipeline. We...

ID: 2508.04549v1 cs.CV, cs.AI, cs.MM

arXiv PDF

1
2
3390
3391
3392
3393
3394
3402
3403

Показано 33911 - 33920 из 34022 записей