📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 How Do LLMs Persuade? Linear Probes Can Uncover Persuasion Dynamics in Multi-Turn Conversations

2025-08-08

Авторы:

Brandon Jaipersaud, David Krueger, Ekdeep Singh Lubana

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено феномену убеждения человека крупными языковыми моделями (LLM), которое стало особенно актуальным с появлением моделей нового поколения, демонстрирующих репликуемую способность формировать мнения и влиять на поведение пользователей. Несмотря на рост практического применения таких систем в маркетинге, образовании, политике и психологии, научное сообщество до сих пор не обладает инструментами, позволяющими объективно оценить и детально объяснить механизмы, с помощью которых LLM добиваются убеждения. Традиционные подходы, опирающиеся на дорогостоящие методы с опросами пользователей или затратные промпт-эксперименты, не масштабируются и не дают динамической картины изменений в процессе многоходовых диалогов. Ключевой проблемой является отсутствие методов сплошного мониторинга внутренних представлений модели в ходе диалога, что делает невозможным определить момент перелома — мгновение, когда адресат фактически соглашается с аргументами LLM. Также неизвестно, насколько типология личности собеседника и выбор тактики убеждения отражаются в активациях нейросети в реальном времени. Отсутствие прозрачности не позволяет ни предотвращать вредоносное применение технологии, ни улучшать полезные сценарии, требующие этичного убеждения. Работа ставит целью заполнить этот пробел, предложив легковесный, но информативный способ изучения динамики убеждения в естественных многоходовых разговорах, где каждый ход может менять вероятность успеха и требует точечной диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы адаптировали линейные зонды (linear probes) — простейшие логистические регрессоры, обучаемые на замороженных активациях скрытых слоёв LLM — для количественной оценки трёх когнитивных компонентов убеждения: успешности убеждения (success), личностных характеристик собеседника (personality) и тактики убеждения (strategy). Идея состоит в том, что активации на любом слое содержат сжатую информацию, достаточную для линейного классификатора, чтобы предсказать целевую переменную. Процедура обучения включает два этапа. Сначала на фиксированном наборе диалогов вычисляются активации на промежуточных слоях модели (обычно на уровнях, близких к последнему слою энкодера или первому слою декодера). Затем для каждого слоя обучается отдельный зонд, минимизирующий кросс-энтропию между предсказанной меткой и истинной (например, «успех»/«неуспех»). Для надёжности авторы использовали k-fold кросс-валидацию и контролировали переобучение регуляризацией L2. Для задачи «success» метка формировалась на основе явного согласия пользователя или изменения его позиции в анкете до и после диалога. В задаче «personality» использовались психометрические шкалы Большой пятёрки (OCEAN), полученные из предварительного опроса участников. Метки «strategy» кодировались экспертами по 12-ти предопределённым категориям, включая апелляции к авторитету, эмоциональные ловушки, социальное доказательство и т. д. Особенность метода — возможность применять зонд к каждому токену или к усреднённым активациям целого хода, что позволяет отслеживать, в какой именно момент модель «осознаёт» успех убеждения или меняет тактику. В отличие от промптинга, зонды не требуют генерации новых текстов и работают на порядки быстрее, что критично для анализа крупных корпусов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: 1) 12 000 англоязычных диалогов, собранных на Amazon Mechanical Turk, где модель GPT-3.5-turbo убеждала людей поддержать конкретную политическую позицию; 2) 4 500 диалогов по продуктовому маркетингу в сети Reddit, где целью было склонить пользователя к покупке. Для каждого диалога был доступен полный лог реплик, временные метки и метаданные собеседника. Базовым сравнением служил zero-shot промптинг с инструкцией «Определи, было ли достигнуто согласие» и few-shot цепочка мыслей с 5 примерами. Зонды обучались на

Annotation:

Large Language Models (LLMs) have started to demonstrate the ability to persuade humans, yet our understanding of how this dynamic transpires is limited. Recent work has used linear probes, lightweight tools for analyzing model representations, to study various LLM skills such as the ability to model user sentiment and political perspective. Motivated by this, we apply probes to study persuasion dynamics in natural, multi-turn conversations. We leverage insights from cognitive science to train p...

ID: 2508.05625v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 H-Net++: Hierarchical Dynamic Chunking for Tokenizer-Free Language Modelling in Morphologically-Rich Languages

2025-08-08

Авторы:

Mehrdad Zakershahrak, Samira Ghodratnama

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области языковых моделей (LM) на байтовом уровне существует серьезная проблема, связанная с обработкой языков с богатой морфологией (MRLs). Традиционные модели, основанные на байтовых последовательностях, сталкиваются с высокой вычислительной сложностью, так как слова в таких языках часто занимают большое количество байтов. Кроме того, сложность увеличивается из-за необходимости обрабатывать характеристики морфологии, такие как сложные словоформы и артефакты, например, неразрывные пробелы (ZWNJ) в персидском языке. Существующие решения, такие как BPE-based GPT-2-fa, используют предварительную токенизацию, что приводит к жесткой структуре и ухудшению адаптации к динамически изменяющимся структурам текста. Таким образом, необходимо разработать модель, способную обрабатывать морфологические особенности MRLs без токенизации, сохраняя при этом высокую эффективность вычислений. Данная проблематика мотивирует поиск новых подходов к морфологическому анализу и динамической сегментации последовательностей, которые могут улучшить качество модели, особенно на задачах, требующих высокой точности и робастности к шумам в данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД H-NET++ предлагает инновационный подход к моделированию языков без токенизации, основанный на иерархическом динамическом чанкинге (segmentation). Основные компоненты модели включают: 1. **Легковесный Transformer-контекстный миксер (1.9M параметров)**: этот модуль обеспечивает эффективное взаимодействие между чанками (подпоследовательностями), позволяя модели учитывать контекст на различных уровнях. 2. **Двухуровневая латентная гиперприора (two-level latent hyper-prior)**: этот механизм поддерживает согласованность на уровне документа, что критично для обработки длинных текстовых последовательностей. 3. **Специализированная обработка ортографических артефактов**: модель учитывает специфические особенности персидского языка, такие как ZWNJ, что повышает робастность модели к потенциальным коррупциям в данных. 4. **Куррикулум-басисное обучение (curriculum-based training)**: обучение проводится поэтапно с постепенным увеличением длины последовательностей, что позволяет модели эффективнее адаптироваться к сложности задач. Архитектура H-NET++ построена таким образом, чтобы учитывать морфологические границы без явного наложения супервизии, что демонстрирует возможность извлечения лексических единиц на основе динамического анализа. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на корпусе из 1.4 миллиардов токенов персидского языка. H-NET++ достигла значительных улучшений по сравнению с BPE-based GPT-2-fa: - **Снижение BPB (Bits Per Byte)**: на 0.159 BPB (12% лучшая степень сжатия). - **Повышение результатов на ParsGLUE**: на 5.4 процентных пункта. - **Улучшение робастности**: модель показала 53% выше устойчивости к коррупции ZWNJ. - **Точность морфологического анализа**: F1-мера достигла 73.8% на золотых границах морфологии. Полученные результаты показывают, что H-NET++ эффективно адаптируется к морфологической структуре языка, не требуя явной токенизации, и обеспечивает высокую эффективность вычислений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ H-NET++ открывает новые возможности для обработки MRLs в различных приложениях, таких как машинный перевод, анализ текста и поиск информации. Благодаря ее способности обрабатывать морфологические особенности естественного языка без необходимости токенизации, модель может быть использована в задачах, требующих высокой точности и адаптивности к контексту. Кроме того, легковесная архитектура и высокая эффективность вычислений делают H-NET++ приемлемой для развертывания в ресурсоемких средах, где важна быстрая обработка больших объемов текста. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ H-NET++ представляет собой эффективное решение для моделирования языков без токенизации, особенно в MRLs. Ее иерархический динамический чанкинг позволяет обеспечить высокую точность и робастность, одновременно сохраняя вычислительную эффективность. Будущие исследования могут фокусироваться на расширении данного подхода на другие MRLs, а также на интеграции дополнительных механизмов для улучшения интерпретируемости и адаптации модели к нестандартным контекстам.

Annotation:

Byte-level language models eliminate fragile tokenizers but face computational challenges in morphologically-rich languages (MRLs), where words span many bytes. We propose H-NET++, a hierarchical dynamic-chunking model that learns linguistically-informed segmentation through end-to-end training. Key innovations include: (1) a lightweight Transformer context-mixer (1.9M parameters) for cross-chunk attention, (2) a two-level latent hyper-prior for document-level consistency, (3) specialized handli...

ID: 2508.05628v1 cs.CL, cs.AI

arXiv PDF

📄 KuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation

2025-08-08

Авторы:

Changle Qu, Sunhao Dai, Ke Guo, Liqin Zhao, Yanan Niu, Xiao Zhang, Jun Xu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные платформы стриминга переживают беспрецедентный рост, превращаясь из нишевого развлечения в доминирующий формат потребления онлайн-контента. Уникальность живых трансляций заключается в трех ключевых характеристиках: динамично изменяющемся контенте, реальном времени взаимодействия между зрителями и стримерами, а также высокой степени вовлечения аудитории. Эти особенности создают фундаментально новые вызовы для систем рекомендаций, которые невозможно адекватно решать традиционными методами, разработанными для статического контента вроде видео на YouTube или товаров в e-commerce. Академическое сообщество сталкивается с критическим барьером в развитии этой области – отсутствием качественных публичных датасетов, которые бы точно отражали динамическую природу сред стриминга. Существующие открытые данные либо не содержат информации о временных рамках трансляций, либо игнорируют многотипные взаимодействия пользователей, либо не предоставляют достаточного контекста о пользователях и стримерах. Это приводит к тому, что большинство исследований проводится на синтетических или частичных данных, что резко ограничивает воспроизводимость результатов и практическую применимость разработанных алгоритмов. Индустрия, обладающая доступом к реальным данным, значительно опережает академию в понимании и решении специфических задач рекомендаций в живом стриминге. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления разрыва между академией и индустрией авторы разработали KuaiLive – первый в своем роде набор данных, собранный с крупнейшей китайской платформы живых трансляций Kuaishou с аудиторией более 400 миллионов активных пользователей в день. Методология сбора данных была специально спроектирована для захвата всех ключевых аспектов реального взаимодействия пользователей с живым контентом. Датасет охватывает 21-дневный период и содержит детальные логи взаимодействий 23,772 уникальных пользователей с 452,621 стримером. Ключевое техническое решение заключается в точной временной привязке всех событий – авторы записывают точные временные метки начала и окончания каждой трансляции, что позволяет точно моделировать динамику доступного контента. В отличие от существующих решений, KuaiLive включает четыре типа взаимодействий: клики (переход в комнату стримера), комментарии, лайки и отправка виртуальных подарков. Это многоаспектное поведение пользователей позволяет исследовать сложные паттерны вовлеченности. Архитектура данных включает богатую контекстную информацию: демографические и поведенческие признаки пользователей, метаданные стримеров (категория контента, историческая популярность), а также временные характеристики трансляций. Специальное внимание уделено приватности – все идентификаторы были анонимизированы, а чувствительная информация удалена в соответствии с политикой платформы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексный анализ датасета выявил ранее неизвестные паттерны поведения в экосистеме живого стриминга. Статистический анализ показал, что пользователи демонстрируют крайне нестабильный паттерн просмотра – средняя продолжительность пребывания в комнате составляет всего 3.2 минуты, но 5% самых вовлеченных пользователей проводят в стримах более 2 часов в день. Распределение взаимодействий экспоненциально, где 20% стримеров получают 80% всех взаимодействий, что создает значительные вызовы для обеспечения справедливости рекомендаций. Авторы провели систематическую оценку представительных методов рекомендаций на KuaiLive, включая коллаборативную фильтрацию, графовые нейронные сети и последовательные модели. Лучшие результаты показала адаптированная модель GRU4Rec с учетом временной динамики, достигшая MAP@10 = 0.247 для задачи топ-K рекомендаций. Интересно, что традиционные методы, показывающие высокую эффективность на статических данных, продемонстрировали значительное падение производительности (до 40% по NDCG), подчеркивая фундаментальные различия между статическим и живым контентом. Отдельные эксперименты были проведены для задач прогнозирования времени просмотра (RMSE = 1.34 минуты) и стоимости подарков (средняя абсолют

Annotation:

Live streaming platforms have become a dominant form of online content consumption, offering dynamically evolving content, real-time interactions, and highly engaging user experiences. These unique characteristics introduce new challenges that differentiate live streaming recommendation from traditional recommendation settings and have garnered increasing attention from industry in recent years. However, research progress in academia has been hindered by the lack of publicly available datasets t...

ID: 2508.05633v1 cs.IR, cs.AI

arXiv PDF

📄 Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling

2025-08-08

Авторы:

Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область автономной навигации мобильных роботов в густонаселенных средах является одной из наиболее критически важных и сложных задач современной робототехники. Роботы, обученные с использованием методов обучения с подкреплением (RL), демонстрируют впечатляющие результаты в контролируемых условиях, однако сталкиваются с серьезными проблемами при выходе за пределы обучающего распределения. Это явление, известное как проблема распределения (distribution shift), становится особенно критичным в динамических сценариях с пешеходами, где даже небольшие изменения в поведении людей могут привести к катастрофическим последствиям. Существующие подходы к обеспечению безопасности в навигации часто полагаются на предопределенные правила или консервативные стратегии, которые ограничивают маневренность робота и снижают эффективность в типовых ситуациях. Более того, традиционные методы не учитывают неопределенность в прогнозировании поведения пешеходов, что становится решающим фактором при столкновении с нестандартными паттернами движения. Например, внезапное изменение скорости группы пешеходов, появление агрессивно настроенных индивидов или переход от индивидуального к групповому поведению может привести к систематическим провалам в безопасности. Авторы статьи акцентируют внимание на фундаментальном недостатке современных RL-систем: они оптимизируются только для ожидаемого распределения данных, игнорируя хвостовые сценарии, которые могут быть редкими, но критически важными для безопасности. Это создает ложное чувство надежности и делает таких роботов непригодными для реального применения в неструктурированных человеческих средах. Необходим новый подход, который бы интегрировал оценку неопределенности напрямую в процесс принятия решений, позволяя роботу адаптивно реагировать на непредвиденные обстоятельства без компромисса в эффективности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный метод, который решает проблему устойчивости к распределениям через интеграцию адаптивного конформного вывода (adaptive conformal inference) в процесс обучения с подкреплением. Система работает по принципу двухуровневой архитектуры: на первом уровне модель прогнозирует будущие траектории пешеходов с оценкой неопределенности, а на втором - использует эти оценки для принятия безопасных решений. Ключевым инновационным элементом является использование конформного предиктора, который генерирует калиброванные доверительные интервалы для предсказаний движения пешеходов. В отличие от традиционных вероятностных методов, конформный вывод обеспечует гарантированный уровень покрытия независимо от базового распределения данных. Система динамически адаптирует эти интервалы на основе текущей сцены, учитывая такие факторы как плотность толпы, скорость движения и исторические паттерны поведения. Внедрение неопределенностей в пространство наблюдений агента осуществляется через специально разработанное представление, включающее как предсказанные траектории, так и соответствующие им доверительные области. Это позволяет агенту не просто реагировать на предсказанное поведение, но и учитывать вероятность отклонения от этих предсказаний. Обучение проводится с использованием метода ограниченного обучения с подкреплением (constrained RL), где ограничения формулируются в терминах максимально допустимого уровня неопределенности при взаимодействии с человеком. Архитектура системы включает три основных компонента: модуль прогнозирования траекторий на основе LSTM-сети с вниманием, модуль конформного предиктора для генерации доверительных регионов, и политику агента, обученную через алгоритм Proximal Policy Optimization (PPO) с safety constraints. Уникальность подхода заключается в том, что границы безопасности адаптируются онлайн, реагируя на текущий уровень неопределенности в среде. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось в трех основных направлениях: оценка производительности в in-distribution сценариях, тестирование robustness при различных видах distribution shift, и валидация на реальном роботе. Для in-distribution оценки использовался симуляционный датасет, включающий 10,000 с

Annotation:

Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performance degradation when faced with out-of-distribution scenarios. We propose that by properly accounting for the uncertainties of pedestrians, a robot can learn safe navigation policies that are robust to distribution shifts. Our method augments agent observations with prediction uncertainty estimates generated by adaptive conformal inference, and it uses these estimates to guide the agent's behavior...

ID: 2508.05634v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection

2025-08-08

Авторы:

Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng

**Резюме** Развитие AI-систем для генерации изображений привело к появлению гиперреалистичных deepfake, создающих риски для этики и распространения ложных сведений. Традиционные методы обнаружения deepfake, в том числе специфические для лиц или общие для AI-генерируемых данных, не обеспечивают прозрачности, так как формализуют задачу как классификацию без объяснения решений. Хотя некоторые подходы на основе языковых моделей (LLM) предлагают определённый уровень explainability, они страдают от грубых анализов и требуют интенсивной аннотации данных. В этой работе представлен RAIDX — новый фреймворк для обнаружения и объяснения deepfake, который сочетает Retrieval-Augmented Generation (RAG) и Group Relative Policy Optimization (GRPO). RAG используется для добавления внешнего знания, что повышает точность обнаружения, а GRPO позволяет самостоятельно генерировать точные текстовые объяснения и сальиент-карты, не требуя трудоемких аннотаций. Результаты экспериментов на различных датасетах показывают, что RAIDX достигает высокой точности обнаружения и обеспечивает интерпретируемые объяснения, предоставляя как текстовые описания, так и визуальные карты. Этот фреймворк является первым единым решением, которое сочетает RAG и GRPO, решая проблемы точности и прозрачности в обнаружении deepfake.

Annotation:

The rapid advancement of AI-generation models has enabled the creation of hyperrealistic imagery, posing ethical risks through widespread misinformation. Current deepfake detection methods, categorized as face specific detectors or general AI-generated detectors, lack transparency by framing detection as a classification task without explaining decisions. While several LLM-based approaches offer explainability, they suffer from coarse-grained analyses and dependency on labor-intensive annotation...

ID: 2508.04524v1 cs.CV, cs.AI

arXiv PDF

📄 Unveiling the Landscape of Clinical Depression Assessment: From Behavioral Signatures to Psychiatric Reasoning

2025-08-08

Авторы:

Zhuang Chen, Guanqun Bi, Wen Zhang, Jiawei Hu, Aoyun Wang, Xiyao Xiao, Kun Feng, Minlie Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Депрессия представляет собой одно из наиболее распространенных психических расстройств, затрагивающее миллионы людей по всему миру и оказывающее значительное влияние на качество жизни, социальную адаптацию и экономическое благополучие общества. Несмотря на активное развитие методов автоматической диагностики психических расстройств, современные исследования в области автоматизированной оценки депрессии сталкиваются с рядом критических проблем. Во-первых, большинство существующих работ опираются на ограниченные или непроверенные клиническим сообществом наборы данных, что подрывает достоверность и обобщаемость получаемых результатов. Во-вторых, исследователи часто делают акцент на разработке сложных моделей машинного обучения, жертвуя при этом клинической значимостью и практической применимостью в реальных условиях медицинской практики. Существующий разрыв между академическими исследованиями и клинической реальностью проявляется в отсутствии стандартизированных протоколов диагностики, недостаточной валидации методов на репрезентативных когортах пациентов и ограниченном использовании мультимодальных данных, которые могут отражать комплексную картину психического состояния пациента. Традиционные подходы часто игнорируют важность поведенческих маркеров, которые могут быть выявлены через структурированные клинические задания, а также недооценивают роль экспертного клинического заключения в процессе формирования диагноза. Эти проблемы требуют комплексного решения, включающего создание достоверных клинических наборов данных, разработку методов, учитывающих специфику психиатрического диагностического процесса, и переосмысление роли искусственного интеллекта в контексте клинического мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют C-MIND — инновационный клинический нейропсихиатрический мультимодальный диагностический набор данных, собранный в течение двух лет в условиях реальных стационарных обращений. Каждый участник проходил три структурированных психиатрических задания, разработанных для выявления специфических поведенческих паттернов, связанных с депрессией. В процессе выполнения заданий фиксировались аудио- и видеосигналы, создавались расшифровки речи, а также регистрировались данные функциональной ближней инфракрасной спектроскопии (fNIRS), позволяющие оценить активность префронтальной коры мозга. Финальный диагноз каждого пациента формировался коллективом экспертов-клиницистов на основе полного клинического обследования. Методология исследования включает несколько этапов. На первом этапе проводится глубокий анализ поведенческих маркеров, релевантных для диагностики депрессии, включая особенности речевой продукции, мимические выражения, двигательную активность и паттерны межличностного взаимодействия. На втором этапе исследуется вклад различных модальностей данных в общую диагностическую точность путем обучения и сравнения классических моделей машинного обучения на отдельных и комбинированных наборах признаков. Третий этап посвящен изучению способности больших языковых моделей (LLM) воспроизводить логику психиатрического рассуждения, характерную для клинической практики. Для преодоления выявленных ограничений авторы разрабатывают метод направленного клиническим знанием обучения, который интегрирует экспертные знания в процесс рассуждения LLM, обеспечивая более точную и клинически обоснованную диагностику. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования была проведена на основе C-MIND набора данных, включающего данные, собранные в течение двух лет в клинических условиях. В исследовании участвовали пациенты, проходившие диагностическое обследование в стационарных условиях, с подтвержденным диагнозом депрессии или отсутствием такового после полного клинического обследования. Каждый участник выполнял три структурированных психиатрических задания, специально разработанных для активации специфических поведенческих паттернов, связанных с депрессивными расстройствами. В процессе выполнения заданий регистрировались мультимодальные данные: аудиозаписи речи, видеозаписи поведения, расшифровки вербального контента и дан

Annotation:

Depression is a widespread mental disorder that affects millions worldwide. While automated depression assessment shows promise, most studies rely on limited or non-clinically validated data, and often prioritize complex model design over real-world effectiveness. In this paper, we aim to unveil the landscape of clinical depression assessment. We introduce C-MIND, a clinical neuropsychiatric multimodal diagnosis dataset collected over two years from real hospital visits. Each participant complet...

ID: 2508.04531v1 cs.CL, cs.AI

arXiv PDF

📄 MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning

2025-08-08

Авторы:

Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung

## КОНТЕКСТ И ПРОБЛЕМАТИКА Морские видеоролики представляют сложную область для понимания видео, особенно в связи с динамическими движениями морских объектов, изменчивостью окружающей среды, движением камеры, а также сложностью подводных сцен. Эти факторы существенно усложняют задачи видеоанализа, включая видеокапитанизацию (video captioning). Существующие наборы данных для видеокапитанизации традиционно сосредоточены на общих или человеко-центрических областях, что ограничивает их применимость в контексте морских условий. Морские видео требуют более специфичных подходов для понимания движений и поведения морских объектов, что остается недостаточно изученным в современных исследованиях. Дополнительным вызовом является необходимость визуальной землеустройства (visual grounding) для точного определения и классификации морских объектов в видео. Существующие методы часто не способны эффектовно обрабатывать сложные подводные сцены, в которых могут встречаться разнообразные объекты, такие как рыбы, кораллы, и другие элементы морской среды. Это приводит к необходимости разработки новых подходов, которые могут учитывать специфику морских сред и обеспечивать более точную интерпретацию видео. Проблематика видеокапитанизации в морских условиях также осложняется тем, что многие существующие модели не способны эффективно обрабатывать изменения сцены и переходы между объектами. Это может приводить к недостаточной точности и семантической глубине при генерации описаний видео. Таким образом, требуется разработка новых методологий, которые могут обрабатывать сложность морских видео и обеспечивать более глубокое понимание содержания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеупомянутых проблем, авторы предлагают двухэтапную модель видеокапитанизации, ориентированную на морские объекты. Первый этап заключается в создании набора данных, который содержит тройки видео, текста и масок сегментации. Эти маски позволяют выполнять визуальное землеустройство, то есть точно определять и отделять морские объекты на видео. Набор данных также включает в себя аннотации на уровне клипов, что позволяет создавать более детальные и семантически значимые описания. Второй этап заключается в разработке модели, которая использует эти данные для генерации описаний. Модель работает на основе видео, которые разбиваются на клипы для обнаружения значимых переходов объектов и смены сцен. Это позволяет модели лучше понять структуру видео и генерировать более точные описания. Авторы также подчеркивают важность использования сегментации для определения ключевых объектов и их движений, что значительно улучшает качество генерируемых описаний. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить эффективность предложенного подхода. Они использовали набор данных, состоящий из морских видео, аннотированных сегментационными масками и текстовыми описаниями. Модель была протестирована на различных метриках, таких как точность описаний и семантическая значимость генерируемых текстов. Результаты показали, что предложенный подход значительно превосходит существующие методы в видеокапитанизации морских видео. Использование сегментации и разбиения видео на клипы позволило модели лучше определять ключевые моменты и генерировать более детальные описания. Было показано, что модель способна обрабатывать сложные морские сцены и генерировать описания, которые лучше отражают содержание видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области морского мониторинга, экологических исследований и консервации морской фауны. Точные описания морских видео могут быть использованы для мониторинга состояния морских экосистем, анализа поведения морских объектов и мониторинга изменений в морской среде. Благодаря точной сегментации и генерации описаний, модель может быть использована для автоматизации анализа больших объемов морских данных, что значительно упрощает процесс мониторинга и исследования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках этого исследования был предложен новый подход к видеокапитанизации морских видео, который позволяет лучше понять динамику морских объектов и генерировать более точные описания. Будущие исследования могут фокусироваться на улучшении модели путем интеграции дополнительных данных, таких как звуковые аннотации или данные окружающей среды, для еще более точного анализа морских видео. Также можно рассмотреть возможность применения этого подхода к другим областям, где важна точная интерпретация видео, таким как медицинский мониторинг или анализ транспортных систем.

Annotation:

Marine videos present significant challenges for video understanding due to the dynamics of marine objects and the surrounding environment, camera motion, and the complexity of underwater scenes. Existing video captioning datasets, typically focused on generic or human-centric domains, often fail to generalize to the complexities of the marine environment and gain insights about marine life. To address these limitations, we propose a two-stage marine object-oriented video captioning pipeline. We...

ID: 2508.04549v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 SID: Benchmarking Guided Instruction Capabilities in STEM Education with a Socratic Interdisciplinary Dialogues Dataset

2025-08-08

Авторы:

Mei Jiang, Houping Yue, Bingdong Li, Hao Hao, Ying Qian, Bo Jiang, Aimin Zhou

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное образование стремится развивать у студентов способность к интеграции и переносу знаний в условиях сложных проблем, особенно в области STEM (наука, технология, инженерия, математика). Интердисциплинарные подходы к STEM призваны стимулировать такую способность, но они требуют высококвалифицированного руководства, которое трудно масштабировать. Искусственные интеллектуальные системы, такие как большие языковые модели (LLMs), представляют собой перспективный инструмент для такого руководства, однако их реальные возможности в области наставничества все еще недостаточно изучены. Отсутствие систематического бенчмарка для оценки их способностей к руководству в интердисциплинарных диалогах является ключевой проблемой. Интердисциплинарные диалоги, основанные на методе Сократа, требуют от системы не только понимания контекста, но и возможность формирования высокоуровневых педагогических стратегий для поддержки студентов в достижении интеграции знаний. Несмотря на широкие возможности современных LLMs, их эффективность в таких сценариях остается неясной. Таким образом, необходимо разработать комплексный бенчмарк, который позволит оценивать их педагогическую эффективность в условиях интердисциплинарных обсуждений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы авторы представляют SID (Socratic Interdisciplinary Dialogues Dataset) – первый бенчмарк, специально разработанный для оценки высокоуровневых педагогических возможностей LLMs в интердисциплинарных диалогах. SID включает в себя набор данных из 10 000 диалоговых очередей, охватывающих 48 сложных проектов STEM. Эти данные были тщательно аннотированы с использованием новой схемы, охватывающей глубокие педагогические аспекты, такие как логика развития диалога, вопросы наставничества и стратегии интеграции знаний. Кроме того, авторы предлагают новый набор метрик, включающий X-SRG (Cross-disciplinary Semantic Response Generation), для оценки качества ответов LLMs в контексте интердисциплинарных задач. Эти метрики позволяют измерять не только точность ответов, но и их педагогическую ценность, такие как способность к формированию связей между различными дисциплинами и поддержке студентов в достижении глубокого понимания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели базовые эксперименты, используя несколько современных LLMs на данных SID. Результаты показали, что, несмотря на высокие технические возможности LLMs, их способность к эффективному руководству в интердисциплинарных диалогах остается ограниченной. Модели с лучшими результатами показали лишь умеренную эффективность в поддержке интеграции знаний и переноса на практику. Эксперименты также выявили недостатки в том, как LLMs формулируют вопросы и строят логические последовательности в диалогах. Эти результаты подтверждают необходимость развития более педагогически ориентированных моделей, способных лучше адаптироваться к специфике интердисциплинарного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SID представляет собой важный шаг в развитии образовательных технологий, особенно в области интердисциплинарного STEM-образования. Он может стать ключевым инструментом для разработчиков LLMs, стремящихся создавать более эффективные системы для поддержки обучения. Благодаря SID, можно оценивать не только техническую производительность моделей, но и их педагогическую эффективность, что крайне важно для их применения в реальных учебных средах. Кроме того, SID может быть использован для разработки и тестирования новых методологий обучения, ориентированных на интеграцию знаний и перенос их на практику. Это может привести к созданию более инновационных образовательных решений, особенно в сфере дистанционного и адаптивного обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данной работы является создание SID – первого бенчмарка для оценки педагогических возможностей LLMs в интердисциплинарных диалогах. Это открывает новые перспективы для развития образовательных технологий, особенно в контексте STEM. Будущие исследования могут фокусироваться на разработке моделей, которые лучше адаптированы к педагогическим задачам, а также на расширении SID для охвата более широкого спектра дисциплин и сценариев обучения.

Annotation:

Fostering students' abilities for knowledge integration and transfer in complex problem-solving scenarios is a core objective of modern education, and interdisciplinary STEM is a key pathway to achieve this, yet it requires expert guidance that is difficult to scale. While LLMs offer potential in this regard, their true capability for guided instruction remains unclear due to the lack of an effective evaluation benchmark. To address this, we introduce SID, the first benchmark designed to systema...

ID: 2508.04563v1 cs.AI

arXiv PDF

📄 CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization

2025-08-08

Авторы:

Jinxing Zhou, Ziheng Zhou, Yanghao Zhou, Yuxin Mao, Zhangling Duan, Dan Guo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача Dense Audio-Visual Event Localization (DAVEL) заключается в выявлении и точной временной локализации событий в нетриммированных видеозаписях, которые происходят одновременно в аудио- и визуальных модальностях. Традиционные подходы к DAVEL полагаются на полное временное аннотирование данных, где для каждого события указаны точные начальные и конечные временные границы. Однако создание таких детализированных аннотаций требует значительных человеческих ресурсов и временных затрат, что ограничивает масштабируемость решений и применимость методов в реальных сценариях. Новая и более сложная постановка задачи, предложенная в статье - Weakly-supervised Dense Audio-Visual Event Localization (W-DAVEL) - устраняет необходимость в детальных временных аннотациях. В этой постановке доступны только видео-уровневые метки событий, без какой-либо информации о том, когда именно эти события происходят в течение видео. Это создает фундаментальную проблему: как обучить модель точно локализовать события во времени, имея только информацию о наличии событий в видео в целом? Основная сложность W-DAVEL заключается в необходимости одновременно справляться с двумя типами неопределенности: во-первых, неопределенностью временных границ событий из-за отсутствия детальных аннотаций, и во-вторых, неопределенностью межмодального соответствия между аудио и визуальными сигналами. Традиционные методы обучения слабой супервизии, такие как Multiple Instance Learning (MIL), плохо переносятся на межмодальную аудио-визуальную локализацию из-за сложности установления соответствия между двумя различными модальностями и необходимости учета их временной синхронизации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод CLASP (Cross-modal Salient Anchor-based Semantic Propagation), который решает проблему W-DAVEL через идентификацию и использование "кросс-модальных салиентных якорей" - надежных временных меток, которые хорошо предсказываются даже при слабом супервизии и демонстрируют высокую консистентность семантики событий между аудио- и визуальными модальностями. Методология CLASP состоит из трех ключевых компонентов. Первый - модуль Mutual Event Agreement Evaluation (MEAE), который генерирует согласованную оценку, измеряя расхождение между предсказанными аудио- и визуальными классами событий. Этот модуль работает путем сравнения вероятностных распределений событий, полученных из каждой модальности, и вычисления метрики согласия, которая указывает на степень межмодальной консистентности в каждый момент времени. Второй компонент - Cross-modal Salient Anchor Identification (CSAI), который использует оценки согласия для идентификации якорных признаков в аудио и визуальных потоках. Этот модуль работает на двух уровнях: глобальном (на уровне всего видео) и локальном (в пределах временных окон). На глобальном уровне выбираются наиболее надежные временные метки, которые демонстрируют наивысшее согласие между модальностями. На локальном уровне происходит уточнение выбора в контексте временных соседей для обеспечения временной гладкости и устойчивости. Третий компонент - Anchor-based Temporal Propagation (ATP) - использует идентифицированные якорные признаки для улучшения семантического кодирования событий в исходных временных аудио- и визуальных признаках. Это достигается через механизм распространения семантической информации от якорных точек к соседним временным меткам, что позволяет улучшить качество временной локализации событий даже при слабом супервизии. Межмодальная интеграция якорных признаков обеспечивает синхронизацию аудио-визуальной информации и усиление сигналов, подтверждающих наличие событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширную экспериментальную оценку предложенного метода на двух крупных датасетах: UnAV-100 и ActivityNet1.3, которые были адаптированы для задачи W-DAVEL. Эти датасеты представляют собой разнообразные видеоматериалы с аудио-визуальными событиями, охватывающие широкий спектр жанров и сценариев, от повседневных активностей до специализированных действий. В экспериментах использовались стандартные метрики оценки качества временной локализации событий, включая mean Average Precision (m

Annotation:

The Dense Audio-Visual Event Localization (DAVEL) task aims to temporally localize events in untrimmed videos that occur simultaneously in both the audio and visual modalities. This paper explores DAVEL under a new and more challenging weakly-supervised setting (W-DAVEL task), where only video-level event labels are provided and the temporal boundaries of each event are unknown. We address W-DAVEL by exploiting \textit{cross-modal salient anchors}, which are defined as reliable timestamps that a...

ID: 2508.04566v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration

2025-08-08

Авторы:

Nuo Chen, Yicheng Tong, Jiaying Wu, Minh Duc Duong, Qian Wang, Qingyun Zou, Bryan Hooi, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация научных идей является фундаментальной задачей в процессе исследовательской деятельности, определяющей направление развития науки и технологий. Современные системы искусственного интеллекта демонстрируют растущий потенциал в автоматизированной генерации научных концепций, однако большинство существующих фреймворков ограничиваются использованием одиночных агентов, работающих в изоляции. Такой подход сталкивается с фундаментальными ограничениями, связанными с ограниченностью знаний и перспектив отдельного агента, что приводит к снижению креативности и инновационности предлагаемых идей. В реальном научном процессе прорывные идеи редко возникают в результате индивидуального размышления. Напротив, они формируются в ходе коллаборативных обсуждений между учеными с различным опытом, экспертизой и точками зрения. Эта социальная природа научного творчества остаётся недостаточно исследованной в контексте разработки систем ИИ для генерации научных идей. Существующие исследования фокусируются преимущественно на улучшении способностей отдельных агентов, в то время как коллективная динамика и структурные аспекты командной работы остаются вне поля зрения. Ключевой проблемой является отсутствие систематического понимания того, как различные параметры многоагентного взаимодействия влияют на качество генерируемых научных предложений. Вопросы оптимального размера команды, наличия или отсутствия лидерства, уровня междисциплинарности и сочетания опыта участников остаются открытыми. Без такого понимания разработка эффективных систем ИИ для научной генерации идей будет продолжать полагаться на интуитивные и эмпирические подходы, а не на строгое научное обоснование. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают кооперативный многоагентный фреймворк, специально разработанный для генерации научных исследовательских предложений. Система построена на принципах структурированного взаимодействия между агентами, каждый из которых представляет собой языковую модель с определённым набором характеристик и экспертизой. Архитектура фреймворка включает несколько ключевых компонентов, обеспечивающих эффективную коллаборацию. Первым компонентом является механизм назначения ролей, где каждый агент получает чётко определённую персону с уникальной комбинацией опыта (младший/старший исследователь) и дисциплинарной принадлежности (биология, информатика, физика и др.). Это позволяет моделировать различные конфигурации команд, включая однородные и гетерогенные составы. Вторым важным элементом является система управления дискуссией, которая может функционировать как в лидерском режиме (с назначенным лидером-агентом), так и в безлидерском формате. Процесс генерации идей происходит в несколько этапов. На начальном этапе агенты независимо генерируют предварительные идеи на основе общей тематики. Затем следует фаза структурированной дискуссии, где агенты обмениваются мнениями, критикуют идеи друг друга и предлагают улучшения. В лидерской конфигурации лидер-агент координирует обсуждение, направляет внимание команды на ключевые аспекты и интегрирует предложения в единое целостное предложение. В безлидерской конфигурации используется консенсусный подход с автоматическим обнаружением и разрешением конфликтов. Для оценки качества генерируемых идей разработан комплексный протокол, включающий как автоматизированную, так и человеческую оценку. Автоматизированная система использует специально обученных агентов-оценщиков, которые анализируют предложения по нескольким измерениям: новизна, стратегическое видение, глубина интеграции концепций, практическая применимость и теоретическая обоснованность. Человеческая экспертиза привлекается для валидации результатов автоматической оценки и обеспечения научной достоверности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала систематическое сравнение различных конфигураций многоагентных систем с одиночными агентами-базовыми линиями. Всего было протестировано более 30 различных конфигураций, варьирующихся по размеру команды (от

Annotation:

While AI agents show potential in scientific ideation, most existing frameworks rely on single-agent refinement, limiting creativity due to bounded knowledge and perspective. Inspired by real-world research dynamics, this paper investigates whether structured multi-agent discussions can surpass solitary ideation. We propose a cooperative multi-agent framework for generating research proposals and systematically compare configurations including group size, leaderled versus leaderless structures, ...

ID: 2508.04575v1 cs.CL, cs.AI, cs.CY

arXiv PDF

1
2
1431
1432
1433
1434
1435
1442
1443

Показано 14321 - 14330 из 14425 записей