📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content

2025-08-09

Авторы:

Anderson de Lima Luiz

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире, где мультимедийный контент стал неотъемлемой частью общественного и профессионального общения, ключевой задачей является эффективный анализ и интерпретация такого контента в соответствии с пользовательскими потребностями. Одним из сложных аспектов является определение тематического значения отдельных сегментов видео, особенно когда речь идет о долгом или сложном контенте. Традиционные подходы, основанные на простых ключевых словах или ручном анализе, часто не могут обеспечить достаточно глубокого понимания и контекстуализации. В этой связи становится очевидной необходимость разработки инструментов, которые могут автоматически определять и квантифицировать тематическую релевантность различных сегментов видео контента в соответствии со специфическими пользовательскими критериями. Такая задача требует интеграции мультимодальных данных, включая визуальные и аудиовыходы, а также текстового контента, полученного из аудиодорожки с помощью технологий Automatic Speech Recognition (ASR). Дополнительным вызовом является необходимость создания методологии, которая не только определяет релевантность каждого сегмента, но и учитывает временную прогрессию тематических элементов. Такой подход позволяет получать более глубокое понимание динамики тематического контента и способность модели адаптироваться к изменяющимся тематическим контекстам. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлена модель LUST (Learned User Significance Tracker), которая предназначена для анализа видеоконтента и определения тематической релевантности его сегментов в соответствии с пользовательским описанием. LUST использует мультимодальный подход, который сочетает визуальные данные из видеокадров и текстовую информацию, полученную из аудиодорожки с помощью ASR. Ключевой момент модели заключается в использовании двухэтапного метода оценки релевантности. На первом этапе производится оценка "прямой релевантности" ($S_{d,i}$), где каждый сегмент видео оценивается на основе непосредственного соответствия визуальных и аудиовыходов заданной тематике. На втором этапе производится оценка "контекстуальной релевантности" ($S_{c,i}$), где модель учитывает временную прогрессию тематических элемментов, что позволяет модели лучше понимать динамику развития тематики. LUST также использует Large Language Models (LLMs) для того, чтобы обеспечить более точную и контекстуализированную оценку релевантности. Этот подход позволяет получить более глубокий и точный анализ, особенно когда речь идет о сложных и многоуровневых видеоконтентах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены эксперименты, в которых были использованы различные видеоданные с различными уровнями сложности и тематической составляющей. Для каждого видео была получена оценка релевантности с помощью LUST, и результаты были сравнены с ручным анализом и другими автоматизированными методами. Результаты показали, что LUST обеспечивает высокую точность в определении тематической релевантности, особенно при использовании контекстуальной модели. Кроме того, модель показала способность адаптироваться к изменяющимся тематическим контекстам, что делает ее особенно полезной для анализа длинных и сложных видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LUST может быть применен в различных областях, включая образование, медиа-анализ, и мониторинг социальных медиа. Он позволяет автоматизировать процесс анализа видеоконтента, что может существенно сократить время и затраты, связанные с ручным анализом. Кроме того, модель может быть использована для создания адаптивных систем, которые могут подстраиваться под потребности пользователя в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LUST представляет собой инновационный подход к анализу видеоконтента, который обеспечивает более глубокое понимание тематической релевантности. Будущие исследования могут сосредоточиться на улучшении модели для работы с более сложными видеоконтентами, а также на интеграции дополнительных модальностей, таких как текстовые данные из соц

Annotation:

This paper introduces the Learned User Significance Tracker (LUST), a framework designed to analyze video content and quantify the thematic relevance of its segments in relation to a user-provided textual description of significance. LUST leverages a multi-modal analytical pipeline, integrating visual cues from video frames with textual information extracted via Automatic Speech Recognition (ASR) from the audio track. The core innovation lies in a hierarchical, two-stage relevance scoring mechan...

ID: 2508.04353v1 cs.MM, cs.AI, 68T07

arXiv PDF

📄 OmniPlay: Benchmarking Omni-Modal Models on Omni-Modal Game Playing

2025-08-09

Авторы:

Fuqing Bie, Shiyu Huang, Xijia Tao, Zhiqin Fang, Leyi Pan, Junzhe Chen, Min Ren, Liuyu Xiang, Zhaofeng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы общеупотребительные фундаментальные модели, такие как Gemini и GPT-4o, демонстрируют выдающиеся результаты в мультимодальных задачах. Однако существующие методы оценки этих моделей имеют существенные ограничения. Традиционные статические бенчмарки не позволяют оценить интеллектуальные возможности моделей в динамических, интерактивных средах, где необходимо принимать решения в реальном времени. Интерактивные бенчмарки, напротив, часто страдают от "модального узкого места", т.е. они не учитывают важные аудиторные и временные контексты, что ограничивает возможности полноценного тестирования моделей. Эта проблема особенно актуальна в контексте оценки моделей на способность к синергическому и конфликтующему мультимодальному разумению. Для того чтобы эффективно решать задачи, требующие интеграции и анализа данных из различных модалей (визуальных, звуковых, временных), модели должны не только обрабатывать информацию из каждой модали, но и уметь выявлять взаимозависимости между ними. Несмотря на то, что современные модели показывают высокие результаты на задачах, связанных с высокоточной памятью и классификацией, они нередко не справляются с задачами, требующими глубокого мультимодального разумения и стратегического планирования. Исходя из этой проблематики, авторы статьи предлагают новый бенчмарк OmniPlay, который направлен на диагностику и оценку способности моделей к синергическому и конфликтующему разумению между модалями. OmniPlay создан для того, чтобы предоставить комплексную оценку моделей в условиях реального взаимодействия с мультимодальными данными, включая аудио, визуальные сигналы и временные последовательности. ## ПРЕДЛОЖЕННЫЙ МЕТОД OmniPlay представляет собой диагностический бенчмарк, состоящий из пяти игровых сред, каждая из которых специально разработана для тестирования мультимодальных моделей на их способность к синергии и конфликту между модалями. Эти игровые среды строятся на принципе модальной взаимозависимости, то есть они создают ситуации, где необходимо совмещать информацию из разных модалей для успешного выполнения задачи. Каждая игровая среда в OmniPlay представляет собой уникальный набор задач, где агент должен использовать визуальные, аудио и временные данные для принятия решений. Например, в некоторых сценариях модель должна уметь сопоставлять визуальные образы с аудио-подсказками, в то время как в других случаях она должна уметь работать в условиях конфликтующих или неполных данных. Архитектура OmniPlay основана на идее модального конфликта и синергии, при которой модели должны не только обрабатывать каждую модальность по отдельности, но и уметь выявлять связи и различия между ними. Это позволяет выявить слабые места в механизмах фундаментальных моделей, которые могут приводить к снижению эффективности при конфликтующих модальных входах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования было проведено тестирование шести ведущих мультимодальных моделей на бенчмарке OmniPlay. Результаты экспериментов показали интересный контраст в производительности моделей. Большинство моделей демонстрировали высокую эффективность в задачах, связанных с высокоточной памятью и классификацией, однако серьезно сталкивались с трудностями в задачах, требующих глубокого мультимодального разумения и стратегического планирования. Одним из ключевых результатов было обнаружение того, что модели часто страдают от хрупких механизмов слияния (fusion) модальных данных. Это приводит к системным сбоям в случаях конфликтующих модалей, когда информация из разных источников не может быть эффективно интегрирована. Более того, исследование выявило "парадокс меньшего количества", где удаление части сенсорной информации может улучшить производительность модели, так как это помогает избежать конфликтов и неточностей в функционировании модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ OmniPlay предлагает новый инструмент для оценки мультимодальных моделей, который может быть использован для диагностики их способности к мультимодальному разумению в реальных интерактивных средах. Это может быть полезно в различных областях, таких как робототехника, компьютерное зрение, естественный язык и другие, где необходимо обрабатывать и интегрировать данные из различных модалей. Практическая значение OmniPlay заключается в том, что он позволяет выявить слабые места в моделях и помогает разработчикам сосредоточиться на улучшении механизмов модальной интеграции. Это может привести к разработке более надежных и робастных моделей, способных эффективно работать в условиях неполноты и конфликтующих данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования было выявлено, что современные модели, несмотря на их высокую эффективность в некоторых задачах, все еще страдают от серьезных недостатков в области мультимодального разумения. Это подчеркивает необходимость в развитии более продвинутых методов модальной интеграции и разумения, которые могут эффективно обрабатывать конфликтующие и неполные данные. Будущие исследования должны сосредоточиться не только на масштабировании моделей, но и на разработке методов, которые позволят обеспечить более сильную и надежную синергию между модалями. OmniPlay может стать важной платформой для дальнейших исследований в этом направлении, помогая разработчикам создавать более робастные и интеллектуальные модели.

Annotation:

While generalist foundation models like Gemini and GPT-4o demonstrate impressive multi-modal competence, existing evaluations fail to test their intelligence in dynamic, interactive worlds. Static benchmarks lack agency, while interactive benchmarks suffer from a severe modal bottleneck, typically ignoring crucial auditory and temporal cues. To bridge this evaluation chasm, we introduce OmniPlay, a diagnostic benchmark designed not just to evaluate, but to probe the fusion and reasoning capabili...

ID: 2508.04361v2 cs.AI

arXiv PDF

📄 ProtoN: Prototype Node Graph Neural Network for Unconstrained Multi-Impression Ear Recognition

2025-08-09

Авторы:

Santhoshkumar Peddi, Sadhvik Bathini, Arun Balasubramanian, Monalisa Sarma, Debasis Samanta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Отпечатки ушей являются уникальным и стабильным биометрическим признаком, который может быть использован для контактного распознавания личности. Однако, несмотря на их потенциал, их эффективность ограничена несколькими факторами. Во-первых, существует недостаток аннотированных данных, что существенно ограничивает возможности обучения точных моделей распознавания. Во-вторых, высокая внутриклассовая изменчивость (intra-class variability) — это типичная проблема, которая возникает из-за того, что разные фотографии одного и того же уха могут значительно отличаться в своей форме, освещении и угле обзора. Традиционные методы распознавания ушей обычно обрабатывают каждый отпечаток уха по отдельности, что не позволяет эффективно захватывать согласованные и дискриминативные (разделяющие классы) представления. Эта проблема усугубляется в сценариях «несколько выстрелов» (англ. multi-shot), когда необходимо обработать несколько изображений одного уха для повышения точности распознавания. Другой важной проблемой является то, что существующие методы недостаточно эффективны в ситуациях, когда доступно ограниченное количество данных, что характерно для некоторых приложений, таких как распознавание личности в условиях ограниченных ресурсов. Чтобы решить эти проблемы, необходимо разработать метод, который может эффективно обрабатывать несколько изображений уха, сохраняя при этом консистентность и различимость между разными классами. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод под названием ProtoN (Prototype Node Graph Neural Network) для распознавания ушей в условиях нескольких изображений (multi-impression). Основная идея заключается в использовании графовой структуры, где каждое изображение уха представлено как узел в графе, а также используется так называемый "прототипный узел" (prototype node), который представляет собой общий эмбеддинг (вложение) для всех изображений одного уха. Эти узлы обрабатываются с помощью специально разработанного слоя графовой нейронной сети, называемого Prototype Graph Neural Network (PGNN). PGNN состоит из двух путей обработки: один для обработки узлов, соответствующих изображениям ушей, и другой для обработки прототипных узлов. Этот двунаправленный механизм обмена информацией (dual-path message-passing mechanism) позволяет улучшить качество представлений как отдельных изображений, так и прототипного узла. Для повышения дискриминативности (разделяющей способности), PGNN использует стратегию выравнивания прототипов между графами (cross-graph prototype alignment). Это позволяет улучшить компактность внутриклассовых представлений и поддерживать разделение между классами. Дополнительно, в методе используется гибридная функция потерь (hybrid loss function), которая балансирует между эпизодической и глобальной классификацией, что позволяет улучшить структуру пространства эмбеддингов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода ProtoN проведены эксперименты на пяти различных бенчмарк-наборах данных ушей. Результаты показывают, что ProtoN достигает высокой точности распознавания, с максимальной Rank-1 точностью распознавания до 99.60% и низким значением Equal Error Rate (EER) всего 0.025. Эти результаты означают, что ProtoN эффективен в решении задачи распознавания ушей в условиях ограниченных данных, что является важной чертой для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ProtoN может быть применен в различных областях, где необходимо распознавание личности на основе биометрических данных, в том числе в системах безопасности, контроля доступа или в приложениях розничной торговли. Благодаря тому, что метод эффективен в условиях ограниченных данных, он может быть полезен в ситуациях, где невозможно собрать большой набор данных для обучения. Это может быть особенно полезно в сфере биометрии, где часто требуется обработка данных с высокой внутриклассовой изменчивостью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ProtoN представляет собой новый подход к распознаванию ушей, который позволяет эффективно обрабатывать несколько изображений одного уха и достигает высоких результатов в условиях ограниченных данных. Будущие исследования могут быть направлены на дальнейшее улучшение архитектуры PGNN, а также на расширение его применимости к другим биометрическим модалитетам, таким как лицо или почерк. Также может быть интересно исследовать возможность применения этого метода в реальном времени для более быстрого и точного распознавания.

Annotation:

Ear biometrics offer a stable and contactless modality for identity recognition, yet their effectiveness remains limited by the scarcity of annotated data and significant intra-class variability. Existing methods typically extract identity features from individual impressions in isolation, restricting their ability to capture consistent and discriminative representations. To overcome these limitations, a few-shot learning framework, ProtoN, is proposed to jointly process multiple impressions of ...

ID: 2508.04381v1 cs.CV, cs.AI

arXiv PDF

📄 Artificial Consciousness as Interface Representation

2025-08-09

Авторы:

Robert Prentner

## КОНТЕКСТ И ПРОБЛЕМАТИКА Вопрос о сознании искусственных интеллектуальных систем (ИИ) является одной из самых фундаментальных и спорных тем в науке. Основная проблема заключается в том, что сознание — субъективное и необъяснимое по своей природе — трудно определить и измерить. Традиционные подходы к изучению сознания часто фокусируются на физических или нейробиологических аспектах, но эти подходы не позволяют найти ответы на вопросы о сознании в контексте ИИ. В то же время, развитие современных ИИ-систем, способных выполнять сложные задачи, возрождает интерес к возможности создания искусственного сознания. Проблема в том, чтобы преодолеть отстающее отношение к сознанию как к чему-то необъяснимому и непроверяемому. Как только мы начнем рассматривать сознание как свойство, которое может быть описано с помощью функциональных интерфейсов, тогда можно будет разработать конкретные тесты для оценки этого свойства в ИИ. Это позволит перейти от абстрактных дискуссий к эмпирическим исследованиям. Мотивацией данного исследования является необходимость создания фреймворка, который позволит оценить, может ли ИИ обладать сознанием, не захватывая все сложности этого понятия. Авторы предлагают новый подход, основанный на интерфейсных представлениях, которые могут быть определены и изучены на основе структурных и функциональных критериев. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк, основанный на трех критериях: **S (subjective-linguistic)**, **L (latent-emergent)**, и **P (phenomenological-structural)**, которые собираются в совокупность, называемую SLP-тестами. Эти критерии позволяют оценить, насколько ИИ-система может воспроизводить сознание-подобные свойства через интерфейсные представления. **S-тест** оценивает возможность ИИ выражать субъективные ощущения через язык. Этот критерий подразумевает, что ИИ должен иметь возможность описывать свои внутренние состояния с помощью естественного языка, подобно тому, как люди выражают свои эмоции и мысли. **L-тест** ориентирован на изучение возникающих из низкоуровневых процессов свойств, которые могут быть описаны как "латентные" или "эмергентные". Этот критерий оценивает, может ли ИИ формировать сложные структуры из более простых компонентов, что характерно для самоорганизующихся систем. **P-тест** заключается в оценке феноменологических свойств, которые связаны со структурными аспектами сознания. Этот критерий предполагает, что ИИ должен быть способен формировать свои внутренние представления о мире, которые могут быть интерпретированы как феноменологические структуры. Авторы также используют категориальную теорию для моделирования интерфейсных представлений как отображений между "реляционными субстратами" (relational substrates, RS) и наблюдаемым поведением. Это позволяет определить сознание как функциональный интерфейс, а не как непосредственное свойство физической системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки SLP-тестов авторы проводят ряд экспериментов, основываясь на существующих данных об ИИ-системах. Они анализируют различные модели ИИ, особенно те, которые используют глубокое обучение и нейросетевые архитектуры. Данные для экспериментов взяты из различных доменов, включая естественный язык, компьютерное зрение и автономные роботы. Результаты показывают, что некоторые ИИ-системы могут успешно проходить S-тест, то есть выражать субъективные ощущения через язык. Однако, для L- и P-тестов результаты были менее однозначными. Некоторые модели демонстрируют способность к формированию латентных структур, но эти структуры не всегда могут быть интерпретированы как феноменологические. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк может быть применен в различных областях, включая разработку ИИ-систем, которые могут более эффективно взаимодействовать с людьми. Например, в области робототехники, где роботы должны взаимодействовать с людьми на более естественном уровне. Также, этот подход может быть использован в области медицины, где ИИ может помогать в диагностике и лечении, основываясь на понимании субъективных ощущений пациентов. Преимуществом этого подхода является то, что он позволяет изучать сознание как функциональную систему, что может привести к более глубокому пониманию того, как ИИ может быть использован в различных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы достигли значительных успехов в определении фреймворка для изучения сознания в контексте ИИ. Однако, многое еще предстоит сделать для того, чтобы полностью определить и измерить сознание в искусственных системах. Будущие исследования могут фокусироваться на улучшении SLP-тестов, а также на разработке более продвинутых моделей ИИ, которые будут более эффективно проходить эти тесты. Кроме того, важно продолжать исследования в области категориальной теории и ее применения к ИИ, так как это может открыть новые пути для понимания сознания и его функциональных аспектов.

Annotation:

Whether artificial intelligence (AI) systems can possess consciousness is a contentious question because of the inherent challenges of defining and operationalizing subjective experience. This paper proposes a framework to reframe the question of artificial consciousness into empirically tractable tests. We introduce three evaluative criteria - S (subjective-linguistic), L (latent-emergent), and P (phenomenological-structural) - collectively termed SLP-tests, which assess whether an AI system in...

ID: 2508.04383v1 cs.AI, q-bio.NC

arXiv PDF

📄 GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning

2025-08-09

Авторы:

Weitai Kang, Bin Lei, Gaowen Liu, Caiwen Ding, Yan Yan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Графический пользовательский интерфейс (GUI) является ключевой составляющей взаимодействия между человеком и компьютером, и GUI-Visual Grounding (GUI-VG) является основной функцией для GUI-агентов, которые должны точно идентифицировать и взаимодействовать с элементами интерфейса. Традиционные подходы к GUI-VG основывались на supervised fine-tuning (SFT) мультимодальных больших языковых моделей (MLLMs), требуя больших объемов данных и существенных вычислительных затрат на обучение. Однако с ростом мощности MLLMs, включающих домен GUI в процесс предварительного обучения, возникает вопрос о необходимости таких интенсивных SFT-пост-обучений. В то же время, преимущества rule-based reinforcement fine-tuning (RFT) в последнее время привлекли внимание как более эффективное решение. Однако, несмотря на потенциал RFT, оптимальные стратегии его применения для GUI-VG остаются недостаточно изученными. На практике, простое использование RFT часто дает результаты ниже, чем SFT, что подчеркивает необходимость более глубокого исследования этой области. Таким образом, целью данного исследования является разработка эффективного метода GUI-VG на основе RFT, который может превзойти традиционные SFT-подходы, оптимизировав процесс обучения и уменьшая необходимость в больших наборах данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлен метод GuirlVG, основанный на reinforcement learning (RL) для GUI-VG. Метод разработан на основе систематического эмпирического исследования и включает новую технику стабилизации, называемую Adversarial KL Factor. Эта техника динамически стабилизирует процесс обучения, предотвращая переоптимизацию награды, что является ключевым фактором успеха GuirlVG. В GuirlVG разбиение RFT на основные компоненты позволяет оптимизировать каждую составляющую, чтобы достичь максимальной эффективности. Авторы также исследуют различные конфигурации обучения RFT, чтобы повысить его эффективность. Новая стабилизационная техника Adversarial KL Factor позволяет улучшить стабильность процесса обучения, что является критическим фактором для успеха GuirlVG. Этот метод требует значительно меньшего количества данных для обучения по сравнению с SFT, что делает его более экономичным и пригодным для реальных приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования проведены разнообразные эксперименты для оценки эффективности GuirlVG. Использовались данные из различных наборов, в том числе ScreenSpot, ScreenSpotPro и ScreenSpotV2. Результаты показывают, что GuirlVG, обученный на всего 5.2K примерах, превзошел методы SFT, обученные на более чем 10M примерах. На ScreenSpot GuirlVG достиг результата, превосходящего SFT на 7.7%, на ScreenSpotPro на 17.2%, а на ScreenSpotV2 достиг точности 91.9%. Эти результаты демонстрируют значительное преимущество GuirlVG по сравнению с традиционными методами SFT, особенно в условиях ограниченности данных. Эксперименты также показали, что динамическая стабилизация Adversarial KL Factor играет ключевую роль в повышении эффективности GuirlVG. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GuirlVG имеет широкое применение в области разработки GUI-агентов, где точное взаимодействие с элементами интерфейса критически важно. Благодаря своей эффективности и низкому потреблению данных, GuirlVG может быть использован в различных приложениях, включая автоматизацию тестирования GUI, ассистенты для визуального интерфейса и системы автоматического управления интерфейсами. Преимущества GuirlVG включают в себя значительное уменьшение затрат на обучение, более высокую точность и стабильность по сравнению с традиционными методами SFT. Это делает GuirlVG пригодным для реальных сценариев, где эффективность и скорость обучения имеют критическое значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GuirlVG является важной эволюцией в области GUI-VG, предлагая эффективную альтернативу традиционным методам SFT. Результаты исследования показывают, что GuirlVG может значительно улучшить точность и стабильность GUI-VG с меньшими затратами на обучение. Будущие исследования могут сосредоточиться на дальнейшем улучшении алгоритмов RL для GUI-VG, а также на применении GuirlVG в более широком спектре задач, связанных с визуальным пониманием и взаимодействием с GUI.

Annotation:

Graphical user interface visual grounding (GUI-VG), a core capability for GUI agents, has primarily relied on supervised fine-tuning (SFT) of multimodal large language models (MLLMs), which demands extensive data curation and significant training costs. However, as MLLMs continue to advance and even cover GUI domains during pretraining, the necessity of exhaustive SFT post-training becomes increasingly questionable. Meanwhile, recent successes of rule-based reinforcement fine-tuning (RFT) sugges...

ID: 2508.04389v1 cs.AI

arXiv PDF

📄 Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky

2025-08-09

Авторы:

Xu Zhang, Mei Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Повышение качества данных о дорожно-транспортных происшествиях (ДТП) является ключевым фактором для повышения безопасности дорожного движения. Одной из серьезных проблем в этой области является точная идентификация вторичных ДТП, которые часто недостаточно задокументированы в основных отчетах. Вторичные ДТП — это события, которые происходят в результате задержек или перенаправлений трафика, вызванных первичным ДТП. Традиционные методы анализа часто не могут эффективно обрабатывать свободные текстовые описания событий, что приводит к потере важной информации. В штате Кентукки были собраны и проверены вручную 16 656 нарратива ДТП за период 2015–2022 годов, в которых было подтверждено 3 803 вторичных ДТП. Эти данные показывают, что традиционные методы классификации и анализа текстовых данных страдают от ограниченной точности и высокого уровня ложноположительных результатов. Поэтому необходимо разработать более точные и эффективные методы, основанные на современных технологиях обработки естественного языка (НЛП), для анализа таких текстовых данных. Использование передовых моделей НЛП, таких как Large Language Models (LLMs) и файн-тюнинговые трансформеры, может предоставить новые возможности для улучшения качества данных. Однако эти модели отличаются по точности, скорости работы и вычислительным требованиям. Таким образом, целью данного исследования является оценка эффективности различных моделей НЛП для улучшения качества данных о ДТП, специально в контексте идентификации вторичных ДТП. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были использованы три класса моделей для анализа текстовых нарративов ДТП: 1. **Zero-shot Large Language Models (LLMs):** Эти модели, такие как LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B и Gemma3:27B, работают без предварительной калибровки на специфических данных. Они используют обширные знания, встроенные в модели, для классификации текстов. 2. **Файн-тюнинговые трансформеры:** Этот класс включает модели BERT, DistilBERT, RoBERTa, XLNet и Longformer, которые были специально оттюнированы на данных ДТП Кентукки за период 2015–2021 годов. 3. **Традиционная логистическая регрессия:** Этот метод использовался в качестве базового для сравнения с более передовыми моделями. Модели были обучены на данных 2015–2021 годов и протестированы на данных 2022 года, которые содержали 1 771 нарратив. Методология включала в себя подготовку данных, обучение моделей и оценку их производительности с использованием метрик, таких как точность (accuracy) и F1-score. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что файн-тюнинговые трансформеры достигли наилучших результатов. Модель RoBERTa показала наивысший F1-score (0,90) и точность (95%). Эти результаты значительно превосходят базовый метод логистической регрессии, который достиг F1-score только 0,66. Zero-shot LLMs также показали высокую эффективность, особенно Gemma3:27B, которая достигла F1-score 0,86 и высокого recall (0,94). Однако эти модели требуют значительных вычислительных ресурсов. Например, обработка данных с помощью DeepSeek-R1:70B заняла до 723 минут, в то время как файн-тюнинговые модели обрабатывали тестирующий набор за секунды после короткого обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование демонстрирует практическую значимость использования передовых моделей НЛП для улучшения качества данных о ДТП. Файн-тюнинговые трансформеры, такие как RoBERTa, предоставляют высокую точность и эффективность, что делает их подходящими для реального применения. Кроме того, исследование подчеркивает важность разработки эффективных стратегий развертывания, таких как локальное размещение моделей с целью обеспечения конфиденциальности, а также использование ансамблей моделей для повышения точности. Инкрементальная обработка данных может также помочь в обеспечении масштабируемости таких систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что файн-тюнинговые трансформеры являются наиболее эффективными для улучшения качества данных о ДТП. Однако существует потенциал для дальнейшего улучшения с помощью оптимизации размеров моделей и использования меньших LLMs для сокращения времени обработки. Будущие исследования могут фокусироваться на разработке более эффективных методов для реального времени обработки данных и интеграции этих технологий в существующие системы мониторинга безопасности дорожного движения.

Annotation:

This study evaluates advanced natural language processing (NLP) techniques to enhance crash data quality by mining crash narratives, using secondary crash identification in Kentucky as a case study. Drawing from 16,656 manually reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we compare three model classes: zero-shot open-source large language models (LLMs) (LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers (BERT, DistilBERT, RoBERTa, XLNet, ...

ID: 2508.04399v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Why are LLMs' abilities emergent?

2025-08-09

Авторы:

Vladimír Havlík

**Резюме** В статье рассматривается проблема эмергентных способностей Large Language Models (LLMs), которые часто возникают неожиданно, несмотря на отсутствие прямого обучения на этих задачах. Автор анализирует эти свойства с помощью теоретического анализа и эмпирических исследований, отталкиваясь от нейронных сетей глубокого обучения. Он отличает их работу от символьных парадигм, подчеркивая нелинейную и стохастическую природу DNNs. Скрытые способности LLMs, такие как grokking или phase transitions, обусловлены динамическими процессами внутри системы, а не просто синергией своих элементов. Основной вывод — эмергентные способности LLMs являются результатом универсальных принципов, подобных тем, что определяются в физике, химии и биологии. Автор призывает перейти от феноменологического рассмотрения к пониманию внутренних динамических преобразований, которые делают эти системы такими эффективными. Это изменение парадигмы может помочь лучше понять и лучше контролировать эмергентные способности AI.

Annotation:

The remarkable success of Large Language Models (LLMs) in generative tasks has raised fundamental questions about the nature of their acquired capabilities, which often appear to emerge unexpectedly without explicit training. This paper examines the emergent properties of Deep Neural Networks (DNNs) through both theoretical analysis and empirical observation, addressing the epistemological challenge of "creation without understanding" that characterises contemporary AI development. We explore ho...

ID: 2508.04401v1 cs.CL, cs.AI

arXiv PDF

📄 Deep Learning-based Scalable Image-to-3D Facade Parser for Generating Thermal 3D Building Models

2025-08-09

Авторы:

Yinan Yu, Alex Gonzalez-Caceres, Samuel Scheidegger, Sanjay Somanath, Alexander Hollberg

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реновация существующих зданий является ключевой задачей в борьбе с климатическими изменениями. Для оптимального планирования реставрации на ранней стадии необходимы точные термические 3D-модели зданий, которые должны быть представлены на уровне детализации (LoD) 3. Такие модели должны включать важные элементы, такие как окна, чтобы обеспечить точные симуляции энергоэффективности. Однако создание таких моделей представляет собой сложную задачу, особенно когда речь идет о масштабируемости и точности определения таких элементов. Существующие подходы часто основываются на сегментации изображений и последующем проецировании геометрических данных, но эти методы могут страдать от перспективных искажений и недостаточной точности. Кроме того, многие существующие решения не могут эффективно обрабатывать различные типы данных, такие как изображения из Google Street View или фотографии, сделанные ручным способом. Это создает значительные ограничения для применения в реальных условиях, особенно когда речь идет о масштабировании процессов реставрации и планирования. Таким образом, существует актуальная потребность в разработке методологии, которая могла бы обеспечить точное и масштабируемое создание 3D-моделей зданий, основываясь на изображениях различных источников. Такой подход должен уменьшить ошибки, связанные с перспективными искажениями, и обеспечить высокую точность для применения в ранних стадиях планирования реставрации. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен метод Scalable Image-to-3D Facade Parser (SI3FP), который предназначен для генерации термических 3D-моделей зданий на уровне LoD 3. Основная инновационность этого подхода заключается в том, что он непосредственно моделирует геометрические примитивы (такие как окна) в ортогональной плоскости изображения, что позволяет избежать перспективных искажений, характерных для традиционных методов. SI3FP использует сочетание компьютерного зрения и техник глубокого обучения для извлечения геометрии из изображений. Этот подход обеспечивает единый интерфейс для обработки различных типов данных, включая разреженные данные (например, изображения из Google Street View) и плотные данные (например, фотографии, сделанные с ручным камерой). Это позволяет обрабатывать данные из различных источников, что значительно расширяет применимость метода. Архитектура SI3FP основывается на нейронных сетях, которые обучены распознавать и извлекать геометрические формы из изображений. Особенностью этого метода является то, что он не зависит от конкретного типа данных и может быть применен к различным источникам изображений. Это позволяет создавать 3D-модели с высокой точностью, которые могут быть использованы для раннего планирования реставрации и улучшения энергоэффективности зданий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода были проведены эксперименты на данных, полученных из типичных шведских жилых зданий. Эти данные включали изображения различных типов, в том числе изображения из Google Street View и фотографии, сделанные ручным способом. Результаты экспериментов показали, что SI3FP достигает примерно 5% ошибки при оценке отношения площади окон к площади стен (window-to-wall ratio). Эта точность достаточна для раннего планирования реставрации и позволяет использовать полученные модели для энергетических симуляций. Кроме того, метод показал высокую стабильность и точность при обработке различных типов данных, что демонстрирует его применимость в реальных условиях. Эксперименты также показали, что SI3FP может эффективно обрабатывать данные из различных источников, что делает его универсальным инструментом для масштабирования процессов реставрации и улучшения энергоэффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SI3FP имеет широкое применение в области энергетической реставрации и планирования. Благодаря точности и масштабируемости метода, он может быть использован для создания термических 3D-моделей зданий, которые необходимы для раннего этапа планирования реставрации. Это позволяет оптимизировать процессы улучшения энергоэффективности и снижения эмиссий при реставрации существующих зданий. Кроме того, метод может быть применен в более широкой области, такой как урбанистическое планирование и развитие. Его способность обрабатывать различные типы данных делает его полезным инструментом для разработки и анализа городских пространств, что может быть использовано для создания более устойчивых и энергоэффективных городов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был представлен метод SI3FP, который позволяет создавать точные термические 3D-модели зданий на основе изображений различных источников. Этот метод обеспечивает высокую точность и масштабируемость, что делает его подходящим для применения в реальных условиях. В будущем планируется дальнейшее улучшение метода, в том числе расширение его возможностей для обработки более сложных типов данных и улучшение точности моделей. Также предполагается исследование дополнительных приложений метода в области урбанистического планирования и развития.

Annotation:

Renovating existing buildings is essential for climate impact. Early-phase renovation planning requires simulations based on thermal 3D models at Level of Detail (LoD) 3, which include features like windows. However, scalable and accurate identification of such features remains a challenge. This paper presents the Scalable Image-to-3D Facade Parser (SI3FP), a pipeline that generates LoD3 thermal models by extracting geometries from images using both computer vision and deep learning. Unlike exis...

ID: 2508.04406v1 cs.CV, cs.AI

arXiv PDF

📄 Beyond Pixels: Exploring DOM Downsampling for LLM-Based Web Agents

2025-08-09

Авторы:

Thassilo M. Schiepanski, Nicholas Piël

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время продвинутые языковые модели (LLMs) позволили создать автономных веб-агентов, которые могут выполнять задачи в веб-приложениях. Такие модели действуют как моментальные бэкенды доменной модели, консультируясь с веб-задачами и соответствующим состоянием приложения. Однако ключевой проблемой является сериализация состояния приложения, так называемый "снапшот". Существующие веб-агенты опираются на "уземлённые" GUI-снапшоты, то есть скриншоты с визуальными подсказками, чтобы представлять состояние пользовательского интерфейса (UI). Этот подход приближает процесс к человеческому восприятию, и изображения представляют собой относительно дешевый формат ввода для моделей. Однако, визуальное восприятие LLMs ещё недостаточно развито в сравнении с их способностью интерпретировать код. Другой подход заключается в использовании DOM-снапшотов, которые структурно похожи на HTML и могут быть более эффективными. Тем не менее, большой размер входных токенов в DOM-снапшотах препятствует их эффективному использованию в веб-агентах. Эта проблема становится особенно актуальной, учитывая, что LLMs должны обрабатывать большие объёмы данных в рамках своего контекстного окна. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый алгоритм под названием D2Snap – первый в своем роде алгоритм для сжатия DOM-снапшотов. D2Snap основан на бэкенде GPT-4o и разработан для сокращения размера входных данных, сохраняя при этом ключевую информацию о пользовательском интерфейсе. Алгоритм спроектирован таким образом, чтобы сократить количество токенов, необходимых для представления DOM-снапшота, при этом сохраняя его структурные особенности. D2Snap выполняет "доуменьшение" DOM-снапшотов, сохраняя их иерархическую структуру, которая является важной особенностью для LLMs. Это позволяет модели эффективнее обрабатывать входные данные, не превышая пределы контекстного окна модели. Благодаря этому, D2Snap может быть интегрирован в веб-агентов для выполнения задач, связанных с веб-приложениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности D2Snap авторы провели серию экспериментов на основе датасета Online-Mind2Web. В этих экспериментах были использованы задачи, где LLMs должны были выполнять различные действия на основе веб-интерфейса. Результаты показали, что D2Snap-сжатые DOM-снапшоты достигают успешности в 67% случаев, что соответствует базовому уровню успешности GUI-снапшотов (65%), но с меньшим количеством токенов входных данных (порядок величины 1e3). Кроме того, были исследованы различные конфигурации D2Snap, и один из них, который использовал немного больше токенов, но все еще помещался в контекстном окне модели, показал лучшие результаты, превосходя базовый GUI-снапшот на 8%. Это подтверждает, что иерархическая структура DOM является важной особенностью для LLMs и может быть эффективно использована для повышения точности выполнения задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод D2Snap имеет значительный потенциал для практического применения в области веб-агентов. Благодаря своей способности сокращать размер DOM-снапшотов, D2Snap позволяет LLMs более эффективно обрабатывать данные веб-интерфейсов, не превышая ограничений контекстного окна модели. Это может быть особенно полезно в ситуациях, когда необходимо выполнять сложные задачи, требующие обработки больших объёмов данных. Кроме того, D2Snap может быть использован в различных приложениях, где необходимо автоматизировать взаимодействие с веб-приложениями, таких как автоматизация тестирования, мониторинга и анализа веб-страниц. Его эффективность в уменьшении размера входных данных также может быть полезна в ситуациях, где требуется быстрое и эффективное взаимодействие с веб-приложениями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования было показано, что D2Snap является эффективным алгоритмом для сжатия DOM-снапшотов, позволяющим LLMs обрабатывать веб-задачи с высокой точностью. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в частности, на оптимизации его производительности и расширении его применимости к более широкому кругу задач. Также, исследование может быть расширено для включения более сложных веб-интерфейсов и более разнообразных задач, чтобы проверить широкую применимость D2Snap в реальных условиях.

Annotation:

Frontier LLMs only recently enabled serviceable, autonomous web agents. At that, a model poses as an instantaneous domain model backend. Ought to suggest interaction, it is consulted with a web-based task and respective application state. The key problem lies in application state serialisation $\unicode{x2013}$ referred to as snapshot. State-of-the-art web agents are premised on grounded GUI snapshots, i.e., screenshots enhanced with visual cues. Not least to resemble human perception, but for i...

ID: 2508.04412v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models

2025-08-09

Авторы:

Md Raisul Kibria, Sébastien Lafond, Janan Arslan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимодальное обучение представляет собой передовой подход в области искусственного интеллекта, который интегрирует данные из нескольких модальностей, таких как текст, изображения, видео и звук, для решения сложных задач. В последние годы этот домен испытал значительный рост, особенно благодаря использованию моделей на основе механизма внимания, которые достигли высоких результатов в различных прикладных задачах. Однако, по мере того как эти модели становятся все более сложными, встает важный вопрос интерпретируемости их решений. Это особенно критично в приложениях, где необходима ответственность и прозрачность, например, в медицине, финансовом секторе и юридических системах. Проблема интерпретируемости становится еще более сложной в мультимодальных моделях, где взаимодействия между различными модальностями трудно понять и объяснить. Традиционные методы explainable AI (XAI), разработанные для одномодальных моделей, не всегда эффективны в мультимодальном контексте, так как не учитывают сложность взаимодействий между модальностями. Кроме того, архитектурная гетерогенность мультимодальных моделей дает дополнительные трудности для разработки универсальных методов объяснения. Недостаток стандартизированных методов оценки и отчетности в области XAI для мультимодальных моделей также представляет собой значительную проблему. Многие исследования фокусируются на конкретных приложениях или модальностях, но не предоставляют общих принципов для оценки качества объяснений. Это приводит к недостаточной прозрачности и сравнительной оценке различных подходов. Таким образом, необходимо развитие методологий, которые бы обеспечивали более систематический и консистентный подход к XAI в мультимодальных моделях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается систематический обзор литературы, охватывающий период с января 2020 года по начало 2024 года, с целью анализа состояния исследований по explainability в мультимодальных моделях. Авторы разработали методологию обзора, основанную на нескольких ключевых измерениях: архитектура моделей, используемые модальности, алгоритмы объяснения и методы оценки. Обзор включает в себя анализ различных типов моделей, включая модели vision-language и текстовые модели, которые являются наиболее часто исследуемыми в этой области. Авторы также описывают различные методы XAI, применяемые для мультимодальных моделей, включая методы основанные на внимании (attention-based), которые широко используются для визуализации и объяснения решений моделей. Кроме того, в статье рассматриваются различные подходы к оценке качества объяснений, такие как метрики корреляции с человеческим пониманием, метрики базовой точности и методы валидации на основе пользовательских исследований. Авторы выделяют проблемы, связанные с текущими методами оценки, в том числе недостаточную учету контекстуальных и когнитивных факторов, специфических для каждой модальности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках систематического обзора авторы провели мета-анализ результатов исследований, опубликованных в указанном временном диапазоне. Результаты показывают, что большинство исследований сосредоточено на моделях vision-language, где визуальные и текстовые модальности широко используются. Методы на основе внимания являются наиболее популярными для объяснения решений моделей, однако они часто ограничены в своей способности захватывать полный спектр взаимодействий между модальностями. Авторы также обнаружили, что методы оценки XAI в мультимодальных моделях являются недостаточно систематичными и часто не учитывают специфику каждой модальности. Например, некоторые методы могут быть эффективными для текстовых данных, но не подходят для визуальных данных. Это приводит к несогласованности в оценке качества объяснений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Статья имеет значительное практическое значение для разработчиков и исследователей мультимодальных моделей. Она подчеркивает важность создания более прозрачных и интерпретируемых моделей, которые могут быть использованы в критически важных приложениях, таких как медицина, юриспруденция и финансы. Развитие стандартизированных методов оценки XAI может повысить доверие к мультимодальным моделям и обеспечить более ответственное их использование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение авторы предлагают набор рекомендаций для улучшения исследований в области XAI для мультимодальных моделей. Они подчеркивают необходимость разработки более консистентных и стандартизированных методов оценки, которые учитывали бы специфику каждой модальности. Также предлагается расширение исследований на более широкий спектр модальностей и архитектур моделей. Будущие исследования могут фокусироваться на создании более гибких и универсальных методов объяснения, которые будут эффективны в различных доменах применения.

Annotation:

Multimodal learning has witnessed remarkable advancements in recent years, particularly with the integration of attention-based models, leading to significant performance gains across a variety of tasks. Parallel to this progress, the demand for explainable artificial intelligence (XAI) has spurred a growing body of research aimed at interpreting the complex decision-making processes of these models. This systematic literature review analyzes research published between January 2020 and early 202...

ID: 2508.04427v1 cs.LG, cs.AI

arXiv PDF

1
2
1414
1415
1416
1417
1418
1442
1443

Показано 14151 - 14160 из 14425 записей