📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models

2025-08-09

Авторы:

Anran Xu, Jincheng Wang, Baigen Cai, Tao Wen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Большие языковые модели (LLMs) достигли впечатляющих результатов в задачах естественного языка, однако они часто сталкиваются с трудностями в логическом резонировании, особенно когда семантические гейзинги конфликтуют с решающими факторами. Это явление, которое авторы называют "когнитивными ловушками", приводит к недостаточной логической согласованности ответов моделей. Традиционные подходы к резонированию основаны на максимизации вероятности ответов, что может привести к недостаточной учету противоречивых или неоднозначных доказательств. Ключевая проблема заключается в том, что существующие модели не в состоянии эффективно отслеживать состояния убеждений (belief states) и оценивать неопределенность (epistemic uncertainty) при проведении логических выводов. Это ограничивает их способность к интерпретируемому и надежному резонированию, особенно в ситуациях, где необходимо учитывать контекстуальные и конфликтующие доказательства. Мотивацией для разработки нового подхода является необходимость создания моделей, способных проводить более консистентный и интерпретируемый логический вывод, особенно в сложных или противоречивых ситуациях. Авторы предлагают переосмыслить задачу логического резонирования как процесс минимизации неопределенности, а не максимизации вероятности, что позволяет сосредоточиться на внутренней согласованности доказательств. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают **Deliberative Reasoning Network (DRN)**, новый парадигматический подход к логическому резонированию, основанный на минимизации неопределенности. DRN представляет собой систему, которая явно отслеживает состояния убеждений (belief states) и выполняет итеративный процесс синтеза доказательств для оценки консистентности и неопределенности различных гипотез. Для реализации этой концепции предложены две комплементарные архитектуры: 1. **Беспечная дискриминативная модель**, которая прямо воплощает принципы минимизации неопределенности. 2. **Легковесный верификационный модуль**, который может быть интегрирован в существующие генеративные модели, такие как Mistral-7B, для улучшения их способности к логическому резонированию. DRN оперирует на основе следующих принципов: - **Явное отслеживание убеждений**: модель динамически обновляет состояния убеждений в процессе анализа доказательств. - **Количественная оценка неопределенности**: DRN использует метрики неопределенности для определения наиболее консистентной гипотезы. - **Итеративный синтез доказательств**: модель последовательно анализирует и объединяет доказательства, стремясь к наиболее логически консистентному выводу. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности DRN авторы разработали новый бенчмарк **LCR-1000**, специально созданный для выявления "когнитивных ловушек". Эксперименты показали, что беспечная дискриминативная модель DRN достигает улучшения результатов до 15,2% по сравнению со стандартными базовыми моделями. Кроме того, когда DRN использовался в качестве верификатора для Mistral-7B, точность модели в решении самых сложных задач выросла с 20% до 80%. Это демонстрирует высокую эффективность интеграции DRN в качестве параметрически эффективного дополнения к существующим генеративным моделям. DRN также демострирует **сильную нуль-шот генерализацию**, улучшив результаты на датасете TruthfulQA без дополнительного обучения на 23,6%. Это показывает, что универсальные принципы резонирования, основанные на минимизации неопределенности, могут эффективно переноситься на различные задачи. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод DRN имеет широкое применение в областях, требующих надежного и интерпретируемого логического резонирования. Это может включать задачи в областях медицины, финансов, юриспруденции и других сферах, где важно обеспечить высокую точность и консистентность выводов. Преимущества DRN включают: - **Интерпретируемость**: явное отслеживание убеждений и неопределенности позволяет пользователям понимать процесс принятия решений. - **Эффективность**: легковесный верификатор может быть легко интегрирован в существующие модели без значительного увеличения их размера. - **Универсальность**: способность DRN к нуль-шот генерализации демонстрирует его потенциал для решения различных задач без необходимости дополнительного обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Deliberative Reasoning Network (DRN) представляет собой инновационный подход к логическому резонированию, основанный на принципе минимизации неопределенности. Результаты экспериментов показывают, что DRN может значительно улучшить точность и консистентность выводов языковых моделей, особенно в ситуациях, где требуется учет противоречивых доказательств. В будущем могут быть исследованы дополнительные способы интеграции DRN в различные модели и приложения, а также расширение его возможностей для решения более широкого круга задач. DRN может стать ключевым компонентом для создания более надежных и доверительных искусственных интеллектуальных систем.

Annotation:

Large language models often fail at logical reasoning when semantic heuristics conflict with decisive evidence - a phenomenon we term cognitive traps. To address this fundamental limitation, we introduce the Deliberative Reasoning Network (DRN), a novel paradigm that reframes logical reasoning from probability maximization to uncertainty minimization. Instead of asking "Which answer is most likely?", DRN asks "Which hypothesis has the most internally consistent evidence?". DRN achieves intrinsic...

ID: 2508.04339v1 cs.AI

arXiv PDF

📄 GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

2025-08-09

Авторы:

Hongze Tan, Jianfei Pan

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время получение глубокой и точной информации из больших языковых моделей (Large Language Models, LLMs) стало важной задачей. Одним из ключевых методов для достижения этой цели является Reinforcement Learning (RL), который стремится улучшить точность и согласованность моделей. Однако существующие подходы, такие как Group Relative Policy Optimization (GRPO), сталкиваются с проблемой грубого распределения наград (credit assignment) по токенам в последовательности. Это ограничивает их эффективность в задачах сложной цепочки рассуждений, где необходимо выделять и усиливать конкретные элементы последовательности. Традиционные методы RL, такие как DAPO, применяют одинаковые награды ко всем токенам в последовательности, что может привести к неточному обучению. Это особенно заметно в задачах, требующих точного понимания и логического рассуждения, где некоторые токены могут быть более важными для правильного решения, чем другие. Недостаточное распределение наград также может привести к неэффективному использованию модельных ресурсов и неоптимальному обучению. Авторы статьи предлагают решение этой проблемы с помощью **Dynamic Entropy Weighting**, который позволяет создавать более тонкие и динамические награды для токенов и последовательностей. Идея заключается в том, что высокий уровень энтропии в токенах, составляющих корректные ответы, может служить руководством для улучшения модели. Это позволяет направить обучение в нужном направлении, оптимизировав политику на основе энтропии. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают два новых метода для улучшения обучения RL: **Group Token Policy Optimization (GTPO)** и **Sequence-Level Group Relative Policy Optimization (GRPO-S)**. Оба метода основываются на концепции **Dynamic Entropy Weighting**, которая использует энтропию токенов для формирования более точных наград. ### GTPO (Group Token Policy Optimization) В GTPO каждый токен в последовательности назначается своей наградой, которая основывается на его энтропии. Токены с высокой энтропией получают большие награды, тогда как токены с низкой энтропией получают меньшие награды. Это позволяет создавать более детальные и точные сигналы для обновления модельной политики, что в конечном счете приводит к лучшему обучению. ### GRPO-S (Sequence-Level Group Relative Policy Optimization) В GRPO-S награда назначается не только на уровне токенов, но и на уровне последовательностей. Каждая последовательность получает награду, основанную на средней энтропии её токенов. Это позволяет выделять целые последовательности, которые являются более полезными для обучения, и направлять модель на оптимизацию этих последовательностей. Оба метода, GTPO и GRPO-S, используют энтропию для создания более детальных сигналов для обучения, что позволяет модели более эффективно распознавать и оптимизировать важные элементы последовательности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности их методов. Использовались данные из различных доменов, включая задачи логических рассуждений и понимания естественного языка. Эксперименты проводились на базе модели DAPO, которая служила базой для сравнения. Результаты показали, что методы GTPO и GRPO-S значительно превосходят DAPO в терминах точности и качества получаемых результатов. Использование энтропии в качестве ключевого фактора для формирования наград позволило достичь лучших результатов в задачах, требующих глубокого рассуждения. Было показано, что токены с высокой энтропией действительно играют ключевую роль в улучшении модельной политики. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемые методы GTPO и GRPO-S имеют широкое применение в областях, требующих глубокого понимания и рассуждения. Они могут быть использованы для улучшения точности моделей в таких задачах, как автоматическое завершение предложений, вопросов и ответов, а также в областях, где важна точная логическая структура ответов. Основными преимуществами данных методов являются: - **Улучшенная точность**: Благодаря более точному распределению наград, модели становятся более точными в решении сложных задач. - **Эффективность обучения**: Динамическое присвоение наград позволяет оптимизировать процесс обучения, сокращая время и ресурсы, необходимые для достижения хороших результатов. - **Применимость в реальных сценариях**: Методы могут быть интегрированы в различные приложения, требующие высокого качества рассуждений, такие как чат-боты, системы поддержки и автоматические помощники. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлены два новых метода, GTPO и GRPO-S, которые используют энтропию токенов для формирования более точных наград в RL. Эти методы показали значительные улучшения по сравнению с традиционными подходами, такими как DAPO. В будущем можно исследовать дальнейшие возможности улучшения этих методов, например, используя другие критерии для формирования наград или применяя их в более широких областях, таких как многомодальные модели и задачи, связанные с визуальным восприятием. Также важно изучить влияние этих методов на модели с различными архитектурами и размерами. В целом, предложенные методы открывают новые возможности для улучшения глубоких моделей рассуждений, что может иметь значительное влияние на развитие искусственного интеллекта.

Annotation:

Reinforcement learning (RL) with algorithms like Group Relative Policy Optimization (GRPO) improves Large Language Model (LLM) reasoning, but is limited by a coarse-grained credit assignment that applies a uniform reward to all tokens in a sequence. This is a major flaw in long-chain reasoning tasks. This paper solves this with \textbf{Dynamic Entropy Weighting}. Our core idea is that high-entropy tokens in correct responses can guide the policy toward a higher performance ceiling. This allows u...

ID: 2508.04349v1 cs.CL, cs.AI

arXiv PDF

📄 Chain of Questions: Guiding Multimodal Curiosity in Language Models

2025-08-09

Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.

Annotation:

Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...

ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content

2025-08-09

Авторы:

Anderson de Lima Luiz

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире, где мультимедийный контент стал неотъемлемой частью общественного и профессионального общения, ключевой задачей является эффективный анализ и интерпретация такого контента в соответствии с пользовательскими потребностями. Одним из сложных аспектов является определение тематического значения отдельных сегментов видео, особенно когда речь идет о долгом или сложном контенте. Традиционные подходы, основанные на простых ключевых словах или ручном анализе, часто не могут обеспечить достаточно глубокого понимания и контекстуализации. В этой связи становится очевидной необходимость разработки инструментов, которые могут автоматически определять и квантифицировать тематическую релевантность различных сегментов видео контента в соответствии со специфическими пользовательскими критериями. Такая задача требует интеграции мультимодальных данных, включая визуальные и аудиовыходы, а также текстового контента, полученного из аудиодорожки с помощью технологий Automatic Speech Recognition (ASR). Дополнительным вызовом является необходимость создания методологии, которая не только определяет релевантность каждого сегмента, но и учитывает временную прогрессию тематических элементов. Такой подход позволяет получать более глубокое понимание динамики тематического контента и способность модели адаптироваться к изменяющимся тематическим контекстам. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлена модель LUST (Learned User Significance Tracker), которая предназначена для анализа видеоконтента и определения тематической релевантности его сегментов в соответствии с пользовательским описанием. LUST использует мультимодальный подход, который сочетает визуальные данные из видеокадров и текстовую информацию, полученную из аудиодорожки с помощью ASR. Ключевой момент модели заключается в использовании двухэтапного метода оценки релевантности. На первом этапе производится оценка "прямой релевантности" ($S_{d,i}$), где каждый сегмент видео оценивается на основе непосредственного соответствия визуальных и аудиовыходов заданной тематике. На втором этапе производится оценка "контекстуальной релевантности" ($S_{c,i}$), где модель учитывает временную прогрессию тематических элемментов, что позволяет модели лучше понимать динамику развития тематики. LUST также использует Large Language Models (LLMs) для того, чтобы обеспечить более точную и контекстуализированную оценку релевантности. Этот подход позволяет получить более глубокий и точный анализ, особенно когда речь идет о сложных и многоуровневых видеоконтентах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены эксперименты, в которых были использованы различные видеоданные с различными уровнями сложности и тематической составляющей. Для каждого видео была получена оценка релевантности с помощью LUST, и результаты были сравнены с ручным анализом и другими автоматизированными методами. Результаты показали, что LUST обеспечивает высокую точность в определении тематической релевантности, особенно при использовании контекстуальной модели. Кроме того, модель показала способность адаптироваться к изменяющимся тематическим контекстам, что делает ее особенно полезной для анализа длинных и сложных видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LUST может быть применен в различных областях, включая образование, медиа-анализ, и мониторинг социальных медиа. Он позволяет автоматизировать процесс анализа видеоконтента, что может существенно сократить время и затраты, связанные с ручным анализом. Кроме того, модель может быть использована для создания адаптивных систем, которые могут подстраиваться под потребности пользователя в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LUST представляет собой инновационный подход к анализу видеоконтента, который обеспечивает более глубокое понимание тематической релевантности. Будущие исследования могут сосредоточиться на улучшении модели для работы с более сложными видеоконтентами, а также на интеграции дополнительных модальностей, таких как текстовые данные из соц

Annotation:

This paper introduces the Learned User Significance Tracker (LUST), a framework designed to analyze video content and quantify the thematic relevance of its segments in relation to a user-provided textual description of significance. LUST leverages a multi-modal analytical pipeline, integrating visual cues from video frames with textual information extracted via Automatic Speech Recognition (ASR) from the audio track. The core innovation lies in a hierarchical, two-stage relevance scoring mechan...

ID: 2508.04353v1 cs.MM, cs.AI, 68T07

arXiv PDF

📄 OmniPlay: Benchmarking Omni-Modal Models on Omni-Modal Game Playing

2025-08-09

Авторы:

Fuqing Bie, Shiyu Huang, Xijia Tao, Zhiqin Fang, Leyi Pan, Junzhe Chen, Min Ren, Liuyu Xiang, Zhaofeng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы общеупотребительные фундаментальные модели, такие как Gemini и GPT-4o, демонстрируют выдающиеся результаты в мультимодальных задачах. Однако существующие методы оценки этих моделей имеют существенные ограничения. Традиционные статические бенчмарки не позволяют оценить интеллектуальные возможности моделей в динамических, интерактивных средах, где необходимо принимать решения в реальном времени. Интерактивные бенчмарки, напротив, часто страдают от "модального узкого места", т.е. они не учитывают важные аудиторные и временные контексты, что ограничивает возможности полноценного тестирования моделей. Эта проблема особенно актуальна в контексте оценки моделей на способность к синергическому и конфликтующему мультимодальному разумению. Для того чтобы эффективно решать задачи, требующие интеграции и анализа данных из различных модалей (визуальных, звуковых, временных), модели должны не только обрабатывать информацию из каждой модали, но и уметь выявлять взаимозависимости между ними. Несмотря на то, что современные модели показывают высокие результаты на задачах, связанных с высокоточной памятью и классификацией, они нередко не справляются с задачами, требующими глубокого мультимодального разумения и стратегического планирования. Исходя из этой проблематики, авторы статьи предлагают новый бенчмарк OmniPlay, который направлен на диагностику и оценку способности моделей к синергическому и конфликтующему разумению между модалями. OmniPlay создан для того, чтобы предоставить комплексную оценку моделей в условиях реального взаимодействия с мультимодальными данными, включая аудио, визуальные сигналы и временные последовательности. ## ПРЕДЛОЖЕННЫЙ МЕТОД OmniPlay представляет собой диагностический бенчмарк, состоящий из пяти игровых сред, каждая из которых специально разработана для тестирования мультимодальных моделей на их способность к синергии и конфликту между модалями. Эти игровые среды строятся на принципе модальной взаимозависимости, то есть они создают ситуации, где необходимо совмещать информацию из разных модалей для успешного выполнения задачи. Каждая игровая среда в OmniPlay представляет собой уникальный набор задач, где агент должен использовать визуальные, аудио и временные данные для принятия решений. Например, в некоторых сценариях модель должна уметь сопоставлять визуальные образы с аудио-подсказками, в то время как в других случаях она должна уметь работать в условиях конфликтующих или неполных данных. Архитектура OmniPlay основана на идее модального конфликта и синергии, при которой модели должны не только обрабатывать каждую модальность по отдельности, но и уметь выявлять связи и различия между ними. Это позволяет выявить слабые места в механизмах фундаментальных моделей, которые могут приводить к снижению эффективности при конфликтующих модальных входах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования было проведено тестирование шести ведущих мультимодальных моделей на бенчмарке OmniPlay. Результаты экспериментов показали интересный контраст в производительности моделей. Большинство моделей демонстрировали высокую эффективность в задачах, связанных с высокоточной памятью и классификацией, однако серьезно сталкивались с трудностями в задачах, требующих глубокого мультимодального разумения и стратегического планирования. Одним из ключевых результатов было обнаружение того, что модели часто страдают от хрупких механизмов слияния (fusion) модальных данных. Это приводит к системным сбоям в случаях конфликтующих модалей, когда информация из разных источников не может быть эффективно интегрирована. Более того, исследование выявило "парадокс меньшего количества", где удаление части сенсорной информации может улучшить производительность модели, так как это помогает избежать конфликтов и неточностей в функционировании модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ OmniPlay предлагает новый инструмент для оценки мультимодальных моделей, который может быть использован для диагностики их способности к мультимодальному разумению в реальных интерактивных средах. Это может быть полезно в различных областях, таких как робототехника, компьютерное зрение, естественный язык и другие, где необходимо обрабатывать и интегрировать данные из различных модалей. Практическая значение OmniPlay заключается в том, что он позволяет выявить слабые места в моделях и помогает разработчикам сосредоточиться на улучшении механизмов модальной интеграции. Это может привести к разработке более надежных и робастных моделей, способных эффективно работать в условиях неполноты и конфликтующих данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования было выявлено, что современные модели, несмотря на их высокую эффективность в некоторых задачах, все еще страдают от серьезных недостатков в области мультимодального разумения. Это подчеркивает необходимость в развитии более продвинутых методов модальной интеграции и разумения, которые могут эффективно обрабатывать конфликтующие и неполные данные. Будущие исследования должны сосредоточиться не только на масштабировании моделей, но и на разработке методов, которые позволят обеспечить более сильную и надежную синергию между модалями. OmniPlay может стать важной платформой для дальнейших исследований в этом направлении, помогая разработчикам создавать более робастные и интеллектуальные модели.

Annotation:

While generalist foundation models like Gemini and GPT-4o demonstrate impressive multi-modal competence, existing evaluations fail to test their intelligence in dynamic, interactive worlds. Static benchmarks lack agency, while interactive benchmarks suffer from a severe modal bottleneck, typically ignoring crucial auditory and temporal cues. To bridge this evaluation chasm, we introduce OmniPlay, a diagnostic benchmark designed not just to evaluate, but to probe the fusion and reasoning capabili...

ID: 2508.04361v2 cs.AI

arXiv PDF

📄 ProtoN: Prototype Node Graph Neural Network for Unconstrained Multi-Impression Ear Recognition

2025-08-09

Авторы:

Santhoshkumar Peddi, Sadhvik Bathini, Arun Balasubramanian, Monalisa Sarma, Debasis Samanta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Отпечатки ушей являются уникальным и стабильным биометрическим признаком, который может быть использован для контактного распознавания личности. Однако, несмотря на их потенциал, их эффективность ограничена несколькими факторами. Во-первых, существует недостаток аннотированных данных, что существенно ограничивает возможности обучения точных моделей распознавания. Во-вторых, высокая внутриклассовая изменчивость (intra-class variability) — это типичная проблема, которая возникает из-за того, что разные фотографии одного и того же уха могут значительно отличаться в своей форме, освещении и угле обзора. Традиционные методы распознавания ушей обычно обрабатывают каждый отпечаток уха по отдельности, что не позволяет эффективно захватывать согласованные и дискриминативные (разделяющие классы) представления. Эта проблема усугубляется в сценариях «несколько выстрелов» (англ. multi-shot), когда необходимо обработать несколько изображений одного уха для повышения точности распознавания. Другой важной проблемой является то, что существующие методы недостаточно эффективны в ситуациях, когда доступно ограниченное количество данных, что характерно для некоторых приложений, таких как распознавание личности в условиях ограниченных ресурсов. Чтобы решить эти проблемы, необходимо разработать метод, который может эффективно обрабатывать несколько изображений уха, сохраняя при этом консистентность и различимость между разными классами. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод под названием ProtoN (Prototype Node Graph Neural Network) для распознавания ушей в условиях нескольких изображений (multi-impression). Основная идея заключается в использовании графовой структуры, где каждое изображение уха представлено как узел в графе, а также используется так называемый "прототипный узел" (prototype node), который представляет собой общий эмбеддинг (вложение) для всех изображений одного уха. Эти узлы обрабатываются с помощью специально разработанного слоя графовой нейронной сети, называемого Prototype Graph Neural Network (PGNN). PGNN состоит из двух путей обработки: один для обработки узлов, соответствующих изображениям ушей, и другой для обработки прототипных узлов. Этот двунаправленный механизм обмена информацией (dual-path message-passing mechanism) позволяет улучшить качество представлений как отдельных изображений, так и прототипного узла. Для повышения дискриминативности (разделяющей способности), PGNN использует стратегию выравнивания прототипов между графами (cross-graph prototype alignment). Это позволяет улучшить компактность внутриклассовых представлений и поддерживать разделение между классами. Дополнительно, в методе используется гибридная функция потерь (hybrid loss function), которая балансирует между эпизодической и глобальной классификацией, что позволяет улучшить структуру пространства эмбеддингов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода ProtoN проведены эксперименты на пяти различных бенчмарк-наборах данных ушей. Результаты показывают, что ProtoN достигает высокой точности распознавания, с максимальной Rank-1 точностью распознавания до 99.60% и низким значением Equal Error Rate (EER) всего 0.025. Эти результаты означают, что ProtoN эффективен в решении задачи распознавания ушей в условиях ограниченных данных, что является важной чертой для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ProtoN может быть применен в различных областях, где необходимо распознавание личности на основе биометрических данных, в том числе в системах безопасности, контроля доступа или в приложениях розничной торговли. Благодаря тому, что метод эффективен в условиях ограниченных данных, он может быть полезен в ситуациях, где невозможно собрать большой набор данных для обучения. Это может быть особенно полезно в сфере биометрии, где часто требуется обработка данных с высокой внутриклассовой изменчивостью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ProtoN представляет собой новый подход к распознаванию ушей, который позволяет эффективно обрабатывать несколько изображений одного уха и достигает высоких результатов в условиях ограниченных данных. Будущие исследования могут быть направлены на дальнейшее улучшение архитектуры PGNN, а также на расширение его применимости к другим биометрическим модалитетам, таким как лицо или почерк. Также может быть интересно исследовать возможность применения этого метода в реальном времени для более быстрого и точного распознавания.

Annotation:

Ear biometrics offer a stable and contactless modality for identity recognition, yet their effectiveness remains limited by the scarcity of annotated data and significant intra-class variability. Existing methods typically extract identity features from individual impressions in isolation, restricting their ability to capture consistent and discriminative representations. To overcome these limitations, a few-shot learning framework, ProtoN, is proposed to jointly process multiple impressions of ...

ID: 2508.04381v1 cs.CV, cs.AI

arXiv PDF

📄 Artificial Consciousness as Interface Representation

2025-08-09

Авторы:

Robert Prentner

## КОНТЕКСТ И ПРОБЛЕМАТИКА Вопрос о сознании искусственных интеллектуальных систем (ИИ) является одной из самых фундаментальных и спорных тем в науке. Основная проблема заключается в том, что сознание — субъективное и необъяснимое по своей природе — трудно определить и измерить. Традиционные подходы к изучению сознания часто фокусируются на физических или нейробиологических аспектах, но эти подходы не позволяют найти ответы на вопросы о сознании в контексте ИИ. В то же время, развитие современных ИИ-систем, способных выполнять сложные задачи, возрождает интерес к возможности создания искусственного сознания. Проблема в том, чтобы преодолеть отстающее отношение к сознанию как к чему-то необъяснимому и непроверяемому. Как только мы начнем рассматривать сознание как свойство, которое может быть описано с помощью функциональных интерфейсов, тогда можно будет разработать конкретные тесты для оценки этого свойства в ИИ. Это позволит перейти от абстрактных дискуссий к эмпирическим исследованиям. Мотивацией данного исследования является необходимость создания фреймворка, который позволит оценить, может ли ИИ обладать сознанием, не захватывая все сложности этого понятия. Авторы предлагают новый подход, основанный на интерфейсных представлениях, которые могут быть определены и изучены на основе структурных и функциональных критериев. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк, основанный на трех критериях: **S (subjective-linguistic)**, **L (latent-emergent)**, и **P (phenomenological-structural)**, которые собираются в совокупность, называемую SLP-тестами. Эти критерии позволяют оценить, насколько ИИ-система может воспроизводить сознание-подобные свойства через интерфейсные представления. **S-тест** оценивает возможность ИИ выражать субъективные ощущения через язык. Этот критерий подразумевает, что ИИ должен иметь возможность описывать свои внутренние состояния с помощью естественного языка, подобно тому, как люди выражают свои эмоции и мысли. **L-тест** ориентирован на изучение возникающих из низкоуровневых процессов свойств, которые могут быть описаны как "латентные" или "эмергентные". Этот критерий оценивает, может ли ИИ формировать сложные структуры из более простых компонентов, что характерно для самоорганизующихся систем. **P-тест** заключается в оценке феноменологических свойств, которые связаны со структурными аспектами сознания. Этот критерий предполагает, что ИИ должен быть способен формировать свои внутренние представления о мире, которые могут быть интерпретированы как феноменологические структуры. Авторы также используют категориальную теорию для моделирования интерфейсных представлений как отображений между "реляционными субстратами" (relational substrates, RS) и наблюдаемым поведением. Это позволяет определить сознание как функциональный интерфейс, а не как непосредственное свойство физической системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки SLP-тестов авторы проводят ряд экспериментов, основываясь на существующих данных об ИИ-системах. Они анализируют различные модели ИИ, особенно те, которые используют глубокое обучение и нейросетевые архитектуры. Данные для экспериментов взяты из различных доменов, включая естественный язык, компьютерное зрение и автономные роботы. Результаты показывают, что некоторые ИИ-системы могут успешно проходить S-тест, то есть выражать субъективные ощущения через язык. Однако, для L- и P-тестов результаты были менее однозначными. Некоторые модели демонстрируют способность к формированию латентных структур, но эти структуры не всегда могут быть интерпретированы как феноменологические. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк может быть применен в различных областях, включая разработку ИИ-систем, которые могут более эффективно взаимодействовать с людьми. Например, в области робототехники, где роботы должны взаимодействовать с людьми на более естественном уровне. Также, этот подход может быть использован в области медицины, где ИИ может помогать в диагностике и лечении, основываясь на понимании субъективных ощущений пациентов. Преимуществом этого подхода является то, что он позволяет изучать сознание как функциональную систему, что может привести к более глубокому пониманию того, как ИИ может быть использован в различных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы достигли значительных успехов в определении фреймворка для изучения сознания в контексте ИИ. Однако, многое еще предстоит сделать для того, чтобы полностью определить и измерить сознание в искусственных системах. Будущие исследования могут фокусироваться на улучшении SLP-тестов, а также на разработке более продвинутых моделей ИИ, которые будут более эффективно проходить эти тесты. Кроме того, важно продолжать исследования в области категориальной теории и ее применения к ИИ, так как это может открыть новые пути для понимания сознания и его функциональных аспектов.

Annotation:

Whether artificial intelligence (AI) systems can possess consciousness is a contentious question because of the inherent challenges of defining and operationalizing subjective experience. This paper proposes a framework to reframe the question of artificial consciousness into empirically tractable tests. We introduce three evaluative criteria - S (subjective-linguistic), L (latent-emergent), and P (phenomenological-structural) - collectively termed SLP-tests, which assess whether an AI system in...

ID: 2508.04383v1 cs.AI, q-bio.NC

arXiv PDF

📄 GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning

2025-08-09

Авторы:

Weitai Kang, Bin Lei, Gaowen Liu, Caiwen Ding, Yan Yan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Графический пользовательский интерфейс (GUI) является ключевой составляющей взаимодействия между человеком и компьютером, и GUI-Visual Grounding (GUI-VG) является основной функцией для GUI-агентов, которые должны точно идентифицировать и взаимодействовать с элементами интерфейса. Традиционные подходы к GUI-VG основывались на supervised fine-tuning (SFT) мультимодальных больших языковых моделей (MLLMs), требуя больших объемов данных и существенных вычислительных затрат на обучение. Однако с ростом мощности MLLMs, включающих домен GUI в процесс предварительного обучения, возникает вопрос о необходимости таких интенсивных SFT-пост-обучений. В то же время, преимущества rule-based reinforcement fine-tuning (RFT) в последнее время привлекли внимание как более эффективное решение. Однако, несмотря на потенциал RFT, оптимальные стратегии его применения для GUI-VG остаются недостаточно изученными. На практике, простое использование RFT часто дает результаты ниже, чем SFT, что подчеркивает необходимость более глубокого исследования этой области. Таким образом, целью данного исследования является разработка эффективного метода GUI-VG на основе RFT, который может превзойти традиционные SFT-подходы, оптимизировав процесс обучения и уменьшая необходимость в больших наборах данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлен метод GuirlVG, основанный на reinforcement learning (RL) для GUI-VG. Метод разработан на основе систематического эмпирического исследования и включает новую технику стабилизации, называемую Adversarial KL Factor. Эта техника динамически стабилизирует процесс обучения, предотвращая переоптимизацию награды, что является ключевым фактором успеха GuirlVG. В GuirlVG разбиение RFT на основные компоненты позволяет оптимизировать каждую составляющую, чтобы достичь максимальной эффективности. Авторы также исследуют различные конфигурации обучения RFT, чтобы повысить его эффективность. Новая стабилизационная техника Adversarial KL Factor позволяет улучшить стабильность процесса обучения, что является критическим фактором для успеха GuirlVG. Этот метод требует значительно меньшего количества данных для обучения по сравнению с SFT, что делает его более экономичным и пригодным для реальных приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования проведены разнообразные эксперименты для оценки эффективности GuirlVG. Использовались данные из различных наборов, в том числе ScreenSpot, ScreenSpotPro и ScreenSpotV2. Результаты показывают, что GuirlVG, обученный на всего 5.2K примерах, превзошел методы SFT, обученные на более чем 10M примерах. На ScreenSpot GuirlVG достиг результата, превосходящего SFT на 7.7%, на ScreenSpotPro на 17.2%, а на ScreenSpotV2 достиг точности 91.9%. Эти результаты демонстрируют значительное преимущество GuirlVG по сравнению с традиционными методами SFT, особенно в условиях ограниченности данных. Эксперименты также показали, что динамическая стабилизация Adversarial KL Factor играет ключевую роль в повышении эффективности GuirlVG. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GuirlVG имеет широкое применение в области разработки GUI-агентов, где точное взаимодействие с элементами интерфейса критически важно. Благодаря своей эффективности и низкому потреблению данных, GuirlVG может быть использован в различных приложениях, включая автоматизацию тестирования GUI, ассистенты для визуального интерфейса и системы автоматического управления интерфейсами. Преимущества GuirlVG включают в себя значительное уменьшение затрат на обучение, более высокую точность и стабильность по сравнению с традиционными методами SFT. Это делает GuirlVG пригодным для реальных сценариев, где эффективность и скорость обучения имеют критическое значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GuirlVG является важной эволюцией в области GUI-VG, предлагая эффективную альтернативу традиционным методам SFT. Результаты исследования показывают, что GuirlVG может значительно улучшить точность и стабильность GUI-VG с меньшими затратами на обучение. Будущие исследования могут сосредоточиться на дальнейшем улучшении алгоритмов RL для GUI-VG, а также на применении GuirlVG в более широком спектре задач, связанных с визуальным пониманием и взаимодействием с GUI.

Annotation:

Graphical user interface visual grounding (GUI-VG), a core capability for GUI agents, has primarily relied on supervised fine-tuning (SFT) of multimodal large language models (MLLMs), which demands extensive data curation and significant training costs. However, as MLLMs continue to advance and even cover GUI domains during pretraining, the necessity of exhaustive SFT post-training becomes increasingly questionable. Meanwhile, recent successes of rule-based reinforcement fine-tuning (RFT) sugges...

ID: 2508.04389v1 cs.AI

arXiv PDF

📄 Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky

2025-08-09

Авторы:

Xu Zhang, Mei Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Повышение качества данных о дорожно-транспортных происшествиях (ДТП) является ключевым фактором для повышения безопасности дорожного движения. Одной из серьезных проблем в этой области является точная идентификация вторичных ДТП, которые часто недостаточно задокументированы в основных отчетах. Вторичные ДТП — это события, которые происходят в результате задержек или перенаправлений трафика, вызванных первичным ДТП. Традиционные методы анализа часто не могут эффективно обрабатывать свободные текстовые описания событий, что приводит к потере важной информации. В штате Кентукки были собраны и проверены вручную 16 656 нарратива ДТП за период 2015–2022 годов, в которых было подтверждено 3 803 вторичных ДТП. Эти данные показывают, что традиционные методы классификации и анализа текстовых данных страдают от ограниченной точности и высокого уровня ложноположительных результатов. Поэтому необходимо разработать более точные и эффективные методы, основанные на современных технологиях обработки естественного языка (НЛП), для анализа таких текстовых данных. Использование передовых моделей НЛП, таких как Large Language Models (LLMs) и файн-тюнинговые трансформеры, может предоставить новые возможности для улучшения качества данных. Однако эти модели отличаются по точности, скорости работы и вычислительным требованиям. Таким образом, целью данного исследования является оценка эффективности различных моделей НЛП для улучшения качества данных о ДТП, специально в контексте идентификации вторичных ДТП. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были использованы три класса моделей для анализа текстовых нарративов ДТП: 1. **Zero-shot Large Language Models (LLMs):** Эти модели, такие как LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B и Gemma3:27B, работают без предварительной калибровки на специфических данных. Они используют обширные знания, встроенные в модели, для классификации текстов. 2. **Файн-тюнинговые трансформеры:** Этот класс включает модели BERT, DistilBERT, RoBERTa, XLNet и Longformer, которые были специально оттюнированы на данных ДТП Кентукки за период 2015–2021 годов. 3. **Традиционная логистическая регрессия:** Этот метод использовался в качестве базового для сравнения с более передовыми моделями. Модели были обучены на данных 2015–2021 годов и протестированы на данных 2022 года, которые содержали 1 771 нарратив. Методология включала в себя подготовку данных, обучение моделей и оценку их производительности с использованием метрик, таких как точность (accuracy) и F1-score. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что файн-тюнинговые трансформеры достигли наилучших результатов. Модель RoBERTa показала наивысший F1-score (0,90) и точность (95%). Эти результаты значительно превосходят базовый метод логистической регрессии, который достиг F1-score только 0,66. Zero-shot LLMs также показали высокую эффективность, особенно Gemma3:27B, которая достигла F1-score 0,86 и высокого recall (0,94). Однако эти модели требуют значительных вычислительных ресурсов. Например, обработка данных с помощью DeepSeek-R1:70B заняла до 723 минут, в то время как файн-тюнинговые модели обрабатывали тестирующий набор за секунды после короткого обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование демонстрирует практическую значимость использования передовых моделей НЛП для улучшения качества данных о ДТП. Файн-тюнинговые трансформеры, такие как RoBERTa, предоставляют высокую точность и эффективность, что делает их подходящими для реального применения. Кроме того, исследование подчеркивает важность разработки эффективных стратегий развертывания, таких как локальное размещение моделей с целью обеспечения конфиденциальности, а также использование ансамблей моделей для повышения точности. Инкрементальная обработка данных может также помочь в обеспечении масштабируемости таких систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что файн-тюнинговые трансформеры являются наиболее эффективными для улучшения качества данных о ДТП. Однако существует потенциал для дальнейшего улучшения с помощью оптимизации размеров моделей и использования меньших LLMs для сокращения времени обработки. Будущие исследования могут фокусироваться на разработке более эффективных методов для реального времени обработки данных и интеграции этих технологий в существующие системы мониторинга безопасности дорожного движения.

Annotation:

This study evaluates advanced natural language processing (NLP) techniques to enhance crash data quality by mining crash narratives, using secondary crash identification in Kentucky as a case study. Drawing from 16,656 manually reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we compare three model classes: zero-shot open-source large language models (LLMs) (LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers (BERT, DistilBERT, RoBERTa, XLNet, ...

ID: 2508.04399v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Why are LLMs' abilities emergent?

2025-08-09

Авторы:

Vladimír Havlík

**Резюме** В статье рассматривается проблема эмергентных способностей Large Language Models (LLMs), которые часто возникают неожиданно, несмотря на отсутствие прямого обучения на этих задачах. Автор анализирует эти свойства с помощью теоретического анализа и эмпирических исследований, отталкиваясь от нейронных сетей глубокого обучения. Он отличает их работу от символьных парадигм, подчеркивая нелинейную и стохастическую природу DNNs. Скрытые способности LLMs, такие как grokking или phase transitions, обусловлены динамическими процессами внутри системы, а не просто синергией своих элементов. Основной вывод — эмергентные способности LLMs являются результатом универсальных принципов, подобных тем, что определяются в физике, химии и биологии. Автор призывает перейти от феноменологического рассмотрения к пониманию внутренних динамических преобразований, которые делают эти системы такими эффективными. Это изменение парадигмы может помочь лучше понять и лучше контролировать эмергентные способности AI.

Annotation:

The remarkable success of Large Language Models (LLMs) in generative tasks has raised fundamental questions about the nature of their acquired capabilities, which often appear to emerge unexpectedly without explicit training. This paper examines the emergent properties of Deep Neural Networks (DNNs) through both theoretical analysis and empirical observation, addressing the epistemological challenge of "creation without understanding" that characterises contemporary AI development. We explore ho...

ID: 2508.04401v1 cs.CL, cs.AI

arXiv PDF

1
2
3373
3374
3375
3376
3377
3402
3403

Показано 33741 - 33750 из 34022 записей