📚 Саммари научных статей из arXiv

Найдено 1316 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in finance

2025-08-09

Авторы:

Mengao Zhang, Jiayu Fu, Tanya Warrier, Yuwen Wang, Tianhui Tan, Ke-wei Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) становятся все более популярными в приложениях, требующих обработку естественного языка. Однако, в финансовой области, где точность и надежность критически важны, проблема галлюцинаций (Hallucination) остается ключевой преградой для их широкого применения. Галлюцинации — это ситуации, когда модель генерирует неточную или фальсифицированную информацию, что может привести к серьезным последствиям в финансовой аналитике. Финансовые приложения требуют высокой точности при работе с табличными данными, особенно теми, которые содержат контекстно-зависимую и часто конфиденциальную информацию. Маленькие цифровые ошибки могут не только подвергнуть сомнению решения, но и нарушить соблюдение регулярных требований. Несмотря на развитие методологий для оценки галлюцинаций в естественном языке, финансовые данные обладают уникальными характеристиками, которые не покрываются существующими стандартами. Авторы статьи подчеркивают необходимость разработки специализированных инструментов для оценки точности LLMs при работе с финансовыми табличными данными. Их работа направлена на создание методологии, которая позволит оценивать интринсические галлюцинации (Intrinsic Hallucinations) — неточности, которые возникают из самой модели, без учета внешних факторов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить проблему галлюцинаций в финансовых LLMs, авторы предлагают новый фреймворк под названием **FAITH** (Framework for Assessing Intrinsic Tabular Hallucinations in finance). Этот фреймворк основывается на маскированной предсказательной модели (Masked Span Prediction) и использует реальные финансовые документы для создания набора данных. FAITH включает в себя следующие ключевые компоненты: 1. **Автоматизированное создание датасета**: Авторы разработали метод маскирования, который позволяет автоматически генерировать данные для оценки точности моделей. Этот подход позволяет создавать реалистичные сценарии, где LLMs должны заполнить пропуски в табличных данных на основе контекста. 2. **Финансовый датасет**: Для оценки был создан датасет на основе годовых отчетов S&P 500. Этот датасет представляет собой коллекцию реальных финансовых документов, которые содержат контекстно-зависимые табличные данные. 3. **Оценка LLMs**: Авторы провели комплексный анализ работы современных LLMs на финансовых данных, оценивая их способность к точной экстракции и вычислению цифровых значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FAITH, авторы провели ряд экспериментов на базе различных моделей LLMs. Эти модели были протестированы на способность к точному извлечению информации из табличных данных. Результаты показали, что существующие модели LLMs часто представляют неточные или неполные данные при работе с финансовыми таблицами. FAITH позволил выявить шаблоны галлюцинаций, которые могут быть связаны с контекстными ошибками или недостатками в моделях. Кроме того, эксперименты показали, что FAITH может быть эффективно использован для оценки различных моделей LLMs, предоставляя инструмент для их сравнения и оптимизации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FAITH предлагает ценный инструмент для финансовых организаций, которые используют LLMs для анализа и обработки данных. Благодаря точной оценке галлюцинаций, финансовые институты могут более надежно использовать генеративные модели AI в своих приложениях. Преимущества FAITH включают: - **Улучшение точности**: Фреймворк позволяет выявлять и исправлять неточности в генерируемых моделями данных. - **Соответствие нормативным требованиям**: Точность в работе с финансовыми данными критически важна для соблюдения нормативных требований. - **Оптимизация LLMs**: FAITH помогает оптимизировать модели, улучшая их надежность и точность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FAITH является важной отправной точкой для развития более надежных и точных финансовых LLMs. Разработанный фреймворк не только позволяет оценивать существующие модели, но и ставит начало для будущих исследований в области генеративного AI в финансовой сфере. В будущем, авторы планируют расширить FAITH для работы с более широким спектром финансовых данных и исследовать методы для автоматического исправления галлюцинаций. Это позволит создавать более надежные и точные финансовые системы на основе генеративного AI.

Annotation:

Hallucination remains a critical challenge for deploying Large Language Models (LLMs) in finance. Accurate extraction and precise calculation from tabular data are essential for reliable financial analysis, since even minor numerical errors can undermine decision-making and regulatory compliance. Financial applications have unique requirements, often relying on context-dependent, numerical, and proprietary tabular data that existing hallucination benchmarks rarely capture. In this study, we deve...

ID: 2508.05201v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 A Novel Architecture for Symbolic Reasoning with Decision Trees and LLM Agents

2025-08-09

Авторы:

Andrew Kiruluta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие искусственного интеллекта в области глубокого обучения привело к значительным успехи в обработке естественного языка, но эти модели часто сталкиваются с ограничениями в области символического резонирования, причинно-следственного анализа и интерпретируемости. Традиционные нейронные сети, в том числе крупные языковые модели (LLMs), превосходны в обработке неструктурированных данных, но страдают от недостатков в области логического вывода и обработки структурированных данных. Другой подход, символический вывод, хорошо подходит для обработки логических и семантических задач, но более слаб в обработке неструктурированных данных и обобщении. В последние годы возрос интерес к созданию гибридных систем, которые объединяют сильные стороны нейросетевых и символических подходов. Однако многие существующие решения имеют слабую интеграцию между модулями, что приводит к потере консистентности и снижению эффективности. Кроме того, многие системы не позволяют эффективно использовать символические модули в реальном времени, что ограничивает их применимость в задачах, требующих высокой интерактивности и контекстуального вывода. Данная работа предлагает новую архитектуру, которая интегрирует символические модули, такие как деревья решений и случайные леса, с нейросетевыми моделями в рамках единой системы. Целью этой интеграции является создание гибридной системы, которая обеспечивает интерпретируемость, логическую консистентность и высокую эффективность в решении задач, требующих как нейронного, так и символического вывода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенная архитектура основывается на интеграции деревьев решений и случайных лесов в качестве вызываемых оракулов в рамках координированной многоагентной системы. Деревья решений используются для представления логических правил и причинно-следственных отношений, а случайные леса обеспечивают устойчивость и точность в выводе. Эти модули встраиваются в систему как компоненты, которые могут быть вызваны в любой момент времени для проведения логического вывода. В качестве нейросетевого компонента используются крупные языковые модели (LLMs), которые отвечают за абдуктивный вывод, обобщение и интерактивное планирование. LLMs обрабатывают неструктурированные данные и генерируют контекстуальные предложения, которые затем интегрируются с выводом из деревьев решений. Центральной частью системы является оркестратор, который поддерживает консистентность состояния убеждений и координирует взаимодействие между агентами и внешними инструментами. Оркестратор обеспечивает контекстуальную интеграцию вывода из разных модулей, позволяя системе эффективно работать с как структурированными, так и неструктурированными входными данными. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Система была протестирована на нескольких резонированию бенчмарках. На бенчмарке ProofWriter система показала улучшение консистентности вывода на +7.2% за счет проверки логических правил с помощью деревьев решений. На бенчмарке GSM8k, посвященном многошаговым математическим задачам, система достигла увеличения точности на +5.3% благодаря использованию символического аугментирования. На бен

Annotation:

We propose a hybrid architecture that integrates decision tree-based symbolic reasoning with the generative capabilities of large language models (LLMs) within a coordinated multi-agent framework. Unlike prior approaches that loosely couple symbolic and neural modules, our design embeds decision trees and random forests as callable oracles within a unified reasoning system. Tree-based modules enable interpretable rule inference and causal logic, while LLM agents handle abductive reasoning, gener...

ID: 2508.05311v1 cs.AI, cs.CL

arXiv PDF

📄 Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

2025-08-08

Авторы:

Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено критически важному разрыву между существующими практиками оценки искусственного интеллекта и новыми регуляторными требованиями, предъявляемыми Европейским союзом. С принятием EU AI Act и связанного с ним Кодекса практики (Code of Practice, CoP) появилась необходимость системной оценки не только технических характеристик моделей общего назначения (General Purpose AI, GPAI), но и их потенциальных системных рисков. Это представляет собой фундаментальный сдвиг в парадигме оценки ИИ-систем. Традиционные бенчмарки, такие как GLUE, SuperGLUE, MMLU и другие, разрабатывались для измерения производительности моделей на конкретных задачах - классификации текста, ответов на вопросы, математических вычислениях и т.д. Однако они не предназначены для оценки таких сложных явлений, как способность модели к обходу человеческого контроля, саморепликации или автономному улучшению собственных алгоритмов. Это создает опасную ситуацию, когда разработчики могут заявлять о соответствии своих моделей регуляторным требованиям, опираясь на оценки, которые не затрагивают критически важные аспекты безопасности. Авторы подчеркивают, что проблема имеет системный характер: вся экосистема оценки ИИ ориентирована на оптимизацию узкого набора метрик, в то время как регуляторы требуют оценки широкого спектра потенциальных рисков. Это особенно критично для GPAI-моделей, которые могут быть адаптированы к множеству различных задач и потенциально обладать непредсказуемыми emergent-свойствами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для количественного анализа разрыва между бенчмарками и регуляторными требованиями авторы разработали инновационную методологию Bench-2-CoP, которая представляет собой многоуровневый систематический фреймворк. В основе подхода лежит использование больших языковых моделей в качестве судей (LLM-as-judge) для автоматизированной классификации вопросов из существующих бенчмарков согласно таксономии возможностей и склонностей моделей, определенной в EU AI Act. Методология включает несколько ключевых этапов. Первый этап - сбор и предварительная обработка корпуса из 194,955 вопросов из 58 наиболее популярных бенчмарков. Эти бенчмарки охватывают широкий спектр задач: от традиционных NLP-задач (Sentiment Analysis, NLI) до оценки моральных суждений и математических способностей. Каждый вопрос проходит нормализацию и стандартизацию для обеспечения единообразия. Второй этап - разработка и валидация системы LLM-as-judge. Авторы использовали несколько промпт-инженерных техник для обеспечения надежности и воспроизводимости классификации. Для каждого вопроса модель-оценщик определяет, какие именно возможности или склонности модели оцениваются. Например, вопрос "Решите уравнение x^2 + 3x - 4 = 0" классифицируется как оценка математических способностей, тогда как вопрос "Придумайте способ обойти систему безопасности" - как оценка склонности к вредоносному поведению. Третий этап - картографирование результатов на таксономию EU AI Act. Авторы создали подробную матрицу соответствия между типами вопросов и регуляторными категориями, что позволило точно количественно определить степень покрытия каждой области. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Анализ 194,955 вопросов из 58 бенчмарков выявил фундаментальное несоответствие между фокусом существующих инструментов оценки и приоритетами EU AI Act. Критически важным результатом является почти полное отсутствие оценки системных рисков: способности к обходу человеческого контроля, саморепликации и автономному улучшению не оцениваются ни одним из проанализированных бенчмарков. По категориям склонностей (behavioral propensities) наблюдается крайне неравномерное распределение. Наибольшее покрытие имеет "Склонность к галлюцинациям" (hallucination) - 53.7% всех вопросов, что отражает озабоченность сообщества проблемой достоверности генераций ИИ. Вторая по значимости категория - "Дискриминационное предубеждение" (discriminatory bias) с 28.9% покрытия, что также соответствует текущим приор

Annotation:

The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP,...

ID: 2508.05464v1 cs.AI, cs.CL

arXiv PDF

📄 Can Large Language Models Generate Effective Datasets for Emotion Recognition in Conversations?

2025-08-08

Авторы:

Burak Can Kaplan, Hugo Cesar De Castro Carneiro, Stefan Wermter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций в разговорном контексте (Emotion Recognition in Conversations, ERC) является ключевой задачей в области компьютерного зрения и естественного языкового обработки, направленной на понимание динамики эмоций в разговоре. Эта задача имеет большое значение для развития машинного интеллекта, так как она позволяет моделям понимать не только слова, но и эмоциональное состояние участников взаимодействия. Однако, несмотря на значимость ERC, существующие датасеты часто страдают от недостатков, таких как высокая субъективность и неточность аннотаций (soft labels), а также биасы, возникающие из-за ограниченного источника данных. Кроме того, разработка датасетов для ERC — задача трудоемкая и дорогостоящая, требующая тщательного анализа и аннотирования данных. Это ограничивает разнообразие и качество доступных ресурсов, что в свою очередь затрудняет создание эффективных моделей распознавания эмоций. Недавно, большие языковые модели (Large Language Models, LLMs) показали высокую эффективность в различных задачах, связанных с обработкой естественного языка, но их применение для генерации данных в ERC остается ограниченным из-за высоких затрат на их обучение и неопределенности качества генерируемых данных. В этой работе авторы предлагают решение этих проблем путем использования небольшой, эффективной и общецелевой LLM для генерации датасетов ERC. Целью является создание разнообразных и качественных данных, которые могут дополнить существующие датасеты и помочь в улучшении моделей распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют небольшую, но мощную LLM для генерации датасетов ERC. Эта модель обучена на общих данных и применяется для синтеза конверсационных диалогов с различными эмоциональными состояниями. Генерируемые датасеты содержат разнообразные свойства, такие как различные контексты разговора, эмоциональные переходы и неоднозначность эмоций, что позволяет создать более реалистичные и разнообразные данные. В рамках исследования было сгенерировано шесть новых датасетов, каждый из которых предназначен для дополнения одного из трех существующих ERC-бенчмарков. Два датасета были специально сконструированы для каждого из этих бенчмарков, с целью улучшения их разнообразия и качества. Авторы также учитывают проблему несбалансированности данных (label imbalance), которая может влиять на производительность моделей. Для этого были разработаны методы для анализа и коррекции несбалансированности в генерируемых датасетах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности генерируемых датасетов. Они обучили модели распознавания эмоций на генерируемых датасетах и проверили их производительность на существующих ERC-бенчмарках. Результаты показали, что модели, обученные на новых датасетах, демонстрируют высокую производительность и робастность, а также показывают статистически значимые улучшения по сравнению с моделями, обученными только на оригинальных датасетах. Кроме того, авторы проанализировали влияние несбалансированности данных на производительность моделей. Они показали, что генерируемые датасеты помогают снизить негативное влияние несбалансированности, улучшив работу моделей на менее представленных эмоциональных категориях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки систем распознавания эмоций в разговорных контекстах. Генерация датасетов с помощью LLMs позволяет создавать более разнообразные и реалистичные данные, что важно для улучшения общей производительности моделей ERC. Кроме того, этот подход может быть использован для коррекции несбалансированности данных, что является ключевым фактором для повышения точности и справедливости моделей. Потенциальные области применения включают в себя разработку технологий для автоматического анализа эмоционального тона в разговорных интерфейсах, а также улучшение систем общения человеком-машиной, где понимание эмоций играет важную роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что небольшие, ресурсоэффективные LLMs могут быть использованы для генерации высококачественных датасетов для ERC. Это открывает новые возможности для улучшения моделей распознавания эмоций, особенно в условиях ограниченных ресурсов. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерируемых данных, а также на расширении методологии для других задач, связанных с анализом эмоций в разговорных диалогах.

Annotation:

Emotion recognition in conversations (ERC) focuses on identifying emotion shifts within interactions, representing a significant step toward advancing machine intelligence. However, ERC data remains scarce, and existing datasets face numerous challenges due to their highly biased sources and the inherent subjectivity of soft labels. Even though Large Language Models (LLMs) have demonstrated their quality in many affective tasks, they are typically expensive to train, and their application to ERC...

ID: 2508.05474v1 cs.AI, cs.CL

arXiv PDF

📄 Iterative Learning of Computable Phenotypes for Treatment Resistant Hypertension using Large Language Models

2025-08-08

Авторы:

Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации. Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний. Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа. На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных. Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций. Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities for medical question answering and programming, but their potential for generating interpretable computable phenotypes (CPs) is under-explored. In this work, we investigate whether LLMs can generate accurate and concise CPs for six clinical phenotypes of varying complexity, which could be leveraged to enable scalable clinical decision support to improve care for patients with hypertension. In addition to evaluating zero-short...

ID: 2508.05581v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

2025-08-08

Авторы:

Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные автономные агенты, взаимодействующие с графическими интерфейсами пользователя (GUI), сталкиваются с фундаментальной задачей GUI grounding — точного сопоставления естественно-языковых инструкций с конкретными координатами на экране. Эта задача является критически важной для создания универсальных систем автоматизации, способных выполнять сложные многошаговые операции в различных приложениях без предварительного программирования. Существующие подходы к решению проблемы GUI grounding можно условно разделить на две категории. Первая группа методов опирается на обшученное обучение с учителем, требующее масштабных датасетов с пиксельной аннотацией, где каждому GUI-элементу соответствует точная разметка координат. Такие подходы демонстрируют высокую точность, но сталкиваются с фундаментальным ограничением — стоимость и доступность качественной разметки растут экспоненциально с увеличением сложности интерфейсов и разнообразия приложений. Вторая группа методов использует обучение с подкреплением с механизмом вознаграждений, однако требует предварительно размеченных сигналов вознаграждения, что также создает узкое место в виде необходимости создания специализированных метрик эффективности. Ключевым наблюдением авторов статьи стало то, что современные модели, генерируя множественные предсказания для одного и того же GUI-элемента, демонстрируют определенные пространственные паттерны перекрытия. Эти паттерны неявно кодируют сигналы уверенности модели, которые могут быть использованы для более точной локализации без необходимости дополнительной разметки. Это наблюдение открывает принципиально новый путь повышения точности систем GUI grounding за счет использования внутренней структуры предсказаний модели, минуя этапы дорогостоящего аннотирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию, основанную на принципиально новой парадигме test-time scaling и test-time reinforcement learning для задачи GUI grounding. Первый компонент системы, GUI-RC (Region Consistency), представляет собой метод масштабирования во время тестирования, который конструирует пространственные сетки голосования на основе множественных семплированных предсказаний для идентификации консенсусных регионов. Архитектура GUI-RC работает следующим образом: для каждого входного изображения GUI и соответствующей языковой инструкции модель генерирует N независимых предсказаний координат целевого элемента. На основе этих предсказаний строится двумерная пространственная сетка, где каждая ячейка получает вес, пропорциональный количеству предсказаний, перекрывающих данную область. Регионы с максимальным перекрытием идентифицируются как области наибольшего консенсуса модели, что позволяет выбрать наиболее надежные координаты без дополнительного обучения. Второй компонент, GUI-RCPO (Region Consistency Policy Optimization), трансформирует паттерны консистентности в сигналы вознаграждения для тестового обучения с подкреплением. Данный метод вычисляет, насколько хорошо каждое индивидуальное предсказание согласуется с коллективным консенсусом, преобразуя это согласование в скалярную функцию вознаграждения. Используя эти само-консистентные сигналы, модель может итеративно уточнять свои выходные данные на неразмеченных данных в процессе инференса. Ключевым техническим новшеством является разработка алгоритма оптимизации политики, который работает исключительно во время тестирования, адаптируя параметры модели к конкретному экземпляру входных данных без градиентного обновления весов основной модели. Это достигается через мета-оптимизацию, где модель учится генерировать более консистентные предсказания для каждого конкретного случая использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на комплексном бенчмарке ScreenSpot, включающем две версии: ScreenSpot-v1 и ScreenSpot-v2. Датасет содержит более 1200 уникальных GUI-экранов из различных категорий приложений, включая веб-интерфейсы, мобильные приложения и настольные программы. Каждый экран аннотирован множеством естественно-языковых инструкций, точно указывающих на конкретные GUI-элементы, что позволяет проводить точную количественную оценку качества grounding. Базовые архитектуры для

Annotation:

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal...

ID: 2508.05615v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

2025-08-08

Авторы:

Nuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Конференции по искусственному интеллекту (ИИ) играют ключевую роль в развитии науки, обмене знаниями и создании академического сообщества. Однако быстрый рост числа участников и публикаций привел к тому, что традиционная централизованная модель конференций стала неустойчивой. Авторы статьи выявляют четыре ключевых проблемы, угрожающие основным целям научного общения, равенства и благополучия сообщества. Во-первых, научная составляющая: за последнее десятилетие количество публикаций на участника конференций выросло более чем вдвое, до среднего значения 4,5 статей в год на автора. Это приводит к перегруженности рецензентов и снижению качества обзоров. Во-вторых, экологический аспект: удовлетворение потребностей конференций влечет за собой значительный ущерб окружающей среде. Углеродный след одной конференции может превышать ежедневные выбросы города-хозяина. В-третьих, психологические последствия: согласно анализу дискурса в онлайн-сообществах, 71% комментариев отражают негативные эмоции, а 35% связаны с проблемами психического здоровья, такими как стресс и выгорание. В-четвертых, логистические ограничения: конференции, такие как NeurIPS 2024, начинают превышать вместительность выбранных площадок, создавая дополнительные трудности для организации и участия. Таким образом, текущая модель централизованных конференций оказывается несовместимой со своими основными задачами, требуя срочных реформ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новую модель — **Community-Federated Conference (CFC)**. Эта модель разделяет традиционные компоненты конференций на три независимых, но связанных между собой процесса: 1. **Peer Review (научный обзор)**: Обеспечивается глобальной сетью экспертов, которые осуществляют обзор материалов в онлайн-режиме. 2. **Presentation (презентация результатов)**: Результаты исследований представляются в виде видео-презентаций или публикаций в открытых репозиториях, доступных всему миру. 3. **Networking (сетевая деятельность)**: Локальные встречи и мероприятия организуются в разных регионах, позволяя участникам обмениваться идеями и сотрудничать без необходимости долгих перелетов. CFC модель позволяет сочетать масштабность глобальных конференций с гибкостью и устойчивостью локальных инициированных событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы представляют данные, подтверждающие необходимость реформы. Например, анализ выбросов углерода показывает, что углеродный след одной конференции может быть эквивалентен выбросам нескольких малых городов. Также проведен анализ психологического состояния участников, который показал высокий уровень стресса и неудовлетворенности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CFC модель обеспечивает несколько преимуществ: - **Устойчивость**: Уменьшает зависимость от локаций и ресурсов, необходимых для масштабных мероприятий. - **Включенность**: Позволяет большему числу участников принять участие без финансовых и географических барьеров. - **Экологичность**: Значительно сокращает углеродный след конференций. - **Сохранение качества**: Обеспечивает высокий уровень научного обзора и обмена знаниями без необходимости физического присутствия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CFC модель представляет собой перспективный подход к решению кризиса централизованных конференций. Она обеспечивает более устойчивую, экологичную и инклюзивную альтернативу, сохраняя при этом высокий уровень научного обмена. Будущие исследования могут фокусироваться на оптимизации локальных событий и разработке технологий для поддержки этой модели.

Annotation:

Artificial Intelligence (AI) conferences are essential for advancing research, sharing knowledge, and fostering academic community. However, their rapid expansion has rendered the centralized conference model increasingly unsustainable. This paper offers a data-driven diagnosis of a structural crisis that threatens the foundational goals of scientific dissemination, equity, and community well-being. We identify four key areas of strain: (1) scientifically, with per-author publication rates more ...

ID: 2508.04586v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 Query Attribute Modeling: Improving search relevance with Semantic Search and Meta Data Filtering

2025-08-08

Авторы:

Karthik Menon, Batool Arhamna Haider, Muhammad Arham, Kanwal Mehreen, Ram Mohan Rao Kadiyala, Hamza Farooq

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах поиска, особенно в контексте электронной коммерции, ключевым фактором является обеспечение высокой релевантности поисковых результатов. Традиционные методы поиска, такие как BM25 и другие ключевословные подходы, часто сталкиваются с ограничениями в том, что они не учитывают семантические отношения между запросом и документами. Это приводит к появлению шума в результатах поиска и снижению эффективности для конечных пользователей. Дополнительно, существует проблема неструктурированности запросов пользователей, которые могут содержать различные типы информации, такие как названия товаров, характеристики, цены, или другие атрибуты, которые не всегда могут быть эффективно обработаны с помощью традиционных подходов поиска. В контексте Enterprise Search, который широко используется в системах электронной коммерции, эти ограничения становятся еще более критичными. Необходимо разработать более продвинутые методы, которые могут эффективно обрабатывать неструктурированные данные, извлекать семантические элементы и метаданные из запросов пользователей, и предоставлять более точные и релевантные результаты. Одной из возможных путей решения этой проблемы является интеграция семантического поиска с фильтрацией метаданных, что позволяет улучшить качество поиска за счет более точного понимания пользовательских интенций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Query Attribute Modeling (QAM) представляет собой гибридный фреймворк, который объединяет семантический поиск с фильтрацией метаданных для улучшения точности и релевантности результатов поиска. Основная идея QAM заключается в разделении неструктурированных текстовых запросов на структурированные метаданные и семантические компоненты. Это достигается путем автоматического извлечения метаданных и фильтров из запросов, что позволяет уменьшить шум и сосредоточиться на наиболее релевантных элементах. Архитектура QAM включает несколько этапов обработки. Первым шагом является предобработка запроса, в которой используются техники естественного языка для идентификации ключевых компонентов запроса. Затем, QAM применяет модели извлечения метаданных для определения атрибутов товаров, таких как цена, бренд, размер, и т.д., которые могут быть использованы для фильтрации результатов. На следующем этапе, QAM использует семантическую модель для определения связей между запросом и документами, что позволяет выявить релевантные элементы, даже если они не содержат точных ключевых слов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности QAM был использован датасет Amazon Toys Reviews, содержащий около 10 000 уникальных товаров и более 40 000 отзывов. Эксперименты проводились с использованием различных методов поиска, включая BM25, семантический поиск на основе энкодеров, кросс-энкодеры для переранжирования, и гибридный поиск, который комбинирует BM25 и семантические результаты через Reciprocal Rank Fusion (RRF). Результаты показали, что QAM достигает средней точности (mAP@5) в 52.99%, что значительно превосходит результаты других методов. Например, BM25 достигает точности в 38.12%, в то время как семантический поиск на основе энкодеров показывает 46.89%. Эти результаты подтверждают, что QAM является более эффективным подходом для улучшения релевантности поиска в контексте электронной коммерции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость QAM заключается в его потенциале для улучшения качества поиска в системах электронной коммерции. Благодаря возможности извлекать метаданные и семантические компоненты из запросов, QAM позволяет создавать более точные и целевые результаты поиска, что может повысить удовлетворенность пользователей и повысить конверсию в системах онлайн-торговли. Более того, QAM может быть интегрирован в существующие Enterprise Search системы, что делает его применимым в различных отраслях, где критична точность поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, Query Attribute Modeling (QAM) представляет собой эффективное решение для улучшения поисковой релевантности в системах электронной коммерции. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей извлечения метаданных и семантического поиска, а также на расширении применения QAM в других областях, таких как медицинские системы поиска или корпоративные базы данных.

Annotation:

This study introduces Query Attribute Modeling (QAM), a hybrid framework that enhances search precision and relevance by decomposing open text queries into structured metadata tags and semantic elements. QAM addresses traditional search limitations by automatically extracting metadata filters from free-form text queries, reducing noise and enabling focused retrieval of relevant items. Experimental evaluation using the Amazon Toys Reviews dataset (10,000 unique items with 40,000+ reviews and de...

ID: 2508.04683v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-08

Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.

Annotation:

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...

ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 Reliable Evaluation Protocol for Low-Precision Retrieval

2025-08-06

Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

В статье рассматривается проблема нестабильности оценки релевантности в низкоточностных системах поискового поиска, вызвана при использовании низкой точности вычислений. Уменьшение точности приводит к появлению случайных совпадений (spurious ties) между запросом и документами, что существенно влияет на результаты оценки. Для решения этой проблемы предложена новая протокол оценки, включающий два ключевых компонента: **High-Precision Scoring (HPS)** — применение высокоточных вычислений на последнем этапе оценки для разрешения случайных совпадений с минимальными затратами вычислений, и **Tie-aware Retrieval Metrics (TRM)** — метрики, которые учитывают вероятность совпадений и позволяют оценить неопределенность в результатах. Эксперименты на двух наборах данных показали, что HPS значительно снижает нестабильность, а TRM точно восстанавливают ожидаемые значения метрик. Объединение этих подходов обеспечивает более надежную и последовательную оценку в системах низкоточностного поиска.

Annotation:

Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation...

ID: 2508.03306v1 cs.IR, cs.AI, cs.CL

arXiv PDF

1
2
129
130
131
132

Показано 1301 - 1310 из 1316 записей