📚 Саммари научных статей из arXiv

Найдено 1316 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods

2025-09-10

Авторы:

Jinrui Yang, Fan Jiang, Timothy Baldwin

#### Контекст В многоязычных системах информационного поиска (MLIR) существует важное равенство — топ-результаты поиска для запросов, имеющих одинаковый смысл, но на разных языках, должны быть одинаковыми. Несправедливость в рейтинге может привести к недоступности информации для пользователей некоторых языков. Этот мотив наполняет исследование, так как необходимо гарантировать, что системы MLIR работают справедливо и эффективно для всех лингвистических групп. Недостаточное равенство может быть вызвано тем, что тренировочные данные или алгоритмы могут придавать большую важность определенным языкам. #### Метод Для изучения проблемы с предположением о равенстве в семантике запросов были использованы два типа подходов: традиционные методы и модель DPR с нейронным ранжированием. DPR была основана на двух моделях представления языка — mBERT и XLM-R. Эти модели были обучены на 100 языках. Для измерения равенства использовался метрический подход, который сравнивал рейтинги важных документов в зависимости от используемого языка. Была представлена новая функция потерь LaKDA, которая стремилась уменьшить неравенство в многоязычных системах поиска. #### Результаты Проведенные эксперименты на нескольких наборах данных, включая TREC-COVID и CC-100, показали повышенную неравенственность в топ-результатах поиска в зависимости от языка. Результаты показали, что модель XLM-R превосходит mBERT в более справедливом ранжировании для некоторых языков. Однако все модели демонстрировали незначительные неравенства в своих рейтингах. Использование LaKDA позволило улучшить равенство в результатах в сравнении с базовыми моделями. #### Значимость Найденные неравенства в MLIR могут привести к недоступности ресурсов для некоторых групп языков, что является критическим в области глобальной связи и образования. Это исследование показало, что LaKDA может сделать системы MLIR более справедливыми, уменьшив степень неравенства в рейтингах. Это может привести к более честному и эффективному доступу к информации для всех языков. Будущие исследования могут сосредоточиться на расширении обучающих наборов данных и изучении других подходов к улучшению равенства в MLIR. #### Выводы Исследование подтвердило существование языковых неравенств в MLIR, исследовав способы их измерения и устранения. Результаты показали, что LaKDA является эффективным методом для улучшения равенства в MLIR. Дальнейшие исследования могут расширить понимание неравенств и развить новые стратегии для повышения справедливости в многоязычных системах поиска.

Annotation:

Language fairness in multilingual information retrieval (MLIR) systems is crucial for ensuring equitable access to information across diverse languages. This paper sheds light on the issue, based on the assumption that queries in different languages, but with identical semantics, should yield equivalent ranking lists when retrieving on the same multilingual documents. We evaluate the degree of fairness using both traditional retrieval methods, and a DPR neural ranker based on mBERT and XLM-R. Ad...

ID: 2509.06195v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 Beamforming-LLM: What, Where and When Did I Miss?

2025-09-10

Авторы:

Vishal Choudhari

## Контекст Многоречивые окружения представляют свои собственные вызовы для понимания и восприятия говорения. Особенно это актуально при отсутствии внимания к некоторым частям диалога. Существующие системы позволяют воспроизводить содержимое звуковых потоков, но не учитывают контекст или семантический контент. Участники таких систем часто приходятся прибегать к рутинному повторению звуков, чтобы разобраться в пропущенном контенте. Это приводит к увеличению времени, потребляемого на понимание диалога, и к ухудшению качества взаимодействия. Необходимо разработать систему, которая не только воспроизводила бы пропущенные фрагменты, но и обеспечивала бы понятное понимание и контекст с помощью наиболее актуального текстового описания. ## Метод Система Beamforming-LLM использует микрофонный массив для съемки спектральных данных, которые позволяют выделить звуковые источники в многоречивых средах. Эти звуковые потоки используются для сегментации и распознавания речи с помощью Whisper. Он транскрибирует звуковые фрагменты и вставляет их в векторную базу данных с помощью sentence encoders. Пользователь может задавать семантические запросы, например: "Что я пропустил, когда думал об другой теме?". Затем система выполняет поиск семантически похожих фрагментов и определяет, какие фрагменты были пропущены в то время, когда пользователь отвлекался. Эти фрагменты становятся доступными для повтора с помощью GPT-4o-mini, которая создает упрощенные сводки. Благодаря этому, пользователь может получить ответы в удобном текстовом формате с возможностью запускать аудио на запрос. ## Результаты В экспериментах система Beamforming-LLM была применена в сценариях многоречивых диалогов, когда пользователь отвлекается от некоторых частей диалога. Были проведены тесты на различных диалогах, и система показала высокую точность в поиске и воспроизведении пропущенных фрагментов. Опробывались различные типы звуковых баз, включая диалог между тремя людьми и сложные ситуации с многочисленными источниками звука. Результаты показали, что Beamforming-LLM не только выделяет пропущенные фрагменты, но и предоставляет понятные и контекстуально подходящие разъяснения, что улучшает понимание пользователем. ## Значимость Было проанализировано множество областей применения Beamforming-LLM. Это может быть полезно для помощи людям с нарушениями слуха или в целях облегчения труда в нормальных диалогах. Также есть возможность применять ее в корпоративных средах для помощи в суммировании митингов, а также в сфере мобильных приложений, где пользователи могут использовать систему для получения ответа на с

Annotation:

We present Beamforming-LLM, a system that enables users to semantically recall conversations they may have missed in multi-speaker environments. The system combines spatial audio capture using a microphone array with retrieval-augmented generation (RAG) to support natural language queries such as, "What did I miss when I was following the conversation on dogs?" Directional audio streams are separated using beamforming, transcribed with Whisper, and embedded into a vector database using sentence ...

ID: 2509.06221v1 eess.AS, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

2025-09-10

Авторы:

Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty

## Контекст Глубокие системы выведения, основанные на глубоких нейронных сетях, становятся важным инструментом в различных областях, таких как транспорт, здравоохранение, финансы и машинное обучение. Однако существуют значительные проблемы, связанные с управлением этими системами, включая неэффективность, высокую сложность и возможность ошибок. Эти проблемы часто возникают из-за ограниченных возможностей агентов в рассуждении и использовании инструментов при принятии решений. Настоящая работа посвящена развитию методов, которые позволяют агентам принимать решения с помощью глубокого рассуждения и эффективного использования инструментов. ## Метод Мы предлагаем методологию, основанную на расчетно-ориентированных моделях и интеграции инструментов, которая позволяет агентам принимать решения в ситуациях с повышенной сложностью. Архитектура нашего подхода включает в себя несколько ключевых компонентов: 1. **Обучение модели с помощью рассуждений**: Мы развиваем новую рецептуру для обучения моделей, которая включает в себя глубокий рассуждений различных вариантов действий. 2. **Интеграция инструментов**: Мы разрабатываем механизмы для интеграции инструментов в процесс принятия решений, чтобы улучшить эффективность и точность решений. 3. **Продолжительное обучение модели**: Мы используем продолжительное обучение модели на основе наблюдаемых данных и реальных ситуациях для постоянного улучшения производительности и увеличения уровня рациональности решений. ## Результаты Мы проводим эксперименты на двух различных наборах данных, чтобы оценить эффективность нашего подхода. Мы сравниваем результаты наших моделей с другими популярными методами. Результаты показывают, что наш подход дает значительные выигрыши в производительности и точности. Например, наша модель показывает улучшение до 28.7% в Humanity's Last Exam benchmark, что подтверждает эффективность интеграции рассуждения и инструментов в агентной системе. ## Значимость Метод, предложенный в настоящей работе, имеет широкие возможности применения в таких областях, как транспорт, здравоохранение, финансы и машинное обучение. Он обладает несколькими преимуществами, включая улучшенную точность и эффективность решений, а также возможность применения в сложных ситуациях, требующих рассуждений. Этот подход может сыграть ключевую роль в развитии агентных систем, которые могут принимать решения с повышенной точностью и продуктивностью. ## Выводы Мы развиваем методовую систему, которая позволяет агентам принимать решения с помощью рассуждений и инструментов. Мы про

Annotation:

Equipping large language models (LLMs) with complex, interleaved reasoning and tool-use capabilities has become a key focus in agentic AI research, especially with recent advances in reasoning-oriented (``thinking'') models. Such capabilities are key to unlocking a number of important applications. One such application is Deep Research (DR), which requires extensive search and reasoning over many sources. Our work in this paper focuses on the development of native Autonomous Single-Agent models ...

ID: 2509.06283v2 cs.AI, cs.CL

arXiv PDF

📄 Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

2025-09-10

Авторы:

Jaemin Son, Sujin Choi, Inyong Yun

## Контекст Исследования в области визуально-языковых моделей (Vision-Language Models, VLMs) демонстрируют впечатляющие результаты в области распознавания документов. Однако эти модели характеризуются высоким потреблением вычислительных ресурсов, что становится большой проблемой при их применении в реальных сценариях. Особенно заметна эта проблема при обработке документов, где большая часть изображения состоит из неинформативных областей. Это приводит к ненужным вычислениям и увеличивает затраты на ресурсы. Исследователи стремятся найти методы, позволяющие эффективно оптимизировать работу VLMs, сохранив высокую точность. ## Метод Для решения этой проблемы предлагается инновационный подход — **Index-Preserving Lightweight Token Pruning**. Основной элемент этого подхода — **binary patch-level classifier**, который отфильтровывает некритичные области документа, такие как фоновые изображения или непонятные символы. Затем, для восстановления логической структуры текста, используется **max-pooling refinement step**, который объединяет разделенные части текста в единое целое. Такой подход позволяет снизить вычислительные затраты, не ухудшая точность работы VLMs. Архитектура системы оптимизирована для работы с документными изображениями, используя специальные методы для повышения точности и эффективности распознавания. ## Результаты На базе реальных документных данных проведено ряд экспериментов для оценки эффективности предложенного подхода. Было сравнено поведение VLMs с использованием предлагаемого метода и без него. Результаты показали, что использование **Index-Preserving Lightweight Token Pruning** приводит к значительной снижению вычислительных затрат — до 30% в сравнении с базовым подходом. Тем не менее, точность распознавания остается высокой и соответствует уровню без применения оптимизации. Это демонстрирует эффективность фреймворка в сокращении ненужных вычислений без потери качества работы. ## Значимость Предложенный подход может быть применен в различных областях, где требуется эффективная обработка документов, например, в системах автоматического документооборота, в системах текстового поиска и в системах анализа документов в сетях Интернета. Важное преимущество этого подхода — снижение требований к вычислительным ресурсам, что делает его применимым для быстродействующих систем и мобильных приложений. Это может положительно сказаться на развитии технологий обработки документов, улучшении их доступности и эффективности в работе с большими объемами данных. ## Выводы Результаты работы показали, что **Index-Preserving Lightweight Token Pruning** является эффективным методом для оптимизации работы VLMs при обработке документов. Оно позволяет значительно снизить вычислительные за

Annotation:

Recent progress in vision-language models (VLMs) has led to impressive results in document understanding tasks, but their high computational demands remain a challenge. To mitigate the compute burdens, we propose a lightweight token pruning framework that filters out non-informative background regions from document images prior to VLM processing. A binary patch-level classifier removes non-text areas, and a max-pooling refinement step recovers fragmented text regions to enhance spatial coherence...

ID: 2509.06415v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Reinforcement Learning Foundations for Deep Research Systems: A Survey

2025-09-10

Авторы:

Wenjun Li, Zhi Chen, Jingru Lin, Hannan Cao, Wei Han, Sheng Liang, Zhi Zhang, Kuicai Dong, Dexun Li, Chen Zhang, Yong Liu

## Контекст В нынешнем контексте развития искусственного интеллекта (ИИ) возникает необходимость в развитии систем, которые способны решать сложные задачи, включающие несколько этапов, сочетая различные инструменты и подходы. Эти системы, известные как deep research systems, являются agentic AI, которые умеют выполнять тяжелые задачи, объединяя принятие решений, поиск в открытом интернете и в локальных файлах пользователя, а также использование различных инструментов. Однако развитие таких систем сталкивается с рядом проблем. Существующие подходы, такие как supervised fine-tuning (SFT) и динамический преференциальный оптимизатор (DPO), сталкиваются с рядом ограничений. Они часто требуют ручной разработки схем, подразумевают использование ограниченного количества программных инструментов и страдают от проблем с трудным кредитным присвоением и транспарентностью решений. На этой заднней сцене роль реинфорсмент-лернинга (reinforcement learning, RL) становится важной, так как он позволяет подходить к задачам в замкнутом цикле и использовать оптимизацию траекторий, что дает возможность эффективно использовать различные инструменты и решать задачи с трудным кредитным присвоением, а также обеспечивать более предсказуемое и прозрачное поведение системы. ## Метод В этом исследовании рассматривается методология развития deep research systems, основанных на reinforcement learning. Основным подходом является использование RL для обучения agentic research systems. Методом является разработка многоуровневой архитектуры, включающей планировщика, координатора и исполнителей, которые реализуют различные аспекты обучения и исполнения. Для обучения RL используются различные методы, такие как преобразование траекторий, для того чтобы обеспечить стабильность и эффективность обучения. Также в работе добавляется рассмотрение различных средств, таких как многоmodalный подход, для улучшения качества решений. Одним из ключевых моментов является использование техник, таких как reward shaping и credit assignment, которые позволяют системе эффективно выполнять задачи, даже в трудных ситуациях с многообъективным оптимизационным подходом. ## Результаты В рамках этого исследования проводились ряд экспериментов, направленных на развитие и оценку RL-based approaches в рамках deep research systems. Были рассмотрены различные данные, включая текстовые данные, изображения и многоmodalные данные. Результаты показали, что RL-based approaches, в частности, такие как PPO и RADIAL, позволяют эффективно решать задачи, включающие многошаговое решение и инструментальные интеракции. Особенно примечателен факт, что RL позволяет снизить зависимость от создания сложных схем и ручного кредитного присвоения, что значитель

Annotation:

Deep research systems, agentic AI that solve complex, multi-step tasks by coordinating reasoning, search across the open web and user files, and tool use, are moving toward hierarchical deployments with a Planner, Coordinator, and Executors. In practice, training entire stacks end-to-end remains impractical, so most work trains a single planner connected to core tools such as search, browsing, and code. While SFT imparts protocol fidelity, it suffers from imitation and exposure biases and underu...

ID: 2509.06733v1 cs.AI, cs.CL

arXiv PDF

📄 VehicleWorld: A Highly Integrated Multi-Device Environment for Intelligent Vehicle Interaction

2025-09-10

Авторы:

Jie Yang, Jiajun Chen, Zhangyue Yin, Shuo Chen, Yuxin Wang, Yiran Guo, Yuan Li, Yining Zheng, Xuanjing Huang, Xipeng Qiu

## Контекст Область исследования связана с развитием интеллектуальных систем для интерактивного управления автомобилями. Недавние прогрессы в искусственном интеллекте и автоматизированном управлении привели к появлению внедряемых систем, обеспечивающих безопасность и эффективность вождения. Однако существуют серьезные проблемы, связанные с трудностями в создании систем, которые могут эффективно координироваться в узких, тесно связанных системах. Эти системы часто требуют сложных вычислений и неэффективных процессов, что приводит к ошибкам и резким потерям в производительности. Таким образом, необходимо разработать среду, которая могла бы полностью имитировать работу таких систем и помогла бы оценивать их поведение в разных сценариях. ## Метод Методология, разработанная в рамках этого исследования, основывается на создании комплексной среды, названной **VehicleWorld**. Она включает 30 модулей, 250 API-интерфейсов и 680 свойств, выполняющихся в реальном времени. Эта среда позволяет тестировать и оценивать поведение автомобильных агентов в разных сценариях. Эталонным подходом является **Function Calling (FC)**, который использует статические вызовы для выполнения задач. Однако этот подход имеет ограничения, так как не имеет состояния и требует много вызовов для понимания ситуации. Заменив этот подход на **State-based Function Call (SFC)**, мы добиваемся состояния системы, позволяя ему делать прямые переходы в соответствии с целевыми условиями. ## Результаты Исследование включало системные эксперименты с использованием **VehicleWorld**, где были оценены различные сценарии. Данные о входе и выходе, полученные при работе с **SFC**, показали значительное улучшение эффективности и точности в сравнении с **FC**. Особое внимание было уделено анализу реального времени, где **SFC** демонстрировал значительное сокращение времени ответа и улучшение устойчивости. ## Значимость Результаты исследования могут быть применены в различных областях, включая интеллектуальные системы для автомобилей, системы безопасности, автоматизацию производственных процессов. Наибольший потенциал SFC имеет в области управления автомобилями в реальном времени, где необходимо сохранять состояние и выполнять прямые переходы в зависимости от целей. Этот подход предлагает значительные преимущества в скорости выполнения, точности и устойчивости, что делает его привлекательным для реализации в сложных системах. ## Выводы Разработанная среда **VehicleWorld** и метод **SFC** достигли значительных улучшений в выполнении задач управления автомобилями. Эти результаты открывают новые возможност

Annotation:

Intelligent vehicle cockpits present unique challenges for API Agents, requiring coordination across tightly-coupled subsystems that exceed typical task environments' complexity. Traditional Function Calling (FC) approaches operate statelessly, requiring multiple exploratory calls to build environmental awareness before execution, leading to inefficiency and limited error recovery. We introduce VehicleWorld, the first comprehensive environment for the automotive domain, featuring 30 modules, 250...

ID: 2509.06736v1 cs.AI, cs.CL, cs.RO

arXiv PDF

📄 RAFFLES: Reasoning-based Attribution of Faults for LLM Systems

2025-09-10

Авторы:

Chenyang Zhu, Spencer Hong, Jingyu Wu, Kushal Chawla, Charlotte Tang, Youbing Yin, Nathan Wolfe, Erin Babinsky, Daben Liu

## Контекст На данный момент существуют серьезные сложности с выявлением неполадок в долгосрочных, многокомпонентных системах, основанных на глубоком обучении (LLM). Традиционные методы оценки, такие как LLM-as-a-judge, ограничиваются индивидуальными метриками или конечными результатами, не учитывая сложную логику, проходящую через систему на протяжении длительного периода. Это ограничение подрывает возможности эффективной диагностики и улучшения таких систем. В статье предлагается RAFFLES - инновационная архитектура для оценки, которая включает в себя логическое рассуждение и итеративную оптимизацию для точного выявления и устранения неполадок. ## Метод RAFFLES представляет собой итеративный подход с центральной системой Judge, которая проводит рассуждение для выявления неполадок, и набором специализированных Evaluators, которые оценивают как компоненты системы, так и качество рассуждений Judge. Циклы проверки и рефинемент позволяют формировать историю гипотез, улучшая точность диагностики. Метод тестировался на Who&When dataset, датасет, ориентированный на выявление проблемы "кто" (агент) и "когда" (этап) в системе. ## Результаты RAFFLES показал выдающиеся результаты в сравнении с текущими методами. Он достиг точности в 43% при определении агента и этапа сбоя на датасете Algorithmically-Generated, что значительно превосходит предыдущий рекорд (16.6%). На Hand-Crafted dataset точность достигла 20%, превосходя предыдущий результат (8.8%). Эти результаты указывают на перспективу автоматизированного выявления неполадок в LLM-системах, снижая необходимость массовых ручных процедур. ## Значимость Разработанная архитектура имеет широкие возможности применения в области автоматизированного мониторинга и устранения неполадок в сложных LLM-системах. Особенно важно ее применение в отраслях, где сбои могут привести к критичным последствиям. RAFFLES не только улучшает точность оценки, но и снижает временные затраты, предлагая более эффективные средства для управления и улучшению систем. ## Выводы Результаты тестирования RAFFLES показывают перспективу внедрения модели для автоматизированного выявления и устранения неполадок в долгосрочных многокомпонентных LLM-системах. Будущие исследования будут сфокусированы на расширении модели для более сложных систем и улучшении точности рассуждений Judge.

Annotation:

We have reached a critical roadblock in the development and enhancement of long-horizon, multi-component LLM agentic systems: it is incredibly tricky to identify where these systems break down and why. Evaluation capabilities that currently exist today (e.g., single pass LLM-as-a-judge) are limited in that they often focus on individual metrics or capabilities, end-to-end outcomes, and are narrowly grounded on the preferences of humans. We argue that to match the agentic capabilities, evaluation...

ID: 2509.06822v1 cs.AI, cs.CL

arXiv PDF

📄 Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

2025-09-10

Авторы:

James Xu Zhao, Bryan Hooi, See-Kiong Ng

#### Контекст Проблема эффективности интерпретации моделей глубокого обучения возникает в рамках развития знаний-интенсивных задач, где точность и отсутствие халлюцинаций (недостоверных ответов) являются критичными. Тест-тайм скалирование (test-time scaling, TTS) позволяет моделям увеличивать вычисления во время инференции, генерируя длинные цепи рассуждений. Несмотря на успех этого подхода в многих областях, в настоящем исследовании мы рассматриваем его неэффективность в знаний-интенсивных задачах. #### Метод Мы проводим оценку TTS на 12 моделях логического рассуждения в двух бенчмарках, характерных для знаний-интенсивных задач. Используемые модели включают модели с различными архитектурами, подходами и способами увеличения вычислительной сложности во время инференции. Мы измеряем точность результатов, частоту халлюцинаций, а также проводим анализ поведения моделей в зависимости от расширенных рассуждений. #### Результаты Наши эксперименты показывают, что TTS не способен постоянно улучшать точность в знаний-интенсивных задачах. В некоторых случаях он даже приводит к увеличению частоты халлюцинаций. Мы обнаружили, что модели часто воздерживаются от ответов при длинных рассуждениях, что приводит к снижению частоты халлюцинаций. Тем не менее, длительное рассуждение может побуждать модели попытаться ответить на вопросы, на которые они ранее отказались отвечать, что приводит к новым халлюцинациям. Были проведены случайные исследования, показавшие, что TTS может вдохновить модели на подтверждение неверных халлюцинаций, что усиливает конфирмационные биазы. #### Значимость Результаты имеют практическое значение для аспирантов, работающих с моделями знаний-интенсивных задач, такими как системы ответа на вопросы, генерация текста и решение задач логического рассуждения. Наше исследование показывает, что TTS может не являться приоритетным подходом для этих задач, несмотря на его полезность в других сферах. Мы также отмечаем, что хотя TTS может повысить точность в некоторых случаях, оно не может быть рассматривано как широко применимый инструмент для улучшения задач знаний-интенсивных. #### Выводы Наши результаты подтверждают, что TTS не является эффективным для знаний-интенсивных задач, несмотря на его успех в других областях. Мы призываем к углубленному исследованию эффективных методов улучшения точности и уменьшения халлюцинаций в знаний-интенсивных моделях. Наша работа открывает путь к будущим исследованиям в области разработки моделей, которые могут более точно и надежно работать в знани

Annotation:

Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-...

ID: 2509.06861v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

2025-09-10

Авторы:

Jiacheng Miao, Joe R. Davis, Jonathan K. Pritchard, James Zou

## Контекст Решение проблем с доступностью и реализацией научных работ приобретает важность в свет увеличения количества исследований и сложности их понимания. Даже существующие инструменты, такие как GitHub или Papers with Code, часто не полностью устраняют барьеры для использования и доверия к научным работам. Они не обеспечивают интерактивности, автоматизации и широкого доступа. Paper2Agent предлагает решение, превращая статические научные работы в динамические, интерактивные AI-агенты. Это позволяет увеличить доступность, точность и удобство применения научных работ, обеспечивая новую модель интеллектуального взаимодействия. ## Метод Процесс преобразования научной работы в AI-агент основывается на автоматическом извлечении и анализе кода, данных и методов из текста работы. Используется архитектура Model Context Protocol (MCP), состоящая из нескольких агентов, которые создают протокол для широкого применения. Этот протокол включает в себя тестирование и выявление ошибок, чтобы обеспечить надежность результатов. Paper2Agent использует систему Claude Code для взаимодействия с пользователем через естественный язык, при этом активируя инструменты и рабочие процессы, описанные в исследовании. Для валидации результатов используются случаи, применимые к реальной научной практике. ## Результаты Применение Paper2Agent продемонстрировало мощь этой системы в создании надежных агентов на основе научных работ. К примеру, агент, основанный на AlphaGenome, может интерпретировать геномные варианты, тогда как агенты, основанные на ScanPy и TISSUE, выполняют анализы сингулярного момента и пространственных транскриптомеров. Эти агенты способны воспроизводить результаты из оригинальных работ и отвечать на сложные запросы пользователей. Это демонстрирует высокую точность и кросс-сценарное применение технологии. ## Значимость Paper2Agent может применяться в различных научных областях, включая геномику, биоинформатику и транскриптометрию. Он обеспечивает расширение возможностей для участников научных работ, включая исследователей, специалистов по данным и разработчиков. Данная технология ускоряет создание, использование и распространение научных знаний, повышая точность, доступность и удобство. Будущие работы могут сосредоточиться на расширении функционала, включая поддержку новых научных областей и улучшение интерактивности. ## Выводы Paper2Agent представляет собой перспективный подход к преобразованию научных работ в интерактивные AI-агенты, обеспечивая новый уровень коммуникации и использования научных знаний. Этот подход может быть расширен для автоматизации и улучшения процессов в научной практике. Будущие исследования будут сф

Annotation:

We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting ...

ID: 2509.06917v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 An Ethically Grounded LLM-Based Approach to Insider Threat Synthesis and Detection

2025-09-10

Авторы:

Haywood Gelman, John D. Hastings, David Kenley

#### Контекст Обнаружение инсайдерских угроз является важной проблемой для организаций, так как эти угрозы часто основываются на технических и поведенческих элементах, которые сложно выявить. Достаточно большой объем исследовательских работ посвящен данной проблеме с учетом технических, психологических и образовательных аспектов. Однако многие из этих исследований ограничены данными, доступными только для частичного использования, что приводит к затруднениям в развитии моделей, способных адаптироваться к изменениям. Данное исследование предлагает новую, этически обоснованную модель, основанную на большом языковом модели (LLM) Claude Sonnet 3.7. Эта модель динамически синтезирует системные журналы (syslog), включающие индикаторы инсайдерских угроз. Эти журналы имитируют реальные распределения данных, при этом внутри них инсайдерские угрозы представлены в небольшом проценте (1%). #### Метод Методология исследования основывается на технологии Claude Sonnet 3.7, которая применяется для синтеза системных журналов с индикаторами инсайдерских угроз. Для синтеза используются данные, оптимизированные для низкой частоты встречаемости угроз (1%). Эти синтетические данные позволяют создавать модели, тестируемые в условиях реальности. Для оценки эффективности сравнивались две модели: Claude Sonnet 3.7 и GPT-4o. Оба системы проанализировали синтетические системные журналы с инсайдерскими угрозами, а результаты были оценены с помощью метрик, таких как прецизион (precision), реколл (recall), MCC (Matthews Correlation Coefficient) и ROC AUC (Receiver Operating Characteristic Area Under Curve). #### Результаты Эксперименты показали, что Claude Sonnet 3.7 примерно в 2 раза превосходит GPT-4o по метрикам, таким как precision и MCC. Это связано с более точным выявлением угроз и меньшим количеством ложных срабатываний (false alarms). GPT-4o, в свою очередь, показала лучший recall, но была менее точной в определении положительных случаев. Логаритмический график ROC показал, что Sonnet 3.7 обеспечивает более высокую точность в обнаружении угроз, особенно при небольшом количестве положительных данных. #### Значимость Эти результаты открывают новые возможности для использования глубоких языковых моделей в создании синтетических данных и обнаружении инсайдерских угроз. Это может быть применено в различных сферах, где необходимо мониторинг безопасности и выявление подозрительных действий. Кроме того, решение имеет потенциал для улучшения обнаружения злоумышленников внутри организации, уменьшения ложных срабатываний и повышения достоверности моделей. #### Выводы Результаты экспериментов показывают, что Claude Sonnet 3.7 является эффектив

Annotation:

Insider threats are a growing organizational problem due to the complexity of identifying their technical and behavioral elements. A large research body is dedicated to the study of insider threats from technological, psychological, and educational perspectives. However, research in this domain has been generally dependent on datasets that are static and limited access which restricts the development of adaptive detection models. This study introduces a novel, ethically grounded approach that us...

ID: 2509.06920v1 cs.CR, cs.AI, cs.CL, cs.CY, C.2.0; I.2.7; K.4.1; H.3.3

arXiv PDF

1
2
100
101
102
103
104
131
132

Показано 1011 - 1020 из 1316 записей