📚 Саммари научных статей из arXiv

Найдено 7549 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas

2025-08-13

Авторы:

Junchen Ding, Penghao Jiang, Zihao Xu, Ziqi Ding, Yichen Zhu, Jiaojiao Jiang, Yuekang Li

## Контекст В последние годы значительное внимание уделяется исследованию возможностей и функциональных характеристик Бо LLM (большие языковые модели), включая их участие в принятии этически важных решений. Эти модели применяются в различных сферах, включая право, медицину и социальную сферу. Однако их возможности в моральном рассуждении и понимании значения человеческих ценностей до сих пор недостаточно изучены. Наличие моральных базисов в Бо LLM является важной задачей для того, чтобы обеспечить их безопасное и эффективное использование в решении проблем, возникающих в сложных ситуациях. Это исследование поднимает вопрос о том, насколько модели эффективно применяют моральные принципы в своих решениях, и как они могут строить свои ответы в зависимости от культурных и этических контекстов. ## Метод Для эту статью была проведена комплексная эмпирическая оценка 14 лидирующих моделей Бо LLM, включая модели с признаками морального рассуждения и общего назначения. Эти модели были протестированы на 27 ситуациях, основанных на такой моральной проблемой, как "trolley problem", которые были формально поставлены в рамках 10 различных моральных философий, включая утилитаризм, деонтологию и альтруизм. Использовалась факторическая техника подсказки (prompting), чтобы вызвать 3780 бинарных решений, а также естественные языковые обоснования. Это стало возможным благодаря анализу решений по составленным этим моделям, включая уровень решательности, консистентность объяснений, соответствие общественному моральному стандарту и чувствительность к этически незначимым признакам. ## Результаты Результаты экспериментов показали значительную разницу в поведении моделей в зависимости от моральных фрэймворков и типов моделей. Заметились высокие степени решательности и структурированности в моделях с признаками морального рассуждения по сравнению с общей целевой моделью. Однако эти модели не всегда согласовывались с человеческим согласием в своих решениях. Были выявлены "sweet zones" в моральных фрэймворках, таких как альтруизм, справедливость и виртуозность, где модели показали сбалансированное решение с высоким уровнем вмешательства, низким конфликтом в объяснениях и минимальным отклонением от среднего человеческого суждения. Однако модели различались в своих решениях, когда речь шла о фрэймворках, таких как кровные связи, законность или индивидуальное интересование, что привело к этически спорным результатам. ## Значимость Эти полученные результаты имеют важное значение для сфер, где Бо LLM применяются в решениях этичес

Annotation:

As large language models (LLMs) increasingly mediate ethically sensitive decisions, understanding their moral reasoning processes becomes imperative. This study presents a comprehensive empirical evaluation of 14 leading LLMs, both reasoning enabled and general purpose, across 27 diverse trolley problem scenarios, framed by ten moral philosophies, including utilitarianism, deontology, and altruism. Using a factorial prompting protocol, we elicited 3,780 binary decisions and natural language just...

ID: 2508.07284v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning

2025-08-13

Авторы:

Yi Tang, Kaini Wang, Yang Chen, Guangquan Zhou

## Контекст Исследование развития искусственного интеллекта (AI) для поддержки диагностики на основе эндоскопических изображений является важной областью поиска. Существующие методы, основанные на больших наборах данных и предварительной обучении, часто страдают от отсутствия унифицированного подхода к решению различных задач и сложности с многошаговыми процессами в клинических работах. Хотя AI-агенты доказали свою эффективность в адаптивном исполнении инструкций и интеграции инструментов в различных областях, их потенциал в области эндоскопии остается недостаточно исследованным. Целью данной работы является разработка EndoAgent — первого AI-агента, основанного на памяти, для визуально-решающего анализа эндоскопических изображений, который комбинирует итеративное разумение с адаптивным выбором инструментов и сотрудничеством. ## Метод EndoAgent основывается на двухкомпонентной системе памяти: краткосрочной, для отслеживания действий, и долгосрочной, для улучшения рассуждений в процессе. Агент интегрирует множество специализированных инструментов, разработанных экспертами, в единую логическую структуру. Методология решения задач включает интерактивное взаимодействие с изображениями, адаптивные выборки инструментов и итеративную коррекцию решений. Для эффективного обучения и оценки производительности разработан EndoAgentBench — бенчмарк, содержащий 5709 визуальных вопросов-ответов, оценивающих уровень понимания и построение решений в реальных ситуациях. ## Результаты Экспериментальные исследования показали, что EndoAgent превосходит общие и медицинские многомодальные модели, демонстрируя высокую гибкость и компетентность в рассуждениях. Он показал себя эффективнее в задачах, требующих многошагового анализа и управления инструментами. Это доказывает значительный потенциал EndoAgentа в применении к клиническим задачам, где требуется глубокий анализ информации и быстрая адаптивность. ## Значимость EndoAgent может быть применен в различных областях медицины, где требуется визуальный анализ и принятие решений, таких как диагностика, планирование хирургических операций и улучшение операционных процессов. Визуально-решающий подход с учетом памяти и интеграции инструментов делает EndoAgent очень гибким и эффективным в различных рабочих процессах. Благодаря своему уникальному подходу, EndoAgent может существенно улучшить точность диагностики и эффективность работы в сложных клинических ситуациях. ## Выводы EndoAgent представляет собой прорыв в области визуально-решающих AI-систем для эндоскопической диагностики. Он дока

Annotation:

Developing general artificial intelligence (AI) systems to support endoscopic image diagnosis is an emerging research priority. Existing methods based on large-scale pretraining often lack unified coordination across tasks and struggle to handle the multi-step processes required in complex clinical workflows. While AI agents have shown promise in flexible instruction parsing and tool integration across domains, their potential in endoscopy remains underexplored. To address this gap, we propose E...

ID: 2508.07292v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

2025-08-13

Авторы:

Cristian Cosentino, Annamaria Defilippo, Marco Dossena, Christopher Irwin, Sara Joubbi, Pietro Liò

#### Контекст В области искусственного интеллекта, специально развитые датасеты, посвященные медицинской Question-Answering (Q&A), играют ключевую роль в измерении и улучшении моделей ло LLM (Large Language Models). Одной из сложностей в этой области является возникновение задач, требующих многоэтапного интерпретационного моделирования, что требует высокой точности и надежности моделей. Наличие таких датасетов позволяет оценивать модели не только с точки зрения точности ответов, но и с точки зрения того, насколько интерпретируема и логично обоснована их работа. Проблема в том, что существующие датасеты часто не покрывают все аспекты клинического решательства, что делает их менее эффективными для тренировки моделей, предназначенных для работы в высокорисковых сферах, таких как медицина. #### Метод HealthBranches — это инновационный датасет, строительство которого основывается на методологии, основанной на клинических путях решения. Он создается через семиавтоматизированный процесс, который преобразует решательные пути, извлеченные из научных и клинических источников, в реалистичные сценарии, основанные на случаях пациентов. Этот процесс включает в себя выделение ключевых факторов, соединение их в логические цепи, а также формирование вопросов и ответов, которые точно отражают клинические ситуации. Датасет состоит из 4063 случаев из 17 различных медицинских областей, таких как кардиология, дерматология и оториноларингология. На каждый случай прикреплен решательный путь, который позволяет оценивать не только верность ответов, но и логику их построения. Эта структурированная архитектура датасета позволяет проводить многоэтапный анализ моделей ЛЛМ, включая их способность к многошаговой инференции и работе в контекстах Retrieval-Augmented Generation (RAG). #### Результаты В ходе экспериментов HealthBranches было протестировано на различных моделях ЛЛМ, включая модели с открытым исходным кодом и коммерческие модели со значительным числом параметров. Было проведено ряд экспериментов, включая задачи открытого ответа, множественного выбора и структурированного Retrieval-Augmented Generation. Результаты показали, что HealthBranches достигает высокой степени сложности, требуя от моделей не только верного ответа, но и подтверждения логики рассуждений. Особое внимание было уделено оценке точности интерпретации ответов, а также возможности моделей работать с цепочками клинического решательства. Это дало возможность провести сравнительный анализ, показав, что HealthBranches делает модели более интерпретируемыми и надежными в клиническом контексте. #### Значимость HealthBranches представляет собой революционный подход к созданию датасетов для

Annotation:

HealthBranches is a novel benchmark dataset for medical Question-Answering (Q&A), specifically designed to evaluate complex reasoning in Large Language Models (LLMs). This dataset is generated through a semi-automated pipeline that transforms explicit decision pathways from medical source into realistic patient cases with associated questions and answers. Covering 4,063 case studies across 17 healthcare topics, each data point is based on clinically validated reasoning chains. HealthBranches sup...

ID: 2508.07308v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

2025-08-13

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи. ## Метод FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования. ## Результаты Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз. ## Значимость FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области. ## Выводы FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

2025-08-13

Авторы:

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh

## Контекст Актуальность исследования связана с быстрым развитием систем на основе Больших Лингвистических Моделей (LLM), которые применяются для обеспечения систем роботов-техпомощников. Одной из основных проблем в этой области является недостаточная оценка устойчивости таких систем к внесению обобщенных изменений в фактические вопросы. Эти изменения, называемые "обфускацией", могут состоять в искажении именованных сущностей, добавлении развлекательных материалов или смыслового перегружения. Без тестирования таких изменений невозможно оценить надежность и точность LLMs в работе с вопросами и ответами. Исследование посвящено выявлению этих проблем и разработке системы для их систематического исследования. ## Метод Методология исследования основывается на разработке многоуровневой системы обфускации, которая включает три различных типа изменений в вопросах. **Named-Entity Indirection** состоит в замене именованных сущностей (например, ФИО, местами происшествий) на их формальные представления (например, "Субъект 1"). **Distractor Indirection** включает в себя вывод отвлеченных ответных вариантов, которые не соответствуют фактическим данным. **Contextual Overload** предполагает добавление лишней информации, которая может сбить с толку модель. Таким образом, ObfusQAte представляет собой новую методологию для тестирования LLM на систематические искажения вопросов в ходе имитации реальных условий работы. ## Результаты В ходе экспериментов, проведенных с использованием широкого круга данных, было изучено поведение LLMs в ответ на обфусцированные вопросы. Основной показатель — это уменьшение точности ответов, возрастающее в небольших шагах при наличии обфускации. Модели не только предоставляют неточные ответы, но и вводят ложноположительные варианты. Эти результаты были получены при оценке моделей на объеме данных, представляющем собой широкую спектр текстов, включая новостные материалы, энциклопедические статьи и справочные данные. ## Значимость Результаты имеют важное значение для развития роботов-техпомощников, так как позволяют оценить устойчивость LLM к ошибкам при обобщенных вопросах. Обфускация позволяет выявить ошибки в моделях, мотивируя разработку методов улучшения их надежности. Эта работа может быть применена в сферах, где точность ответов критична, например, в медицине, юриспруденции и финансовых системах. Она также открывает пути для развития новых моделей устойчивых к таким изменениям. ## Выводы Разработанная ObfusQAte-фреймворк предоставляет многоуровневый подход для оценки устойчивости LLM к обфускации вопросов. Основные достижения включаю

Annotation:

The rapid proliferation of Large Language Models (LLMs) has significantly contributed to the development of equitable AI systems capable of factual question-answering (QA). However, no known study tests the LLMs' robustness when presented with obfuscated versions of questions. To systematically evaluate these limitations, we propose a novel technique, ObfusQAte and, leveraging the same, introduce ObfusQA, a comprehensive, first of its kind, framework with multi-tiered obfuscation levels designed...

ID: 2508.07321v1 cs.CL, cs.AI, cs.LG, I.2.7

arXiv PDF

📄 Strategies of Code-switching in Human-Machine Dialogs

2025-08-13

Авторы:

Dean Geckt, Melinda Fricke, Shuly Wintner

## Контекст Цель исследования заключается в изучении стратегий кодообмена в интерактивных диалогах между людьми и машинами. Ученые изучают характеристики кодообмена, который широко распространен среди многоязычных людей, но еще не полностью понятен в своих языковых и дискурсивных аспектах. Особое внимание уделяется возможности использования многоязычных технологий для исследования билингвального языкового взаимодействия. Более того, в ходе исследования исследуются возможности создания машинных систем, которые могут эффективно взаимодействовать с человеком на нескольких языках и понимать кодообмен. ## Метод Исследование основывается на разработке и тестировании бота, который умеет выполнять Map Task с человеком, используя кодообмен между испанским и английским языками. Бот программирован для продемонстрировать различные стратегии кодообмена, включая грамматически корректные стратегии и некоторые нестандартные, такие как неожиданные или нелогичные комбинации слов. Эксперименты проводились с участием человеков, которые общались с ботом в чате. Для этих экспериментов выбраны участники с уровнем понимания как английского, так и испанского. Результаты сравнивались с различными стратегиями кодообмена, чтобы определить, как поведение бота влияет на удовольствие участников и их успех в выполнении задачи. ## Результаты Эксперимент показал, что участники, в целом, получили удовольствие от кодообмена с ботом, при условии, что кодообмен был предсказуемым и грамматически корректным. Однако если бот генерировал нелогичные или неожиданные комбинации (например, выражение `la fork` вместо `the fork`), участники испытывали больше стресса и сталкивались с большей сложностью в достижении целей задачи. Эта информация может быть использована для создания более эффективных многоязычных машинных систем, которые будут учитывать потребности пользователей и предотвращать негативные эффекты, вызванные некорректным кодообменом. ## Значимость Исследование имеет практическое значение для создания новых многоязычных систем общения, которые могут быть применены в различных областях, включая обучение языкам, сервисы поддержки и оперативное взаимодействие с клиентами. Это также показывает, что кодообмен может играть важную роль в том, как люди взаимодействуют с машинами, и что правильный кодообмен может улучшить качество таких взаимодействий. Таким образом, это работа может способствовать развитию технологий, которые будут более внимательны к нуждам многоязычных пользователей. ## Выводы В результате исследования выявлены

Annotation:

Most people are multilingual, and most multilinguals code-switch, yet the characteristics of code-switched language are not fully understood. We developed a chatbot capable of completing a Map Task with human participants using code-switched Spanish and English. In two experiments, we prompted the bot to code-switch according to different strategies, examining (1) the feasibility of such experiments for investigating bilingual language use, and (2) whether participants would be sensitive to vari...

ID: 2508.07325v1 cs.CL, cs.AI

arXiv PDF

📄 Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

2025-08-13

Авторы:

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

## Контекст Обучение и оценка доменно-специальных бо LLM (Large Language Models) являются ключевыми аспектами их применения в специализированных областях. Несмотря на то что многочисленные бенчмарки были разработаны для оценки этих моделей, существуют проблемы с эффективностью и эффективностью их построения. Большинство существующих бенчмарков фокусируются на масштабировании за счет огромных корпусов для подготовки или порождения обширных наборов вопросов для широкого покрытия. Однако не достаточно изучено влияние корпуса и набора вопросов-ответов (QA) на точность и полноту доменных LLMs. Мотивация для данного исследования заключается в изучении этих зависимостей и разработке более эффективного подхода к построению бенчмарков для доменных LLMs. ## Метод Мы предлагаем Comp-Comp, новый фреймворк для построения бенчмарков, основанный на принципе сочетания полноты (comprehensiveness) и сжатости (compactness). Метод Comp-Comp работает в итеративном режиме, где полнота гарантирует комплексность семантического покрытия домена, а сжатость улучшает точность модели. Этот подход применяется как для построения корпуса, так и для создания набора вопросов и ответов. Мы используем методы семантической обработки текста, адаптированные для этих задач, которые позволяют эффективно отбирать и оценивать материалы на каждом этапе построения бенчмарка. ## Результаты Мы провели эксперименты с XUBench, бенчмарком, созданным на основе Comp-Comp, используя домен академический. Эксперименты показали, что наш подход значительно улучшает точность и полноту доменных моделей LLMs по сравнению с традиционными методами. Мы также провели сравнение с другими бенчмарками, установив, что XUBench предоставляет более качественную оценку моделей, обеспечивая более точные результаты. Бенчмарк XUBench также продемонстрировал широкую эффективность в оценке моделей на различных доменах, не ограничиваясь только академическим. ## Значимость Наша работа доказывает, что при построении бенчмарков для доменных LLMs не всегда эффективно следовать закону масштабирования. Метод Comp-Comp обеспечивает более компактный и эффективный подход, позволяющий повысить точность и полноту оценки моделей. Этот подход может быть распространен на различные сферы применения, включая медицину, юриспруденцию, и другие, помимо академии. Мы видим будущие направления исследований в расширении Comp-Comp для решения задач в новых областях и улучшении его адаптации к различным доменам. ## Выводы Мы представили Comp-Comp, новый фреймворк для построения бенчмарков, который призван обеспечить более эффективную и точную оценку доменных LLMs. Мы продемонстрировали эффективность этого подхода на XUBench в до

Annotation:

Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexp...

ID: 2508.07353v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Generative AI for Strategic Plan Development

2025-08-13

Авторы:

Jesse Ponnock

## Контекст Генерируемое искусственное интеллектуальное обеспечение (Generative Artificial Intelligence, GAI) получило огромное распространение в сфере технических и профессиональных услуг, где Аппаратное Интеллектуальное Обеспечение (AI) ранее считалось невозможным для автоматизации. Это новаторский подход обеспечивает значительные повышения эффективности и уменьшение расходов в многомерной сфере, в том числе в разработке стратегических планов для крупных организаций. Однако существуют вызовы в технической реализации и эффективном использовании GAI в таких контекстах. Большая часть работы, основывающихся на генерируемом искусственном интеллекте, остается недокументированной или закрытой, что ограничивает комплексное понимание способности GAI в разработке стратегических планов. Данная статья проводит оценку текущих возможностей и модели, а также определяет возможности использования таких моделей в процессе разработки стратегических планов. ## Метод Для разработки стратегических планов в крупных организациях, таких как правительственные органы, предлагается модульная модель, позволяющая использовать GAI. Одна из модулей, концентрирующаяся на тематическом моделировании (topic modeling) для генерирования тем, представляющих "видения" в рамках стратегического плана, была выбрана для подробного анализа. Для этого были применены методы BERTopic и Non-negative Matrix Factorization (NMF) к большому объему отчетов, предоставленных Government Accountability Office (GAO). Использование этих методов позволило генерировать темы, которые позже были сравнены с "видениями", изложенными в стратегических планах. Экспериментальная часть включала обучение моделей, оценку полученных результатов и сравнение их с исходными данными. ## Результаты Было определено, что оба исследованные методы — BERTopic и NMF — способны генерировать темы, представляющие собой подходящие "видения" в рамках стратегического плана. Однако BERTopic показал более высокую эффективность, с корреляцией более чем половины тем с "видениями", определенными в стратегических планах. Это означает, что BERTopic может лучше адаптироваться для генерирования тем, отражающих стратегические цели и подходы. Эти результаты подтверждают, что генерируемое искусственное интеллектуальное обеспечение может быть эффективно использовано в процессе разработки стратегических планов. ## Значимость Результаты этого исследования имеют практическое значение для многомильных-долларовой отрасли стратегического планирования и поддержки правительственных органов. Этот подход может существенно снизить затраты, уменьшить время, необходимое для разработки планов, и обеспечить

Annotation:

Given recent breakthroughs in Generative Artificial Intelligence (GAI) and Large Language Models (LLMs), more and more professional services are being augmented through Artificial Intelligence (AI), which once seemed impossible to automate. This paper presents a modular model for leveraging GAI in developing strategic plans for large scale government organizations and evaluates leading machine learning techniques in their application towards one of the identified modules. Specifically, the perfo...

ID: 2508.07405v1 cs.AI, cs.CL, cs.LG, I.2.7; I.5.4

arXiv PDF

📄 A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

2025-08-13

Авторы:

Jinyuan Fang, Yanwen Peng, Xi Zhang, Yingxu Wang, Xinhao Yi, Guibin Zhang, Yi Xu, Bin Wu, Siwei Liu, Zihao Li, Zhaochun Ren, Nikos Aletras, Xi Wang, Han Zhou, Zaiqiao Meng

## Контекст Недавние успехи в области больших языковых моделей дали новый под Boosting к развитию систем автоматизации решения сложных реальных задач. Однако, многие агентные системы, применяемые в реальных условиях, опираются на ручно сконфигурированные настройки, которые после запуска не изменяются и не адаптируются к постоянно меняющимся обстановке. Для решения этой проблемы в последнее время развиваются подходы к эволюции агентов, нацеленные на автоматическое улучшение систем агентов на основе данных, полученных в процессе взаимодействия и отзывов среды. Этот направление развития становится фундаментом для создания само-эволюционирующих AI-агентов, которые объединяют статические возможности фундаментальных моделей с необходимостью постоянной адаптации в жизненных агентных системах. Настоящая статья посвящена подробному обзору технологий само-эволюционирования агентов, изложенных в рамках концептуального рам frameset. ## Метод Основной методологией работы является разработка концептуального фреймворка, описывающего общую логику само-эволюционирующих AI-систем. Этот фреймворк включает в себя четыре ключевых компонента: System Inputs (входные данные), Agent System (система агента), Environment (среда), и Optimisers (оптимизаторы). Эти компоненты обеспечивают структуру для категоризации и сравнения различных само-эволюционирующих стратегий. Далее, в рамках этого фреймворка проводится систематический обзор технологий само-эволюционирования, которые ориентированы на различные компоненты системы агента. Также включены специализированные адаптационные подходы, разработанные для сфер, таких как биомедицина, программирование и финансы, где оптимизационные цели тесно связаны с ограничениями домена. Наконец, рассматриваются вопросы оценки, безопасности и этических аспектов само-эволюционирующих систем, которые являются критически важными для их эффективности и надежности. ## Результаты В рамках реализации данного подхода проводились множество экспериментов, использующих различные сложные задачи, включая биомедицинские задачи, задачи программирования и финансовые моделирования. Использовались различные данные, такие как данные из реальных агентных систем, а также синтетические данные для моделирования разных сценариев. Основные результаты включают успешную адаптацию систем к динамическим изменениям в среде, повышение точности решений, а также улучшение эффективности в процессе эволюции. Эксперименты показали, что само-эволюционирующие системы могут значительно улучшить модели агентов, обеспечивая их долгосро

Annotation:

Recent advances in large language models have sparked growing interest in AI agents capable of solving complex, real-world tasks. However, most existing agent systems rely on manually crafted configurations that remain static after deployment, limiting their ability to adapt to dynamic and evolving environments. To this end, recent research has explored agent evolution techniques that aim to automatically enhance agent systems based on interaction data and environmental feedback. This emerging d...

ID: 2508.07407v1 cs.AI, cs.CL, cs.MA

arXiv PDF

📄 CP-Agent: Agentic Constraint Programming

2025-08-13

Авторы:

Stefan Szeider

## Контекст Constraint Programming (CP) является мощным подходом к решению разнообразных задач, особенно тех, которые могут быть представлены в виде ограничений. Однако главной проблемой этого подхода является трудность перевода проблем, описанных на человеческом языке, в обобщенные модели ограничений. Эта задача требует глубоких знаний в области задачи и навыков моделирования в CP. На сегодняшний день существуют стандартные рабочие процессы для автоматизации этой задачи, однако они часто ограничиваются фиксированными пайплайнами и не могут успешно решить многие реальные задачи. Наша мотивация заключается в разработке нового подхода, который бы старался решить проблему с использованием гибкого, agent-based подхода без использования фиксированного pipeline. ## Метод Мы предлагаем **CP-Agent**, который основывается на принципе **ReAct (Reason and Act)**. Этот pure agent-based подход не требует фиксированной модели для решения задач. Основным инструментом является общего назначения Python-based кодинговый agent, работающий в сочетании с **IPython kernel**, что обеспечивает stateful code execution и iterative development. Агент не встраивает никакого constraint programming logic в свою структуру. Вместо этого он получает достаточное количество domain-specific knowledge через специально сконструированное project prompt. Этот prompt включает в себя все необходимые модели, формат и ограничения, которые требуются для решения задачи. Агент также имеет доступ к файловой системе, а также способен выполнять код, тестировать гипотезы и верифицировать решения. Такой подход позволяет ему быть гибким и адаптироваться к различным задачам без нужды в предварительном определении логики. ## Результаты Мы проверили наше решение на **CP-Bench**, который содержит 101 задач constraint programming. CP-Agent успешно решил все эти задачи, показывая высокую гибкость и эффективность. Мы также провели анализ качества решений и заметили, что агент не только смог решить задачи, но и адаптировался к различным форматам и ограничениям. Это доказывает, что данный подход эффективен и может быть применен в различных областях, где требуется моделирование ограничений. ## Значимость Предлагаемый подход имеет большое количество областей применения, включая сферы, где требуется автоматизация моделирования ограничений, такие как логистика, распределение ресурсов, проектирование и даже в области AI-based decision-making. В отличие от других методов, CP-Agent предлагает более гибкий и адаптивный подход, который не требует предварительного определения моделей или рабочих процессов. Это делает его применимым в ситуациях, где задачи могут быть разнообразными и нестандартными. ## Выводы Мы доказали, что constraint modeling может быть эффективно решено с помощью agentic подходов, которые не требуют фиксированных моде

Annotation:

Translating natural language problem descriptions into formal constraint models remains a fundamental challenge in constraint programming, requiring deep expertise in both the problem domain and modeling frameworks. Previous approaches to automating this translation have employed fixed workflows with predetermined modeling steps, failing on a significant number of benchmark problems. We present a new approach using a pure agentic strategy without any fixed pipeline. We developed a general-purpos...

ID: 2508.07468v1 cs.AI, cs.CL, cs.LG, cs.SE

arXiv PDF

1
2
715
716
717
718
719
754
755

Показано 7161 - 7170 из 7549 записей