📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Harper Reed, Michael Sugimura, Angelo Zangari

## Контекст Исследование авторов посвящено исследованию возможности повышения производительности искусственного интеллекта (ИИ) с использованием коллективных инструментов, подобных тем, которые используются людьми при решении задач. Традиционно ИИ-агенты выполняют задачи в ограниченной среде, не имея доступа к инструментам, которые могут улучшить процесс решения. Авторы рассматривают возможность предоставить агентам ИИ набор инструментов, позволяющих имитировать человеческое поведение в командных средах, таких как социальные сети и журналы. Эта инициатива направлена на изучение влияния таких инструментов на производительность ИИ-агентов и их способность решать сложные задачи. ## Метод Исследование основывается на использовании моделей Claude Code с поддержкой модели MCP (Multi-Context Processor) для доступа к коллектвистским инструментам. Эти инструменты включают системы социальных медиа и журналов, которые агенты могут использовать в рамках выполнения задач. Авторы рассматривают возможность независимого использования этих инструментов ИИ-агентами для улучшения производительности в 34 задачах по программированию на Python, входящих в набор Aider Polyglot. Результаты этих задач сравниваются с базовыми агентами, не имеющими доступа к таким инструментам. ## Результаты Исследование показало, что использование коллективных инструментов существенно улучшает производительность ИИ-агентов, особенно при решении самых сложных задач. Отдельные модели ИИ-агентов, такие как Sonnet 3.7 и Sonnet 4, применяли различные стратегии взаимодействия с коллективными инструментами, адаптируясь к степени сложности задачи. Например, Sonnet 3.7 использовал широкий спектр инструментов, в том числе артикуляционные методы, что улучшало решение задач. Sonnet 4, в свою очередь, применял более специфические методы, такие как навигация по журналам при работе с высокой степенью сложности. Также выяснилось, что ИИ-агенты предпочитают записывать информацию в журналы или социальные сети в 2-9 раз чаще, чем читать, что подтверждает важность структурированного изложения мыслей для повышения производительности. ## Значимость Результаты исследования показывают, что применение коллективных инструментов позволяет ИИ-агентам решать сложные задачи более эффективно, особенно когда требуется дополнительное усилие на процесс мышления. Такая подходность может быть применена в различных областях, где необходима помощь в выполнении сложных задач, таких как разработка программного обеспечения, анализ данных и другие технические задачи. Дальнейшие исследования могут быть направлены на создание более продвинутых инструменто
Annotation:
We investigate whether giving LLM agents the collaborative tools and autonomy that humans naturally use for problem solving can improve their performance. We equip Claude Code agents with MCP-based social media and journaling tools and allow them to use these tools as they see fit. Across 34 Aider Polyglot Python programming challenges, collaborative tools substantially improve performance on the hardest problems, delivering 15-40% lower cost, 12-27% fewer turns, and 12-38% faster completion tha...
ID: 2509.13547v1 cs.AI, cs.HC
Авторы:

Xinxu Zhou, Jiaqi Bai, Zhenqi Sun, Fanxiang Zeng, Yue Liu

#### Контекст В области естественного языкового процессинга (NLP), значительные успехи были достигнуты в задачах, таких как семантическое понимание текста, перевод и синтез речи. Однако задача Контролируемого Текстового Генерирования (Controlled Text Generation, CTG) все еще сталкивается с рядом проблем, в том числе с трудностью достичь точного управления в тексте. Эта сложность усиливается при применении в реальных сценариях, где необходимо учитывать затраты, масштабируемость, осуществление обучения на основе доменных знаний и достижение более точного контроля. Такие ограничения становятся ключевыми мотивациями для развития новых подходов, которые позволят значительно улучшить точность управления в тексте. #### Метод Предлагаемая модель AgentCTG основывается на подходе, использующем многоагентную коллаборацию, с полностью симулируемыми механизмами управления и регулирования. Она включает в себя два основных компонента: агента-генератора и агента-редактора. Агент-генератор стремится произвести оригинальный текст, который соответствует входным условиям, в то время как агент-редактор вносит дополнительные изменения, чтобы добиться точного соответствия текстовому контролю. Для более эффективного управления агентами вводится модуль автоматической подсказки (auto-prompt). Эта концепция позволяет направлять генерацию в нужном направлении, улучшая точность и контекстуальную адекватность. Архитектура AgentCTG базируется на структуре с несколькими слоями взаимодействия, чтобы обеспечить более эффективное взаимодействие между агентами. #### Результаты AgentCTG протестирована на нескольких популярных данных в области CTG, включая предложения с подробными условиями управления. Результаты показали, что модель демонстрирует значительное улучшение в точности контроля, выполняя лучше, чем предшествующие модели. Особое внимание уделено новой Character-Driven Rewriting задаче, где AgentCTG должна преобразовывать текст, соответствующий определенным характеристикам персонажа, при этом сохраняя доменные знания. Модель демонстрирует высокую точность в создании текста, который был успешно проверен как на целевых данных, так и в задачах, требующих дополнительного контекстуального понимания. #### Значимость Продемонстрированная модель AgentCTG имеет широкое применение в многочисленных областях, включая синтез речи, создание текста для навигационных систем, а также создание текста в онлайн-играх. Одним из основных преимуществ AgentCTG является ее масштабируемость и гибкость при многоагентной коллаборации, что позволяет ей удовлетворять разные потребности в контроле. Благодаря улу
Annotation:
Although significant progress has been made in many tasks within the field of Natural Language Processing (NLP), Controlled Text Generation (CTG) continues to face numerous challenges, particularly in achieving fine-grained conditional control over generation. Additionally, in real scenario and online applications, cost considerations, scalability, domain knowledge learning and more precise control are required, presenting more challenge for CTG. This paper introduces a novel and scalable framew...
ID: 2509.13677v1 cs.CL, cs.AI, cs.HC
Авторы:

Saki Hashimoto, Shoichi Hasegawa, Tomochika Ishikawa, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Tadahiro Taniguchi

## Контекст Успешное взаимодействие роботов с человеком в домашних и офисных пространствах требует понимания владения предметами, чтобы выполнять команды, такие как "Принесите мне свою чашку". Однако определение владельца предмета только на основе визуальных признаков оказывается недостаточно надежным. Для решения этой проблемы предлагается новый подход, который объединяет активное получение знаний и использование глубоких языковых моделей. Целью данного исследования является создание фреймворка, позволяющего роботам активно формировать и задавать вопросы, связанные с владением, для эффективного получения необходимой информации. ## Метод Разработанный фреймворк, названный Active Ownership Learning (ActOwL), объединяет две основные компоненты: генеративную модель для выбора наиболее подходящих вопросов и технологии больших языковых моделей для проверки коммуникативности этих вопросов. ActOwL начинает с классификации предметов как общих (не принадлежащих конкретному человеку) или владением конкретного пользователя. Затем, используя модель вероятностной генерации, выбираются вопросы, которые максимизируют информационный потенциал для определения владельца. Эта стратегия обеспечивает эффективное получение знаний об отношениях владения, уменьшая количество необходимых вопросов. ## Результаты Исследования проводились в симуляционной двухкомнатной квартире и на реальных экспериментальных установках. ActOwL показал значительное преимущество по времени и точности в сравнении с базовыми методами. Например, для определения владельца всех предметов в окружении робот требовалось меньше запросов, что демонстрирует эффективность и практическую значимость подхода. Особое внимание уделено тому, что ActOwL способен адаптироваться к различным средам и пользователям, увеличивая производительность и социальное приемлемость. ## Значимость Результаты ActOwL открывают пути для применения в различных сферах, включая удобные домашние ассистенты и системы управления офисными пространствами. Фреймворк позволяет роботам не только более точно выполнять задачи, но и создавать более естественные взаимоотношения с пользователями. Благодаря интеграции глубоких моделей и активного обучения, ActOwL показывает возможность решения социально значимых задач, связанных с пониманием владения и структурированием пространства. ## Выводы Данное исследование подтверждает эффективность стратегии активного запроса информации в сфере определения владения предметами. Оно показывает, что роботы, использующие ActOwL, могут быстрее и точнее получать необходимые знания.
Annotation:
Robots operating in domestic and office environments must understand object ownership to correctly execute instructions such as ``Bring me my cup.'' However, ownership cannot be reliably inferred from visual features alone. To address this gap, we propose Active Ownership Learning (ActOwL), a framework that enables robots to actively generate and ask ownership-related questions to users. ActOwL employs a probabilistic generative model to select questions that maximize information gain, thereby a...
ID: 2509.12754v1 cs.RO, cs.AI, cs.HC, cs.LG
Авторы:

Henrik Axelsen, Valdemar Licht, Jan Damsgaard

## Контекст Отрасль финансовых услуг сталкивается с ростом затрат и сложности в соблюдении финансовых правил (FCC), при этом не всегда достигается улучшение эффективности. Искусственный интеллект (AI) предлагает потенциал для решения этих проблем, но многие существующие решения остаются непрозрачными и не вполне соответствуют регуляторным требованиям. Недостаточная транспарентность и слабая адаптация к регуляторным ожиданиям мешают рациональному применению AI в области FCC. Данная работа фокусируется на разработке и развертывании agentic AI-системы для FCC в цифровых финансовых платформах, которая автоматизирует процессы регистрации, мониторинга, расследования и составления отчетов. ## Метод Разработка системы основывается на Action Design Research (ADR), взаимодействии с fintech-компанией и регуляторными органами. Методология включает использование artifact-centric modeling, который разграничивает роли автономных агентов и обеспечивает задаческое направление моделей, а также ведение журналов аудита. Это подход организует транспарентную и трассируемую структуру решений, позволяя гарантировать соответствие FCC-требованиям. Этакие шаги позволяют разрабатывать систему, которая не только автоматизирует процессы, но и обеспечивает уверенность в соблюдении законодательства в условиях высоких регуляторных стандартов. ## Результаты В результате исследования была разработана и развернута реальная система, которая продемонстрировала способность автоматизировать составляющие FCC-процессы, включая регистрацию клиентов, мониторинг активности, расследование подозрительных транзакций и составление отчетов. Данные для экспериментов были получены в реальных условиях работы с fintech-платформой. Результаты показали улучшение прозрачности и трассируемости процессов, что положительно сказалось на уровне доверия к решениям системы. Этот подход также позволил уменьшить время на выполнение задач и уменьшить риски ошибок. ## Значимость Полученная система может применяться во многих областях, где необходимо соблюдение строгих регуляторных требований, включая банковское дело, страхование и другие финансовые услуги. Основные преимущества заключаются в увеличении прозрачности, доверия и эффективности, что позволяет сократить затраты на соблюдение FCC и повысить уровень соблюдения закона. Данная работа может способствовать развитию литературы в области AI-enabled compliance, демонстрируя, как автоматизация может реконфигурировать FCC-процессы, при этом сохраняя ответственность и уверенность в решениях. ## Выводы Разработанная система показала, что agentic AI может значительно повлиять на область FCC, улучшая проц
Annotation:
The cost and complexity of financial crime compliance (FCC) continue to rise, often without measurable improvements in effectiveness. While AI offers potential, most solutions remain opaque and poorly aligned with regulatory expectations. This paper presents the design and deployment of an agentic AI system for FCC in digitally native financial platforms. Developed through an Action Design Research (ADR) process with a fintech firm and regulatory stakeholders, the system automates onboarding, mo...
ID: 2509.13137v1 cs.AI, cs.HC, cs.MA, K.4.4; K.6.5; I.2.11
Авторы:

Sven Jacobs, Natalie Kiesler

Отрывок из журнала 2024 года ## Контекст Реальное временное взаимодействие с искусственным интеллектом (ИИ) через голосовые интерфейсы начинает приобретать важность в области программирования, особенно для начинающих разработчиков. Одной из значимых проблем, с которой сталкиваются начинающие программисты, является недостаток доступности инструментов, предназначенных для поддержки их обучения. Например, программисты с ограниченными физическими возможностями, такими как проблемы с зрением, могут испытывать трудности при использовании стандартных интерфейсов кода. Генетические системы Generative AI (GenAI) могут стать решением для повышения доступности, стимулируя новую модель обучения программированию. Однако, несмотря на значительные достижения в генерировании речевых моделей, лишь мало что известно о том, как начинающие программисты взаимодействуют с такими системами на практике, а также о качестве обратной связи в форме звукового вывода. Эта проблема является одной из мотиваций для данного исследования. ## Метод Для исследования взаимодействия начинающих программистов с генетическим генеративным искусственным интеллектом (GenAI) был разработан возможность использовать голосовой интерфейс в обучении Python. Исследование проводилось в аутентичной учебной среде с участием девяти учеников 9 класса. Для получения данных были зафиксированы голосовые запросы учащихся и ответы системы (1210 сообщений), которые были анализированы с помощью квалитативного кодирования. Было также проведено исследование восприятия учащихся взаимодействия с GenAI с помощью опросника Partner Modeling Questionnaire. Это позволило собрать данные как из технической, так и из психологической точки зрения. ## Результаты Генетический генеративный искусственный интеллект (GenAI) предоставлял обратную связь в виде частичного кода, ответы на вопросы и советы по дальнейшим действиям. Однако, несмотря на важность такой функциональности, система демонстрировала только среднее качество работы. Точность ответов составила 71.4% из 416 образцов анализируемых ответов. Особенно сильной проблемой было понимание и вывод кода, где зачастую ответы были неточными. Учащиеся использовали GenAI в основном для поиска и устранения ошибок в коде. Восприятие системы учащимися было, в основном, положительным — система считалась компетентной и гибкой, но не очень удобной для полноценного общения. ## Значимость Полученные результаты могут быть использованы для улучшения дизайна голосовых интерфейсов в обучении программированию. Это может стать основой для разработки инструментов
Annotation:
Real-time voice interfaces using multimodal Generative AI (GenAI) can potentially address the accessibility needs of novice programmers with disabilities (e.g., related to vision). Yet, little is known about how novices interact with GenAI tools and their feedback quality in the form of audio output. This paper analyzes audio dialogues from nine 9th-grade students using a voice-enabled tutor (powered by OpenAI's Realtime API) in an authentic classroom setting while learning Python. We examined t...
ID: 2509.10596v1 cs.CY, cs.AI, cs.HC
Авторы:

Boris Kovalerchuk, Brent D. Fegley

## Контекст Одним из наиболее вызовов в различных областях является принятие решений в условиях неполной или неточной информации. Эти проблемы становятся еще более актуальными в связи с распространением генерирующих технологий, в том числе больших языковых моделей (LLM). Несмотря на их мощь, LLMs не всегда способны решить проблему недостатка информации в своих тренировочных данных, что приводит к так называемой "халлуцинации" моделей. Для улучшения точности и достоверности решений в таких ситуациях, авторы предлагают применение технологии, основанной на оптимизации диалога между человеком и машиной, и монотонными логическими функциями. Эта технология называется EMM (Expert Mental Model) и предназначена для выявления и моделирования личных экспертных моделей принятия решений. Она целесообразна в ситуациях, когда существуют критические пропуски в информации, что мешает ЛЛМу принять обоснованное решение. ## Метод Технология EMM представляет собой четыре этапа: (1) идентификация факторов, (2) группировка их в иерархическую структуру, (3) создание общей спецификации экспертной модели принятия решений, и (4) формирование подробного описания этой модели. Метод использует логические функции для выражения экспертных моделей принятия решений, что делает процесс простой и эффективным. Его применение рассматривается в контексте решения задачи оценки возможности ответа на зов пропозиционный. Эта задача требует учета множества факторов, которые могут быть недоступны или неточными в исходных данных. Технология EMM предлагает решение этой проблемы, обеспечивая более точное и обоснованное решение. ## Результаты В результате использования технологии EMM было достигнуто выявление и моделирование экспертных моделей принятия решений с учетом критических пропусков в информации. Эксперименты показали, что данная технология позволяет существенно повысить уровень точности решений и уменьшить частоту халлуцинаций ЛЛМ. Данные результаты были получены при помощи оптимизированных логических функций и иерархической структуры факторов, что способствовало эффективному принятию решений в сложных ситуациях. ## Значимость Технология EMM может быть применена в различных областях, где необходимо принимать решения на основе неполной информации. Например, в области финансов, здравоохранения, юриспруденции и др. Она предоставляет более точные и обоснованные решения, снижая риск ошибок и неточностей. Преимущество технологии заключается в ее универсальности и пригодности для различных сфер принятия решений. Ее потенциальное влияние за
Annotation:
Difficult decision-making problems abound in various disciplines and domains. The proliferation of generative techniques, especially large language models (LLMs), has excited interest in using them for decision support. However, LLMs cannot yet resolve missingness in their training data, leading to hallucinations. Retrieval-Augmented Generation (RAG) enhances LLMs by incorporating external information retrieval, reducing hallucinations and improving accuracy. Yet, RAG and related methods are onl...
ID: 2509.10818v1 cs.AI, cs.HC
Авторы:

Dominic Petrak, Thy Thy Tran, Iryna Gurevych

------------------------------------------------ ## Контекст ------------------------------------------------ Современные широковещательные системы на основе широковещательных моделей языка (LLM), такие как консультанты по здоровью, привносят в сферу здравоохранения новейший подход к предоставлению услуг здравоохранения. Однако эти системы часто сталкиваются с проблемами, такими как неточности, несоответствия контексту и непредсказуемость результатов. Эти проблемы могут привести к негативному опыту пользователей и снижению доверия к системе. Одним из ключевых аспектов, стоящих перед развитием этих систем, является разработка эффективных методов автоматического обнаружения и оценки ошибок в тексте. Эти методы помогают обнаруживать и моделировать негативные поведенческие характеристики, такие как неточности и несоответствия контексту, которые могут возникать в результатах системы. Целью данного исследования является разработка и проверка фреймворка для автоматического обнаружения ошибок в тексте, который может быть применен для улучшения качества результатов в здравоохранении и других областях. ## Метод ------------------------------------------------ Для реализации предложенного фреймворка разработана методология, основанная на сочетании методов машинного обучения и естественного языкового процессинга. Метод SEEED (Soft Clustering Extended Encoder-Based Error Detection) использует софт-кластеринг и расширенную модель encoder-based для обнаружения и оценки ошибок в тексте. Основными инструментами являются: 1. **Soft Nearest Neighbor Loss (SNNL)**: Этот подход усиливает веса для отрицательных примеров, что позволяет модели лучше отличать ошибки от правильных ответов. 2. **Label-Based Sample Ranking (LBSR)**: Эта техника используется для выбора самых отличительных примеров для обучения модели, что улучшает способность модели к обнаружению неправильных ответов. Кроме того, были разработаны специальные методы для подготовки данных, включая методы для автоматического создания тестовых наборов и методы для оценки точности модели. ## Результаты ------------------------------------------------ Для оценки эффективности SEEED был проведен эксперимент на нескольких диалоговых датасетах, аннотированных ошибками. Результаты показали, что SEEED превосходит существующие подходы, включая GPT-4o и Phi-4, на несколько процентов в точности обнаружения непредсказуемых ошибок. Было получено, что SEEED обнаруживает непредсказуемые ошибки с точностью до 8% выше, чем существующие модели. Это улучшение связано с использованием расширенных методов кластеризации и оценки примеров, что позволяет модели лучше определять и отделять ошибки от правильных ответов. ## Значимость ------------------------------------------------ Результаты данного исследования имеют важное значение для развития систем здравоохранения, в частности для расширения возможностей консультан
Annotation:
Although LLM-based conversational agents demonstrate strong fluency and coherence, they still produce undesirable behaviors (errors) that are challenging to prevent from reaching users during deployment. Recent research leverages large language models (LLMs) to detect errors and guide response-generation models toward improvement. However, current LLMs struggle to identify errors not explicitly specified in their instructions, such as those arising from updates to the response-generation model o...
ID: 2509.10833v1 cs.CL, cs.AI, cs.HC, cs.LG
Авторы:

Liangxuan Guo, Bin Zhu, Qingqian Tao, Kangning Liu, Xun Zhao, Xianzhe Qin, Jin Gao, Guangfu Hao

## Контекст В современных вычислительных средах возрастает спрос на системы, которые могут автоматизировать сложные многошаговые задачи. Однако, агентные системы, предназначенные для десктопной автоматизации, часто сталкиваются с проблемами, связанными с неэффективной координацией и недостаточным контролем качества. Эти проблемы приводят к нестабильности в работе и ограниченной гибкости при адаптации к различным сценариям. Таким образом, требуется разработка новых подходов, которые обеспечат более надёжный и универсальный подход к автоматизации десктопных задач. ## Метод Agentic Lybic представляет собой уникальную систему, основанную на многоагентном подходе с использованием конечного автомата (FSM). Архитектура системы включает четыре основных компонента: **Controller** (координатор), **Manager** (менеджер), **Workers** (исполнители) и **Evaluator** (оценщик). Каждый из них отвечает за заданный аспект выполнения задачи. Работа системы основывается на динамической роутинге задач между этими компонентами через FSM-обработчик. Это позволяет выполнять адаптивную перепланировку и восстановление из ошибок. Принципиально новым является интеграция в систему непрерывного контроля качества, который позволяет обеспечить стабильность работы и адаптивность к нестандартным ситуациям. ## Результаты На основе широко известного бенчмарка OSWorld были проведены испытания системы Agentic Lybic. Эксперименты показали, что система достигает современников в среднем успешности задач, выполняя их за 50 шагов с успешностью 57.07%. Это значительно выше результатов других систем, которые, как правило, останавливаются на значительно нижем уровне. Особое внимание уделялось измерению качества решений и их устойчивости к ошибкам. Такие результаты доказывают, что использование FSM и непрерывного контроля качества позволяет системе Agentic Lybic значительно улучшить стабильность и универсальность решений в сложных вычислительных средах. ## Значимость Предлагаемая система Agentic Lybic может использоваться в различных областях, где требуется надежная автоматизация десктопных задач. Особую значимость она приобретает в сферах, где необходимо высокий уровень надежности и адаптивности. Отличительным преимуществом является улучшенная универсальность и стабильность, что определяет потенциальное влияние на развитие технологий автоматизации. Это приложение может существенно упростить работу с комплексными задачами в многошаговых сценариях. ## Выводы Agentic Lybic достигает современного лидерства в производительности за счёт принципиально нового подхода к многоагентной системе с FSM-оркестраци
Annotation:
Autonomous agents for desktop automation struggle with complex multi-step tasks due to poor coordination and inadequate quality control. We introduce Agentic Lybic, a novel multi-agent system where the entire architecture operates as a finite-state machine (FSM). This core innovation enables dynamic orchestration. Our system comprises four components: a Controller, a Manager, three Workers (Technician for code-based operations, Operator for GUI interactions, and Analyst for decision support), an...
ID: 2509.11067v2 cs.AI, cs.HC, cs.MA
Авторы:

Avinash Agarwal, Manisha J. Nene

## Контекст В последние годы искусственный интеллект (AI) стал важной частью жизни человека, применяясь в различных сферах, от здравоохранения до финансов. Однако применение AI сопряжено с рисками, включая неточности, несостоятельность и несправедливость. Эти риски вызывают заботу в отношении справедливости, защиты данных и ответственного использования AI. Необходима структурированная система управления, которая бы соединяла высокоуровневые регуляторные принципы с техническими решениями и практическими механизмами. Основной проблемой существующих фреймворков AI является нехватка четкости в переводе регуляторных требований на практические механизмы. Это создает пробелы в соответствии и применении. Данная работа направлена на адресацию этой проблемы. ## Метод Разработанная модель состоит из пяти уровней, которые постепенно уточняют требования к AI. Первый уровень определяет общие регуляторные принципы и цели, которые должны быть достигнуты. Второй уровень предлагает стандартизацию, формируя конкретные требования для каждого уровня. Третий уровень включает методики оценки, которые позволяют проверить соответствие стандартам. Четвертый уровень предлагает технические решения, включая модели и алгоритмы, которые должны соответствовать стандартам. Пятый уровень предлагает сертификацию, которая подтверждает соответствие моделей стандартам. Этот фреймворк позволяет устанавливать цель, направлять подходы к реализации и проверять их через сертификацию. ## Результаты Для проверки модели были проведены два случая использования. В первом случае рассматривалось вопросы справедливости в AI, а во втором — вопросы расследования и отчетности в случаях неиспользования AI. Результаты показали, что фреймворк может выявлять пробелы в законах, стандартах и их применении. Он позволяет сделать правила понятными для различных стран и устраняет пробелы в реализации. Кроме того, он помогает улучшить систему управления рисками и соблюдением требований. ## Значимость Фреймворк может быть применен в различных сферах, включая здравоохранение, финансы, транспорт и государственное управление. Он предлагает преимущества, такие как улучшение соответствия, уменьшение рисков и повышение доверия. Этот подход может сделать AI более честным и безопасным, предоставив политикам и организациям мощные инструменты для управления и регулирования AI. ## Выводы Разработанный фреймворк представляет собой полезный инструмент для управления AI. Он помогает идентифицировать пробелы в законах и стандартах, а также предла
Annotation:
Purpose: The governance of artificial iintelligence (AI) systems requires a structured approach that connects high-level regulatory principles with practical implementation. Existing frameworks lack clarity on how regulations translate into conformity mechanisms, leading to gaps in compliance and enforcement. This paper addresses this critical gap in AI governance. Methodology/Approach: A five-layer AI governance framework is proposed, spanning from broad regulatory mandates to specific standa...
ID: 2509.11332v1 cs.CY, cs.AI, cs.HC
Авторы:

Sabrina Patania, Luca Annese, Anna Lambiase, Anita Pellegrini, Tom Foulsham, Azzurra Ruggeri, Silvia Rossi, Silvia Serino, Dimitri Ognibene

## Контекст Современная компьютерная наука стремится моделировать человеческие способности, включая области, где взаимодействие и социальная интеллектуальная сфера играют ключевую роль. Общение и достижение сингрейднинга требуют не только языковых навыков, но и возможности воспринимать мир с различных личных и субъективных точек зрения. Однако существующие модели часто игнорируют этот аспект, ограничиваясь лишь синтезом текста. Единичные подходы, которые сочетают языковые модели с моделями представления перспектив, либо ограничиваются формальными определениями, либо не учитывают эволюцию представлений в развитии. Это исследование фокусируется на устранении этой проблемы, построив модель, которая моделирует обучение и развитие перспективного восприятия, а также взаимодействие в реальном мире. ## Метод Для моделирования развития перспективного восприятия использована система PerspAct, которая интегрирует парадигму ReAct (Reason and Act) с большими языковыми моделями (LLMs). Развитие перспективного восприятия определяется в соответствии с теорией группового развития Selman. Для оценки модели использовались расширенные задачи "директор-исполнитель", где цель состоит в том, чтобы генерировать внутренние представления, соответствующие различным стадиям развития. Данные для экспериментов состояли из текстовых последовательностей, созданных моделью, которые были оценены как на качество генерированных внутренних представлений (качественно), так и на эффективность выполнения задач (качественно и количественно). ## Результаты Выполненные эксперименты показали, что модель GPT успешно генерирует внутренние представления, соответствующие различным стадиям развития, перед запуском задачи. Однако в процессе взаимодействия модель часто переходит на более развитые стадии, что указывает на роль языкового обмена в уточнении внутренних представлений. Более высокие стадии развития более эффективно влияют на работу в команде, в то время как более ранние стадии приводят к более разнообразным результатам в сложных ситуациях. Эти результаты подтверждают потенциал интеграции моделей перспективного восприятия и языка в моделировании развития и совместных задач. ## Значимость Полученные результаты могут быть применены в области развития роботов-коллег, обучения личности, улучшении интеллектуальных взаимодействий. Модель PerspAct предлагает способ для более точного моделирования развития человеческих качеств, таких как развитие перспективного восприятия и развитие внутреннего речевого моделирования. Это может
Annotation:
Language and embodied perspective taking are essential for human collaboration, yet few computational models address both simultaneously. This work investigates the PerspAct system [1], which integrates the ReAct (Reason and Act) paradigm with Large Language Models (LLMs) to simulate developmental stages of perspective taking, grounded in Selman's theory [2]. Using an extended director task, we evaluate GPT's ability to generate internal narratives aligned with specified developmental stages, an...
ID: 2509.11868v1 cs.CL, cs.AI, cs.HC, cs.RO, I.2; I.2.7; I.2.10; J.4
Показано 161 - 170 из 238 записей