📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Componentization: Decomposing Monolithic LLM Responses into Manipulable Semantic Units

2025-09-12

Авторы:

Ryan Lingo, Rajeev Chhajer, Martin Arroyo, Luka Brkljacic, Ben Davis, Nithin Santhanam

## Контекст Огромные языковые модели (LLM) стали популярными в сфере технологий интеллектуального анализа текста, однако они усложняют взаимодействие в командных проектах, где необходимо редактировать ответы модели на разных уровнях. Традиционно, ответы модели являются монолитными текстами, не разделенными на манипулируемые подразделы. Это приводит к проблемам в проектировании и редактировании ответов в рабочих процессах. Требуется подход, разбивающий ответы модели на манипулируемые подразделы, при этом сохраняя контекст и краткость. Наша мотивация заключается в создании подхода, который позволит активно редактировать ответы модели, комбинируя его с рабочими процессами и улучшая производительность командных проектов. ## Метод Мы предлагаем **Модульно-Адаптивную Архитектуру Декомпозиции Ответов** (MAOD), которая разделяет ответы модели на отдельные, манипулируемые модули, сохраняя их семантическое согласованность. Для реализации этого подхода мы разрабатываем **Архитектуру Ответов на основе Компонентов (CBRA)**. Эта архитектура включает в себя: - **Микросервисное Дизайн**, позволяющее реализовать раздел ответов на отдельные компоненты. - **Вендорно-Независимые Адаптеры** для моделей, которые позволяют работать с разными языковыми моделями. - **Агент-для-Агентного Рабочего Протокол**, который разделяет ответ на отдельные компоненты и взаимодействует с ними реалитингом рекомпозиции. Выделяются две основные части: 1. **Декомпозиционные Агенты**, которые создают модули ответа. 2. **Рекомпозиционные Агенты**, которые складывают модули обратно в собственный ответ. ## Результаты Мы проводим исследование с участием четырех участников, работающих в области продуктов, инженерии и научного исследования. Участники были задействованы в опыте, где они должныли редактировать ответы модели с помощью нашей системы. Обнаружено, что разделение ответов на модули упрощает процесс редактирования, позволяет более эффективно работать с ответами и использовать их в разных контекстах. Мы также выявили, что модульная структура ответов позволяет упростить работу в командных проектах, где необходимо редактировать ответы в разных сценариях. ## Значимость Мы считаем, что наша разработка может быть применена в различных областях, таких как продуктовое проектирование, инженерия, проекты с открытым кодом, где требуется быстрая редактирования и рекомпозиция ответов модели. Модульный подход позволяет: - Увеличить производительность командных проектов. - Быстрее редактировать и повторно использовать ответы модели. - Облегчить взаимодействи

Annotation:

Large Language Models (LLMs) often produce monolithic text that is hard to edit in parts, which can slow down collaborative workflows. We present componentization, an approach that decomposes model outputs into modular, independently editable units while preserving context. We describe Modular and Adaptable Output Decomposition (MAOD), which segments responses into coherent components and maintains links among them, and we outline the Component-Based Response Architecture (CBRA) as one way to im...

ID: 2509.08203v1 cs.HC, cs.AI, cs.SE, I.2.7; H.5.2

arXiv PDF

📄 Is General-Purpose AI Reasoning Sensitive to Data-Induced Cognitive Biases? Dynamic Benchmarking on Typical Software Engineering Dilemmas

2025-08-19

Авторы:

Francesco Sovrano, Gabriele Dominici, Rita Sevastjanova, Alessandra Stramiglio, Alberto Bacchelli

#### Контекст Область исследования — обнаружение и изучение возможности возникновения когнитивных биаз в общеприменных искусственных интеллектах (GPAI) в контексте программного обеспечения. Мотивация заключается в том, что человеческие когнитивные биаз могут привести к серьёзным ошибкам в программном обеспечении, а GPAI, как нечеловеческий актор, может способствовать их устранению. Однако тренировка GPAI на людских данных приводит к возможности возникновения имитации человеческих структур мышления, в том числе и биаз. Таким образом, возникает вопрос: являются ли GPAI системы сами подвержены когнитивным биазум и, если да, то в какой степени? Данная работа стремится оценить эту проблему в сфере программного обеспечения. #### Метод Для изучения этой проблемы был разработан динамический фреймворк, ориентированный на оценку уязвимости GPAI к когнитивным биазум в контексте реальных дилемм программного обеспечения. Основной эксперимент начинался с семинарного набора 16 ручной работы, каждая из которых содержала один из 8 разных биаз (например, привязка, фрейминг) и соответствующих неизбилих вариантов. Для увеличения масштаба была разработана методика генерации новых задач, основывающаяся на GPAI-системах. Эта методика позволяла сохранять биаз-индуцирующие лексические сигналы, в то же время изменяя лишь поверхностные детали задач. Для проверки того, что новые задачи сохраняют биаз, использовались методы проверки логики (Prolog) и валидации с помощью LLM-системы. Это позволило гарантировать, что биаз являются вредными и невосприимчивыми для безуклонного логического анализа. #### Результаты В результате было протестировано несколько ведущих GPAI-систем (GPT, LLaMA, DeepSeek). На ранних этапах оказалось, что все протестированные системы подвержены когнитивным биазум, возникающим из-за учёта лексических сигналов, не относящихся к логике задачи. Это привело к некорректным выводам, особенно при простых задачах, где часто использовались глубинные выводы. Однако с увеличением сложности задач системы становились все более чувствительными к биазум (до 49%), что указывает на существенный риск в реальных производственных условиях. #### Значимость Полученные результаты имеют применимость в разных областях, где GPAI используется для автоматизации решений или помощи в программной деятельности. Они показывают, что GPAI может представлять собой не только инструмент для устранения биаз, но и источник новых биаз, которые могут иметь влияние на решения. Изучение этой проблемы может привести к более безопасному и эффективно

Annotation:

Human cognitive biases in software engineering can lead to costly errors. While general-purpose AI (GPAI) systems may help mitigate these biases due to their non-human nature, their training on human-generated data raises a critical question: Do GPAI systems themselves exhibit cognitive biases? To investigate this, we present the first dynamic benchmarking framework to evaluate data-induced cognitive biases in GPAI within software engineering workflows. Starting with a seed set of 16 hand-craf...

ID: 2508.11278v1 cs.HC, cs.AI, cs.SE

arXiv PDF

📄 ChatGPT on the Road: Leveraging Large Language Model-Powered In-vehicle Conversational Agents for Safer and More Enjoyable Driving Experience

2025-08-13

Авторы:

Yeana Lee Bond, Mungyeong Choe, Baker Kasim Hasan, Arsh Siddiqui, Myounghoon Jeon

## Контекст В настоящее время технологии в сфере транспорта стремятся к созданию безопасных, удобных и эффективных систем взаимодействия для водителей. Одной из проблем в этой области является ограниченность набора функций и контекстной гибкости существующих систем голосового взаимодействия. Традиционные варианты реализации включают предварительно составленные скрипты или тестовые модели, которые не позволяют обеспечить натуральное и интерактивное взаимодействие водителя с системой. Таким образом, существует необходимость в разработке более гибких и интеллектуальных систем, которые могут обеспечивать более естественное взаимодействие водителя с автомобилем, улучшая как безопасность, так и удовольствие от процесса вождения. ## Метод Для изучения возможностей использования методов глубокого обучения в сфере транспорта была разработана модель взаимодействия, основанная на ChatGPT, которая позволяет водителям вести непрерывные, многократные диалоги с системой. В эксперименте приняли участие 40 водителей, протестировавших систему на базе движения в симуляторе. Участники проверяли три условия: без агента, с предварительно составленным скриптом и с ChatGPT-диалогом. Методы оценки включали сравнение показателей безопасности, удобства и эффективности взаимодействия, а также сбор данных для тематического анализа взаимодействия. ## Результаты Эксперименты показали, что ChatGPT-агент обеспечивает более стабильное вождение по нескольким метрикам. Водители, использовавшие ChatGPT-систему, показали меньшую внутритемпературную вариабельность в отношении дорожного поведения, в том числе уменьшение вариации ускорения, поворотов и отклонений вдоль полосы. Также, ChatGPT-система получила вышеоценки в плане компетентности, анаиматичности, эмоционального доверия и пользовательской приоритетности по сравнению с предварительно составленным скриптом. Тематический анализ говорит о том, что взаимодействия водителей и агентов касались разных тематик, включая помощь в вождении, запросы развлечений и антропоморфные обращения. ## Значимость Исследование показывает, что LLM-powered in-vehicle conversational agents могут стать мощным инструментом для улучшения безопасности и эффективности вождения, обеспечивая более естественное и интерактивное взаимодействие. Эти системы могут применяться в различных сферах, включая сервисы самостоятельного вождения, улучшение интерфейсов транспортных систем и создание более удобных средств для пользователей. Возможно, в будущем модели будут иметь более широкие возможности для взаимодействия с пользователями, включая рас

Annotation:

Studies on in-vehicle conversational agents have traditionally relied on pre-scripted prompts or limited voice commands, constraining natural driver-agent interaction. To resolve this issue, the present study explored the potential of a ChatGPT-based in-vehicle agent capable of carrying continuous, multi-turn dialogues. Forty drivers participated in our experiment using a motion-based driving simulator, comparing three conditions (No agent, Pre-scripted agent, and ChatGPT-based agent) as a withi...

ID: 2508.08101v1 cs.HC, cs.AI, cs.SE

arXiv PDF