📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions

2025-09-17

Авторы:

Tae Soo Kim, Heechan Lee, Yoonjoo Lee, Joseph Seering, Juho Kim

## Контекст Огромный рост интереса к генерирующимся с помощью искусственного интеллекта выводам привел к популяризации использования ЛСМ (Ло Lаrge Language Mоdels) в качестве средств оценки генерируемого контента. Однако, личные оценки, производящиеся всеми существующими методами, приводят к проблемам в доступности результатов для людей, не имеющих опыта в области моделей языков. Более того, получаемые целостные оценки не дают понять, какие конкретные элементы влияют на полученный результат. Данная проблема может привести к ошибкам в выводах и снижению доверия к ЛСМ. ## Метод Для решения данных проблем была предложена новая методология, основанная на разбиении вывода ЛСМ на функциональные фрагменты, которые значительно упрощает обработку результатов. Функциональные фрагменты вывода определяются с помощью ретрикторских функций, которые используются в качестве критериев оценки. Эта новая подходность позволяет моделировать и отображать результаты в таком виде, чтобы пользователь мог провести глубокий анализ элементов и понять, как они влияют на общую оценку. Метод был реализован в системе Evalet, которая использует интерактивные визуализации для поддержки инспекции, оценки и сравнения выводов. ## Результаты В ходе экспериментов был проведен исследовательский эксперимент, в котором участвовали 10 участников. Они использовали Evalet в тестировании генерируемых выводов ЛСМ. Результаты показали, что техника функционального разделения позволила увеличить число обнаруженных проблем в выводах на 48% в сравнении с традиционными методами. Это позволило улучшить надежность и возможность отслеживать точные проблемы в модели. Таким образом, Evalet делает процесс оценки более транспарентным и эффективным. ## Значимость Результаты Evalet показали, что система оказалась особенно полезна в профессиональных задачах, где необходимо понять не только оценку, но и ее конкретные аспекты. Интерактивные возможности Evalet делают ее инструментом для быстрого и точного анализа моделей языков. Данный подход может быть применен в различных областях, включая технологии поддержки решений, системы мониторинга качества и контент-аналитику. ## Выводы Выводы исследования подтвердили, что Evalet значительно улучшает процесс оценки выводов ЛСМ, помогая пользователям обнаруживать больше проблем и делать более тщательный анализ результатов. Более того, обнаружено, что Evalet может стать залогом будущих исследований в области оценки генерируемых выводов и моделей языков. В будущем можно рассмотреть возможность расширения Evalet для поддержки других способов о

Annotation:

Practitioners increasingly rely on Large Language Models (LLMs) to evaluate generative AI outputs through "LLM-as-a-Judge" approaches. However, these methods produce holistic scores that obscure which specific elements influenced the assessments. We propose functional fragmentation, a method that dissects each output into key fragments and interprets the rhetoric functions that each fragment serves relative to evaluation criteria -- surfacing the elements of interest and revealing how they fulfi...

ID: 2509.11206v2 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Vibe Check: Understanding the Effects of LLM-Based Conversational Agents' Personality and Alignment on User Perceptions in Goal-Oriented Tasks

2025-09-16

Авторы:

Hasibur Rahman, Smit Desai

## Контекст В последние годы технологии л LLM (large language models) позволяют создавать более интерактивные и естественные диалоги с роботами-консультантами (CAs). Эти роботы могут выражать различные персональности, что открывает новые возможности для улучшения пользовательских взаимодействий. Однако новые вопросы возникают относительно того, как различные уровни выражения персональности влияют на ощущения пользователей и удовлетворенность от этих взаимодействий. Интересным вопросом является, как уровень выражения персональности и ее согласованность с ожиданиями пользователей могут повлиять на результаты в целевых задачах. ## Метод Для изучения этих вопросов был проведен эксперимент типа between-subjects с участием 150 человек. Участники выполняли задачи планирования путешествий, взаимодействуя с роботами-консультантами, имеющими разные характеристики личности. Личность была регулирована с помощью **Trait Modulation Keys** — системы, регулирующей выражение шести типичных личностных признаков (тест Big Five Inventory). Уровень выражения личности варьировался от низкого до высокого, что позволило изучить пользовательские ощущения в зависимости от уровня выражения личности и ее соответствия ожиданиям пользователя. ## Результаты Результаты эксперимента показали, что роботы-консультанты с средним уровнем выражения личности получили самые положительные оценки от пользователей в течение целевых задач. Этот результат был замечен в тех областях, как удовлетворенность от взаимодействия, антропоморфизм, ценность персональности, доверие и желание использовать такого робота в будущем. Наивысшие результаты были получены роботами с средним уровнем выражения личности в сравнении с низким и высоким уровнями выражения. Было также обнаружено, что личностные характеристики, такие как экстраверсия и стабильность эмоций, оказывают сильнейшее воздействие на персональность и удовлетворенность от взаимодействия. ## Значимость Находки данного исследования имеют значительное значение для развития технологий личности в крупных лингвистических моделях. Они показывают, что выбор оптимального уровня выражения личности и ее согласованность с ожиданиями пользователя могут существенно улучшить результаты в задачах, где ключевой роль играет пользовательское взаимодействие. Такие результаты могут быть применены в различных областях, таких как поддержка клиентов, обучение, психологические услуги и другие сферы, где роботы-консультанты играют важную роль. ## Выводы Результаты этого исследования подтверждают, что уровень выражения личности и ее согласованность с ожиданиями по

Annotation:

Large language models (LLMs) enable conversational agents (CAs) to express distinctive personalities, raising new questions about how such designs shape user perceptions. This study investigates how personality expression levels and user-agent personality alignment influence perceptions in goal-oriented tasks. In a between-subjects experiment (N=150), participants completed travel planning with CAs exhibiting low, medium, or high expression across the Big Five traits, controlled via our novel Tr...

ID: 2509.09870v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Prompt Orchestration Markup Language

2025-08-21

Авторы:

Yuge Zhang, Nan Chen, Jiahang Xu, Yuqing Yang

## Контекст Large Language Models (LLMs) широко используются для решения различных задач, но требуют тщательного обучения и сложных вызовов при создании эффективных запросов. На данный момент существуют проблемы в структуре, интеграции данных, чувствительности к форматам и инструментах, которые затрудняют разработку качественных запросов. Особенностью этих проблем является нехватка полноценных решений, которые могли бы помочь упростить и улучшить процесс создания продвинутых запросов к LLM. Наша мотивация заключается в разработке системы, которая может упростить работу с LLM, обеспечивая улучшенную структуру и интеграцию данных, а также уменьшая чувствительность к форматам. ## Метод Мы предлагаем Prompt Orchestration Markup Language (POML), которая представляет собой компонентную разметку для организации запросов. POML использует логическую структуру, такую как роли, задачи и примеры, чтобы упростить работу с различными типами данных, включая документы, таблицы и изображения. Для интеграции данных мы вводим специальные теги, которые позволяют упростить подключение информации. Также в POML включен CSS-подобный стиль, который позволяет отделить контент от представления, уменьшая степень чувствительности к форматированию. Мы также усовершенствовали возможность шаблонизации для динамических запросов и разработали полный набор инструментов для разработчиков, включая поддержку IDE и SDK, чтобы улучшить возможности управления версиями и командной работы. ## Результаты Мы провели несколько экспериментов, используя различные сценарии, включая PomLink, который демонстрирует улучшение интеграции сложных приложений, и TableQA, который показывает улучшение точности ответов на вопросы с помощью табличных данных. Наши результаты показали, что POML значительно упрощает процесс создания запросов и улучшает их точность. Мы также провели исследование с участием разработчиков, чтобы оценить эффективность POML в реальных условиях разработки. ## Значимость POML может быть применена в различных областях, где требуется эффективное использование LLM, в том числе в области интеграции данных, разработки сложных приложений и упрощения процесса разработки запросов. Одним из главных преимуществ POML является уменьшение чувствительности к форматам и улучшение структуры запросов. Это приводит к более высокой точности и эффективности в использовании LLM. Мы видим потенциал POML в расширении возможностей LLM, упрощении работы разработчиков и улучшении качества решений, основанных на LLM. ## Выводы Мы доказали, что POML может значительно улучшить процесс работы с LLM, особенно в сложных сценариях. В будущем мы пла

Annotation:

Large Language Models (LLMs) require sophisticated prompting, yet current practices face challenges in structure, data integration, format sensitivity, and tooling. Existing methods lack comprehensive solutions for organizing complex prompts involving diverse data types (documents, tables, images) or managing presentation variations systematically. To address these gaps, we introduce POML (Prompt Orchestration Markup Language). POML employs component-based markup for logical structure (roles, ta...

ID: 2508.13948v1 cs.HC, cs.AI, cs.CL, cs.PL

arXiv PDF

📄 How Persuasive Could LLMs Be? A First Study Combining Linguistic-Rhetorical Analysis and User Experiments

2025-08-15

Авторы:

Daniel Raffini, Agnese Macori, Lorenzo Porcaro, Tiziana Catarci, Marco Angelini

## Контекст Общение с искусственным интеллектом (ИИ), особенно с использованием технологий типа Large Language Models (LLMs), становится все более распространенным во всех сферах жизнедеятельности. Одна из ключевых вопросов, которые возникают в этой области, является потенциальная эффективность таких моделей в создании убедительных аргументированных текстов, которые могут влиять на социальную и политическую сферу. Несмотря на то, что LLMs, такие как ChatGPT, показали впечатляющую способность генерировать логично структурированные тексты, их эффективность в области убеждающей речи и политической деятельности еще не полностью оценена. Эта статья стремится заполнить эту нишу, рассматривая языковые и реторические особенности текстов, создаваемых LLMs, и их эффективность в убеждающем воздействии на читателей, особенно в сфере этичных вопросов. ## Метод Для достижения этой цели был проведен эксперимент, в рамках которого 62 участника прошли тесты перед и после взаимодействия с текстами, сгенерированными ChatGPT. Участники прочитали аргументированные тексты на этично-номинированные темы, такие как роль ИИ в образовании и медицине. Затем была проведена лингвистическая и реторическая анализирующая версии текстов, созданных генеративным ИИ. Основные показатели, рассматриваемые в анализе, включали макроструктуру аргументации, частоту использования формулировок, и стилистическую богатство. Эти параметры были измерены для определения того, насколько эффективно ChatGPT генерирует тексты, которые могут способствовать изменению точки зрения участников. ## Результаты Экспериментальные результаты показали, что тексты, сгенерированные ChatGPT, обладают высокой логичностью и согласованной макроструктурой. Однако они отмечаются низкой стилистической разнообразием и частотой использования формулировок. Лингвистический анализ также отмечал, что ChatGPT в силу своих алгоритмов ограничен в способности генерировать тексты, которые могут значительно изменить мнение читателя по этичным вопросам. Несмотря на то, что участники часто отмечали положительные аспекты, выделенные в текстах, их этические опасения не только не значительно уменьшились, но и, в некоторых случаях, усилились после чтения. ## Значимость Находки этого исследования имеют значительное значение для ряда областей. Во-первых, они могут быть применены для улучшения технологий генерирования текстов, особенно в сферах, где этические вопросы играют ключевую роль. Во-вторых, результаты могут быть полезны для разработки методов

Annotation:

This study examines the rhetorical and linguistic features of argumentative texts generated by ChatGPT on ethically nuanced topics and investigates their persuasive impact on human readers.Through a user study involving 62 participants and pre-post interaction surveys, the paper analyzes how exposure to AI-generated arguments affects opinion change and user perception. A linguistic and rhetorical analysis of the generated texts reveals a consistent argumentative macrostructure, reliance on formu...

ID: 2508.09614v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 A Close Reading Approach to Gender Narrative Biases in AI-Generated Stories

2025-08-15

Авторы:

Daniel Raffini, Agnese Macori, Marco Angelini, Tiziana Catarci

#### Контекст Гендерные биасы в искусственном интеллекте (ИИ) становятся все более актуальными в связи с ростом популярности технологий, которые становятся частью повседневной жизни. Исследователи подчеркивают, что гендерные предрассудки в текстах, генерируемых ИИ, могут повлиять на создание клише и укрепить существующие стереотипы. Это, в свою очередь, может привести к необоснованным предпочтениям в гендерных ролях и жизненных ситуациях. Однако многие исследования стремятся проанализировать эти проблемы с использованием метрик и статистического анализа, обходясь без подробного контекстуального исследования. В данной статье предлагается новый подход, основанный на "ближайшем чтении" (close reading), который позволяет глубже понять и оценить гендерные биасы в текстах, генерируемых с помощью ИИ. #### Метод Для исследования гендерных биасов использовались раскадровки стихотворных произведений, спроектированные на основе пропов Михаила Проппа (Propp's character classifications) и фрейговской структуры (Freytag’s narrative structure). Эти раскадровки были использованы для создания подробных заданий генерации текстов в ИИ-системах, включая ChatGPT, Gemini и Claude. Тексты были рассмотрены с пристальным вниманием к соответствию заданию, распределению пола среди персонажей, их физическим и психологическим описаниям, действиям и развитию сюжета. Затем проводился сравнительный анализ, чтобы выявить степень выраженности гендерных предрассудков и их влияние на развитие сюжета и отношения между персонажами. #### Результаты Исследование показало, что даже в условиях однозначного задания генерации текста системы ИИ продолжают проявлять гендерные предрассудки, особенно неявные. Например, женские персонажи чаще описываются в физическом контексте, в то время как мужские персонажи — в позиции владельца действия. Также выявлено, что гендерные стереотипы могут оказывать влияние на развитие сюжета, в том числе в отношениях между персонажами. Эти результаты иллюстрируют необходимость подхода, основанного на ближайшем чтении, для выявления и анализа неявных гендерных биасов в текстах ИИ. #### Значимость Предложенный подход к изучению гендерных биасов в текстах ИИ имеет широкие применения в области гуманитарных технологий, включая создание текстов, предназначенных для образовательных или развлекательных целей. Этот подход позволяет выявлять не только явные, но и неявные гендерные предрассудки, что может способствовать созданию более нейтральных текстов. Более того, этот подход может стать началом для развити

Annotation:

The paper explores the study of gender-based narrative biases in stories generated by ChatGPT, Gemini, and Claude. The prompt design draws on Propp's character classifications and Freytag's narrative structure. The stories are analyzed through a close reading approach, with particular attention to adherence to the prompt, gender distribution of characters, physical and psychological descriptions, actions, and finally, plot development and character relationships. The results reveal the persisten...

ID: 2508.09651v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Conversational DNA: A New Visual Language for Understanding Dialogue Structure in Human and AI

2025-08-13

Авторы:

Baihan Lin

## Контекст Понимание и анализ диалогов — это ключевой аспект во многих областях, включая психологию, образовательные технологии, искусственный интеллект и даже лингвистику. Однако традиционные методы анализа диалогов часто сводятся к статистическим обзорам, которые не полностью отражают глубину и сложность человеческого общения. Это ставит под вопрос эффективность таких подходов при анализе диалогов, где важны такие аспекты, как эмоциональная напряженность, тематическая структура и интерактивная инерция. "Conversational DNA" — это инновационный подход к визуализации диалогов, который предлагает новую систему знаков для интерпретации и понимания структуры диалога. Он предлагает трактовать диалог как живую систему, где каждая часть может быть визуализирована и проанализирована с помощью биологических метафор, таких как цветные градиенты, темные линии и лепестковые структуры. Такой подход позволяет выявлять взаимодействия и шаблоны, которые могут быть пропущены при традиционном анализе. Таким образом, "Conversational DNA" предлагает новую перспективу для понимания и визуализации диалогов, которая может помочь не только в живых общениях, но и в искусственных системах. ## Метод "Conversational DNA" — это визуальная система, основанная на техниках данных и биологических метафор. Она предлагает визуальные модели, которые иллюстрируют структуру и динамику диалога. Цветные градиенты используются для представления эмоциональных траекторий, когда частичные оттенки цвета могут указывать на рывки или эмоциональные штормовые волны. Темные линии используются для представления темы или темных полосок, которые охватывают разные части диалога. Также используются лепестковые структуры, которые помогают отобразить логические отношения между разными топиками и темами. Методология включает в себя несколько этапов: предварительная обработка данных, визуализация диалога с помощью метафорических моделей и экспериментальный анализ результатов. Для использования этой методики, необходимо превратить диалог в графическое представление, где каждый элемент (слово, фраза, топик) представляется в виде "структурного состава", который можно сравнивать и анализировать. Этот подход позволяет понять, как тематическая структура диалога развивается во времени и как разные элементы связаны друг с другом. ## Результаты В экспериментах были использованы данные из терапевтических бесед, а также диалогов, происходивших между людьми и искусственным интеллектом. Визуальные

Annotation:

What if the patterns hidden within dialogue reveal more about communication than the words themselves? We introduce Conversational DNA, a novel visual language that treats any dialogue -- whether between humans, between human and AI, or among groups -- as a living system with interpretable structure that can be visualized, compared, and understood. Unlike traditional conversation analysis that reduces rich interaction to statistical summaries, our approach reveals the temporal architecture of di...

ID: 2508.07520v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Do Ethical AI Principles Matter to Users? A Large-Scale Analysis of User Sentiment and Satisfaction

2025-08-12

Авторы:

Stefan Pasch, Min Chul Cha

## Контекст В последние годы искусственный интеллект (AI) внедряется все более активно в рабочие процессы организаций и повседневные приложения. Это привело к расширению политических и промышленных норм, определяющих принципы этики AI, такие как справедливость, прозрачность и надежность. Несмотря на это, показатели того, насколько эти принципы воспринимаются и ценятся пользователями, остаются неполными. Этот факт мотивирует исследование связи между этичными AI-принципами и удовлетворением пользователей, чтобы понять, как эти принципы влияют на их оценку продуктов AI. ## Метод Для изучения этой проблемы были анализированы более 100 000 отзывов о AI-продуктах с платформы G2. Использовались трансформер-базные языковые модели для измерения тональности отзывов по семи этичным изданиям, определенным Управлением Европейского Союза по Ответственному AI. Эти издания включают: 1) безуклонность, 2) прозрачность, 3) надежность, 4) справедливость, 5) научность, 6) гуманность и 7) социальное благополучие. Этот подход позволил выявить системные отношения между этичными AI-принципами и удовлетворением пользователей. ## Результаты Анализ отзывов показал, что все семь этичных изданий положительно связаны с удовлетворением пользователей. Однако разницы в этой связи существуют в зависимости от роли пользователя и типа продукта. Технические пользователи и оценщики платформ разработки AI чаще обсуждают системные аспекты, такие как прозрачность и управление данными. В то же время нетехнические пользователи и оценщики приложений для конечных пользователей сосредоточены больше на гуманных аспектах, таких как управление человеческим волей и общественное благополучие. Особенно значительным является сильнейшее влияние этики AI на удовлетворение нетехнических пользователей и приложениях для конечных пользователей по всем семь метрикам. ## Значимость Эти находки говорят о важности этикой AI при разработке продуктов. Они подчеркивают необходимость учета контекстных отличий в зависимости от роли пользователя и типа продукта. Эти результаты могут помочь компаниям разрабатывать AI-продукты, которые будут удовлетворять разные потребности пользователей, учитывая их различные представления о значимости этики. ## Выводы Основным достижением этого исследования является доказательство положительного влияния этики AI на удовлетворение пользователей. Будущие исследования должны углубиться в изучение контекстных различий, чтобы создавать более индивидуализированные AI-решения, учитывающие различные потребности пользователей и роли. Это может привести к бо

Annotation:

As AI systems become increasingly embedded in organizational workflows and consumer applications, ethical principles such as fairness, transparency, and robustness have been widely endorsed in policy and industry guidelines. However, there is still scarce empirical evidence on whether these principles are recognized, valued, or impactful from the perspective of users. This study investigates the link between ethical AI and user satisfaction by analyzing over 100,000 user reviews of AI products f...

ID: 2508.05913v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation

2025-08-12

Авторы:

Daniel Lee, Nikhil Sharma, Donghoon Shin, DaEun Choi, Harsh Sharma, Jeonghwan Kim, Heng Ji

## Контекст Современные технологии развития изображений, основанные на генерирующих моделях АИ, стали доступными для широкой публики. Однако существующие инструменты часто не полностью учтут неявный (таинственный) творческий интент пользователей, особенно для неквалифицированных пользователей. Это ограничивает возможности быстро и эффективно реализовать свои творческие идеи. Для решения этой проблемы необходимо создать инструмент, который бы позволил пользователям легко манипулировать семантическими концепциями, такими как настроение, стиль или тематическая ориентация, не прибегая к явной формулировке сложных запросов. ## Метод Мы предлагаем ThematicPlane — систему, которая использует взаимодействие с пользователем в гибкой интерактивной среде, где можно манипулировать семантическими концепциями. ThematicPlane характеризуется следующими ключевыми компонентами: (1) тематический ползунок, который позволяет перемещаться по высокоуровневым семантическим концепциям; (2) система многоугольников, которая отображает динамическую интерактивную палитру тематических концепций; (3) интерактивный процесс модификации, который позволяет редактировать разные аспекты генерируемых изображений, включая настроение, стиль и тематику. Это сочетание элементов обеспечивает пользователям более точный и интуитивный способ выражения творческого интента. ## Результаты Мы провёряли ThematicPlane в экспериментальных условиях с участием 6 участников. Они проводили работу в 2 режимах: развития идеи (дивергентный) и синтеза решения (конвергентный). Участники могли свободно манипулировать семантическими концепциями, использовать их как отправную точку для творчества и реагировать на неожиданные результаты. Однако в результате исследования выяснилось, что некоторые пользователи столкнулись с проблемами в понимании того, как именно семантические концепции будут отображаться на выходных изображениях. Это подчеркивает необходимость более четкого отображения и лучшей поддержки пользователей в этом смысле. ## Значимость ThematicPlane предлагает новый подход к интерактивному проектированию, объединяя легкость использования с высокой гибкостью. Он может быть применен в различных областях, включая творческое дизайнерское проектирование, визуальное оформление и графическое проектирование. Особые преимущества ThematicPlane заключаются в том, что он позволяет пользователям быстро и эффективно реализовать свои идеи, а также открывает новые возможности для интерактивного творчества с помощью генерирующих моделей АИ. ## Выводы ThematicPlane доказал свою эффективность в помо

Annotation:

Generative AI has made image creation more accessible, yet aligning outputs with nuanced creative intent remains challenging, particularly for non-experts. Existing tools often require users to externalize ideas through prompts or references, limiting fluid exploration. We introduce ThematicPlane, a system that enables users to navigate and manipulate high-level semantic concepts (e.g., mood, style, or narrative tone) within an interactive thematic design plane. This interface bridges the gap be...

ID: 2508.06065v1 cs.HC, cs.AI, cs.CL, cs.CV, H.5.2; I.2.7

arXiv PDF

📄 AIAP: A No-Code Workflow Builder for Non-Experts with Natural Language and Multi-Agent Collaboration

2025-08-09

Авторы:

Hyunjn An, Yongwon Kim, Wonduk Seo, Joonil Park, Daye Kang, Changhoon Oh, Dokyun Kim, Seunghyun Lee

**Резюме** Возникновение AIAP (AI Assistance Platform) ставится перед проблемой непосредственного взаимодействия между неэкспертными пользователями и сложными системами AI. Несмотря на многочисленные инструменты для проектирования AI, неэкспертные пользователи часто сталкиваются с трудностями в конкретном выражении своей интенции и управлении сложностью системы. Исследование показывает, что AIAP — это новое, нетехническое решение, которое использует ввод в естественной речи и визуальные рабочие процессы, объединенные с системой многоагентного взаимодействия. AIAP декомпозирует неясные пользовательские инструкции в модульные, действительные шаги, недоступные для пользователя, но управляемые через прозрачный интерфейс. Исследование с 32 участниками демонстрирует, что AIAP's АI-генерируемые рекомендации, модульные рабочие процессы и автоматическое определение данных, действий и контекста значительно упрощают процесс создания AI-сервисов, делая его более интуитивным. Эти результаты подтверждают, что новый подход, основанный на естественной речи и визуальном программировании, значительно снижает барьеры для неэкспертных пользователей и повышает их удобство при проектировании AI-сервисов.

Annotation:

While many tools are available for designing AI, non-experts still face challenges in clearly expressing their intent and managing system complexity. We introduce AIAP, a no-code platform that integrates natural language input with visual workflows. AIAP leverages a coordinated multi-agent system to decompose ambiguous user instructions into modular, actionable steps, hidden from users behind a unified interface. A user study involving 32 participants showed that AIAP's AI-generated suggestions,...

ID: 2508.02470v1 cs.HC, cs.AI, cs.CL, cs.MA, cs.SE

arXiv PDF

📄 NeuroSync: Intent-Aware Code-Based Problem Solving via Direct LLM Understanding Modification

2025-08-06

Авторы:

Wenshuo Zhang, Leixian Shen, Shuchang Xu, Jindu Wang, Jian Zhao, Huamin Qu, Linping Yuan

**Резюме:** При использовании конверсационных LLMs для решения доменных задач пользователи с ограниченными навыками программирования часто сталкиваются с проблемой несоответствия их намерений (intents) с генерируемым кодом. Это связано с двунаправленной неоднозначностью: нелинейные пользовательские намерения и задачи программирования должны быть выражены и интерпретированы через линейные последовательности запросов и кода. Для решения этой проблемы предлагается новый парадигмальный подход — **direct intent-task matching**, который внешне представляет и позволяет манипулировать LLM-пониманием задач программирования до фазы генерации кода. Этот подход реализован в системе **NeuroSync**, которая использует knowledge distillation для извлечения понимания LLM, пользовательских намерений и их сопоставлений, поддерживая интуитивное редактирование через визуализации. Результаты технических экспериментов и юзер-стади (N=12) показали, что NeuroSync улучшает соответствие намерений и задач, сокращает когнитивные затраты и повышает эффективность программирования.

Annotation:

Conversational LLMs have been widely adopted by domain users with limited programming experience to solve domain problems. However, these users often face misalignment between their intent and generated code, resulting in frustration and rounds of clarification. This work first investigates the cause of this misalignment, which dues to bidirectional ambiguity: both user intents and coding tasks are inherently nonlinear, yet must be expressed and interpreted through linear prompts and code sequen...

ID: 2508.02823v1 cs.HC, cs.AI, cs.CL, cs.SE

arXiv PDF

Показано 21 - 30 из 30 записей