📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Reading Between the Lines: Scalable User Feedback via Implicit Sentiment in Developer Prompts
2025-09-25Авторы:
Daye Nam, Malgorzata Salawa, Satish Chandra
## Контекст
Область исследования связана с оценкой удовлетворенности профессиональных разработчиков при использовании конверсационных ИИ-помощников. Несмотря на важность этой задачи, оценка удовлетворенности часто ограничивается простыми методами, такими как отзывы и рейтинги, которые либо недостаточно точны, либо невозможны в масштабе. Недостаточное количество качественных данных ставит под угрозу эффективное улучшение систем, так как невозможно обнаружить тонкие сигналы удовлетворенности. Поэтому, целью данного исследования является разработка метода, который мог бы дополнять существующие модели, обеспечивая более широкую и точную оценку отношения разработчиков к инструментам.
## Метод
Методология основывается на использовании анализа тональности (sentiment analysis) для выделения неявных сигналов удовлетворенности из команд, которые разработчики отправляют в систему. Использованные алгоритмы тональности являются от коммерческих вариантов (off-the-shelf), что обеспечивает простоту использования. Для обучения модели не использовалось дополнительного тренировочного материала. Для экспериментов использовались логи использования 372 профессиональных разработчиков, что дало возможность проанализировать большой объем данных за короткое время.
## Результаты
На основе анализа 372 разработчиков обнаружено, что неявные сигналы удовлетворенности могут быть выявлены в примерно 8% всех интеракций. Это увеличивает скорость обнаружения сигналов по сравнению с явными отзывами более чем в 13 раз. Модель показала приемлемую точность даже на основе откровенного сентимент-анализа, что демонстрирует возможность расширения эффективности существующих моделей без глубокой настройки.
## Значимость
Результаты имеют практическое значение для области развития ИИ-помощников. Данный подход может быть использован для совершенствования системы понимания динамического поведения разработчиков, улучшения работы системы прогнозирования потребностей и выявления проблем, которые могут быть незаметными в классических методах оценки. Более широкое применение этого метода может повысить удовлетворенность разработчиков и ускорить развитие новых функций.
## Выводы
Исследование доказало, что использование неявных сигналов удовлетворенности в разработческих запросах позволяет расширить объем исследований и улучшить точность оценки удовлетворенности. Будущие исследования будут сфокусированы на дополнительной настройке метода для повышения точности, а также на расширении исследований для различных типов AI-помощников.
Annotation:
Evaluating developer satisfaction with conversational AI assistants at scale
is critical but challenging. User studies provide rich insights, but are
unscalable, while large-scale quantitative signals from logs or in-product
ratings are often too shallow or sparse to be reliable. To address this gap, we
propose and evaluate a new approach: using sentiment analysis of developer
prompts to identify implicit signals of user satisfaction. With an analysis of
industrial usage logs of 372 professional...
📄 Prompt-with-Me: in-IDE Structured Prompt Management for LLM-Driven Software Engineering
2025-09-24Авторы:
Ziyou Li, Agnia Sergeyuk, Maliheh Izadi
## Контекст
Современные Large Language Models (LLM) внедряются во все большее количество областей программирования, включая процессы системного анализа, документирования, тестирования и разработку кода. Однако вопросы управления и эффективного использования промптов (предложенных LLMs наборов данных и задач) в реальных инженерных работах остаются недостаточно развиты. Это приводит к проблемам, таким как нестандартность, неповторяемость, низкая качественная модель работы и проблемы с безопасностью (например, поддержка конфиденциальности). Таким образом, требуется новая архитектура управления промптовыми запросами, которая бы гарантировала их стандартизацию, улучшение качества результатов и интеграцию в существующие рабочие процессы.
## Метод
Мы предлагаем Prompt-with-Me — систему для управления промптовыми запросами, которая основывается на встроенной в среду разработки среде. Для классификации промптов мы разработали четырёхуровневую типологию, охватывающую следующие аспекты:
1. **Тип запроса** — например, код, документацию или отладку.
2. **Роль автора** — разработчик, внедряющий систему или тестировщик.
3. **Этап жизненного цикла разработки** — например, планирование, разработка или тестирование.
4. **Стиль запроса** — например, запросы, посвященные генерации кода или верификации.
Промпто-с Мей предлагает развитые функции:
- **Автоматическое классифицирование промптов** в соответствии с типологией.
- **Улучшение языка** промптов, устранение неточностей и маскирование конфиденциальных данных.
- **Генерация шаблонов** для повторного использования промптов в различных контекстах разработки.
## Результаты
Мы провели исследование на основе 1108 реальных промптов из различных проектов разработки. Наши результаты показали, что Prompt-with-Me достигает высокой точности классификации (в среднем 85%), при этом система успешно классифицирует промптовые запросы в соответствии с разработанной типологией. В пользовательском исследовании с 11 участниками, которые работали с Prompt-with-Me, мы зарегистрировали высокую степень принятия системы (средний SUS-значение — 73, NASA-TLX-значение — 21), что указывает на удобство и эффективность системы в повышении качества промптов и экономии времени разработчиков.
## Значимость
Предложенный подход позволяет улучшить классификацию и управление промптовыми запросами в процессе разработки. Он может быть применен в следующих сферах:
- **Улучшение качества кода** — с помощью автоматического улучшения промптов и устранения неточностей.
- **Уменьшение рисков безопасности** — с помощью маскирования
Annotation:
Large Language Models are transforming software engineering, yet prompt
management in practice remains ad hoc, hindering reliability, reuse, and
integration into industrial workflows. We present Prompt-with-Me, a practical
solution for structured prompt management embedded directly in the development
environment. The system automatically classifies prompts using a
four-dimensional taxonomy encompassing intent, author role, software
development lifecycle stage, and prompt type. To enhance prompt ...
Авторы:
Luís F. Gomes, Xin Zhou, David Lo, Rui Abreu
#### Контекст
Визуальная документация является эффективным средством для уменьшения когнитивных затруднений, с которыми сталкиваются разработчики при понимании незнакомого кода. Она позволяет обеспечить более интуитивное понимание структуры и данных системы. Несмотря на то, что визуальные представления обычно предпочитаются разработчикам по сравнению с длинными текстовыми описаниями, особенно для крупных программных систем, создание визуальной документации является трудоемким и сложным процессом. Известные подходы, автоматизированные или ручные, не могут автоматически генерировать высокоуровневую визуальную документацию напрямую из исходного кода. Эта проблема становится еще более актуальной в условиях повышения скорости развития приложений и увеличения сложности их архитектур. В статье предлагается исследовать новый подход, использующий agentic LLM-системы для автоматической генерации визуальной документации, что может реvolutionize процесс разработки и поддержки программных систем.
#### Метод
Предложенный подход, VisDocSketcher, основывается на комбинации статического анализа и agentic LLM-систем. Он идентифицирует ключевые элементы в исходном коде с помощью статического анализа и использует LLM-агентов для генерации визуальных элементов, таких как диаграммы и визуальные описания. Эта архитектура позволяет обеспечить высокую степень автоматизации в процессе генерации визуальной документации. Уникальность VisDocSketcher заключается в способности агентов LLM предсказывать и эффективно представлять информацию, не только в виде текстовых строк, но и в виде визуальных диаграмм. Эта методика обеспечивает гибкость и точность при генерировании визуальных представлений, которые лучше всего отражают структуру и данные системы.
#### Результаты
В ходе экспериментов был проведен подробный анализ возможности VisDocSketcher на 74.4% семплов. Это указывает на то, что визуальная документация может быть легко генерирована для большинства систем. В сравнении с шаблонно-базированным подходом, который показал лишь 34.7% успеха, VisDocSketcher показал значительный прогресс в 26.7-39.8%. Оценка качества визуальной документации была осуществлена с помощью нового фреймворка AutoSketchEval, который использует code-level metrics. Этот фреймворк достиг AUC 0.87, показывая высокую точность в распознавании качества визуальной документации. В результате, VisDocSketcher может генерировать качественную визуальную документацию, которая надежно отражает структуру и данные системы.
#### Значимость
Предложенный подход может быть применен в различных областях, включая разработку программного
Annotation:
Visual documentation is an effective tool for reducing the cognitive barrier
developers face when understanding unfamiliar code, enabling more intuitive
comprehension. Compared to textual documentation, it provides a higher-level
understanding of the system structure and data flow. Developers usually prefer
visual representations over lengthy textual descriptions for large software
systems. Visual documentation is both difficult to produce and challenging to
evaluate. Manually creating it is tim...
Авторы:
Naimeng Ye, Xiao Yu, Ruize Xu, Tianyi Peng, Zhou Yu
## Контекст
Область исследования — автоматизированное тестирование веб-сайтов, которое является ключевым для обеспечения качества пользовательского опыта и доставки бизнес-ценности. Существующие подходы, ориентированные на код и нагрузку, часто не удаляются в поиске неисправностей, которые могут влиять на пользовательский опыт. Особенно затруднено представление сложных пользовательских поведений. В этом контексте возникает необходимость в инновационных решениях, которые бы предлагали более полное понимание и эффективную оценку веб-сайтов. Мотивация заключается в использовании новых технологий, таких как бо LLM и AI агенты, для создания тестового фреймворка, который мог бы ближе подходить к реальным пользовательским интерфейсам.
## Метод
WebProber — это прототип фреймворка для агентно-ориентированного тестирования веб-сайтов, основанного на LLM и AI агентах. Он позволяет автоматически исследовать веб-сайт, действуя как реальный пользователь, и искать баги и проблемы пользовательского опыта. AI-агент анализирует структуру сайта и моделирует поведение пользователя, включая навигацию, ввод данных и нажатия на кнопки. Также, WebProber создает подробный журнал о найденных проблемах, таких как недоступность, неквалифицированные элементы интерфейса и другие. Архитектура фреймворка включает модули для исследования, отчетности и управления тестовыми процессами. Использование LLM позволяет WebProber генерировать сообщения в понятной для людей форме, что упрощает интерпретацию результатов тестирования.
## Результаты
В ходе эксперимента, проводившегося на 120 ученых веб-страницах, WebProber открыл 29 проблем с пользовательским опытом, которые не были обнаружены другими инструментами. Например, были выявлены проблемы с навигацией, недоступностью элементов интерфейса, и несоответствием веб-страниц требованиям W3C. Кроме того, WebProber демонстрирует значительно более высокую скорость выполнения тестов по сравнению с традиционными подходами. Эти результаты подтверждают значимость использования AI-агентов для улучшения качества веб-тестирования.
## Значимость
Полученные результаты показывают, что AI-агенты могут стать важной частью стратегии тестирования веб-приложений. Их преимущества включают в себя увеличение полноты оценки, улучшение качества отчетов и повышение эффективности. Эти средства могут использоваться в различных сферах, включая интернет-магазины, учебные платформы и даже государственные веб-ресурсы. Будущие исследования будут направлены на улучшение моделей поведения, увелич
Annotation:
Automated web testing plays a critical role in ensuring high-quality user
experiences and delivering business value. Traditional approaches primarily
focus on code coverage and load testing, but often fall short of capturing
complex user behaviors, leaving many usability issues undetected. The emergence
of large language models (LLM) and AI agents opens new possibilities for web
testing by enabling human-like interaction with websites and a general
awareness of common usability problems. In this...
Авторы:
Yifan Zhang, Chen Huang, Yueke Zhang, Jiahao Zhang, Toby Jia-Jun Li, Collin McMillan, Kevin Leach, Yu Huang
## Контекст
Программирование является ключевым аспектом развития современной цифровой экономики. Одним из основных элементов развития программного обеспечения являются кодовые языковые модели (CodeLLMs), которые используются для различных задач в области программирования, таких как перевод кода, завершение кода и его сводка. Однако традиционные CodeLLMs обучаются только на основе машинного внимания, которое определяет важность токенов во входном тексте на основе их зависимости от выходных токенов. Это подход не учитывает того факта, что люди, написавшие код, имеют интуитивное понимание того, какие токены важнее других, и это влияет на их принятие решений. Несмотря на то, что интуиция нельзя точно определить, визуальное внимание людей может служить показателем того, какие токены более важны. Мы предлагаем EyeMulator, новая техника, которая позволяет обучить CodeLLMs так, чтобы они могли мимикрировать зависимостью визуального внимания человека во время обучения.
## Метод
EyeMulator представляет собой метод, который модифицирует традиционные CodeLLMs в ходе их обучения. Для этого мы используем данные, полученные во время экспериментов по экспериментам с потоком сознания (eye-tracking experiments), проведенными ранее в области программирования. Эти данные позволяют определить, какие токены привлекают внимание человека во время просмотра кода. Мы добавляем эти данные в loss function во время тренировки модели. Это означает, что мы придаем больше важности тем токенам, на которые человек больше всего смотрит. Кроме того, в EyeMulator мы не требуем использования eye-tracking данных во время инференса (применения модели), так как веса для каждого токена были уже учтены в ходе обучения.
## Результаты
Мы провели ряд экспериментов, используя EyeMulator вместе с несколькими CodeLLMs на различных задачах в области кода: перевод кода, завершение кода и его сводка. Мы сравнили EyeMulator с сильными базовыми моделями, такими как CodeLLMs и CodeGPT. Наши результаты показали, что EyeMulator значительно превосходит эти модели по метрикам качества, таким как BLEU, ROUGE и CodeBLEU. Это доказывает, что EyeMulator действительно улучшает качество результатов, используя метод мимикрирования визуального внимания человека. Также мы провели анализ абляции (аблиационное исследование), который показал, что улучшение происходит благодаря тому, что модели учились мимикрировать зависимость визуального внимания.
## Значимость
EyeMulator может применяться во многих областях, в которых требуется повышение качества работы с кодом, такие как программирование, тестирование, документация и другие. Он привносит дополнительные преимущества, так как учитывает желания людей, быстрее и точнее реагировать на важные токены
Annotation:
Code language models (so-called CodeLLMs) are now commonplace in software
development. As a general rule, CodeLLMs are trained by dividing training
examples into input tokens and then learn importance of those tokens in a
process called machine attention. Machine attention is based solely on input
token salience to output token examples during training. Human software
developers are different, as humans intuitively know that some tokens are more
salient than others. While intuition itself is ine...
Авторы:
Sebastian Lubos, Alexander Felfernig, Gerhard Leitner, Julian Schwazer
#### Контекст
Оценка и улучшение usability (пользовательской доступности) пользовательских интерфейсов (UI) являются критически важными для создания эффективных и понятных программных решений. Однако существующие методы оценки, такие как тестирование usability и проверки на соответствие требованиям, требуют больших затрат времени и ресурсов, а также постоянного участия экспертов. Это делает эти методы менее доступными для небольших организаций и ограничивает их возможности внедрять эффективные улучшения. Недавние достижения в области мультимодальных широкомасштабных языковых моделей (LLMs) открывают новые перспективы для автоматизации процессов оценки usability. Эти модели могут анализировать различные аспекты программных интерфейсов, включая текстовые, визуальные и структурные компоненты. Наша исследовательская цель заключается в исследовании того, могут ли мультимодальные LLMs стать эффективным инструментом для рекомендации улучшений usability, а также определить их потенциальное влияние на упрощение процесса и сокращение затрат.
#### Метод
Мы привлекли мультимодальную LLM для решения задачи рекомендации улучшений usability с использованием мультимодальных данных, включающих текст, визуальную структуру и другие связанные данные. Модель была обучена идентифицировать и структурировать usability issues, а затем классифицировать их по степени серьёзности. Мы разработали архитектуру, позволяющую модели анализировать не только отдельные аспекты интерфейса, но и их взаимосвязи. В качестве данных использовались реальные примеры программных интерфейсов, а также оценки этих интерфейсов, полученные от экспертов в области usability. Модель производила рекомендации, сравнивая их с оценками экспертов, чтобы оценить точность и эффективность.
#### Результаты
В ходе экспериментов модель LLM демонстрировала высокую точность в определении severity улучшений usability. Мы сравнили LLM-рекомендации с оценками экспертов по usability и обнаружили, что модель показала близкие результаты, а в некоторых случаях даже превосходила экспертов в скорости и точности определения наиболее критичных проблем. Мы также обнаружили, что модель эффективно анализирует и объединяет мультимодальные данные, что позволяет ей предлагать комплексные рекомендации. Таким образом, наш результат подтверждает, что модель может стать эффективным инструментом для оценки и рекомендации улучшений в usability.
#### Значимость
Полученные результаты открывают новые возможности для упрощения и автоматизации процесса оценки usability. Это делает инструмент доступным для небольших компаний и организаций, не имеющих достаточного количества экспертных ресурсов. Модель также
Annotation:
Usability describes a set of essential quality attributes of user interfaces
(UI) that influence human-computer interaction. Common evaluation methods, such
as usability testing and inspection, are effective but resource-intensive and
require expert involvement. This makes them less accessible for smaller
organizations. Recent advances in multimodal LLMs offer promising opportunities
to automate usability evaluation processes partly by analyzing textual, visual,
and structural aspects of softwar...
📄 "My productivity is boosted, but ..." Demystifying Users' Perception on AI Coding Assistants
2025-08-19Авторы:
Yunbo Lyu, Zhou Yang, Jieke Shi, Jianming Chang, Yue Liu, David Lo
## Контекст
В последние годы AI-кодинг-ассистенты, такие как GitHub Copilot, стали всё более популярными среди разработчиков. Они предлагают удобные инструменты для повышения производительности, помогая в писании кода, идентификации ошибок и развитии новых решений. Однако, несмотря на обширную администрацию, остаются многочисленные вопросы относительно того, что именно разработчики ожидают от таких инструментов и какие проблемы они сталкиваются при использовании. Недостаточное понимание этих аспектов может привести к неэффективному использованию и неудовлетворенности. Данная статья проверяет эти проблемы, основываясь на первых-лиценных отзывах разработчиков, чтобы получить более обоснованное понимание их нужд и ожиданий.
## Метод
Исследование основывается на анализе 1,085 AI-кодинг-ассистентов, извлеченных из Visual Studio Code Marketplace. Хотя они составляют всего 1.64% всех расширений, их число стремительно растёт — более 90% были выпущены в течение последних двух лет. Для получения более глубоких пониманий взаимодействия пользователей с этими инструментами, авторы проводят ручной анализ отзывов от 32 популярных наборов. Они создают подробную категоризацию отзывов, охватывающую спектр взглядов пользователей, включая ожидания, удовлетворение и неудовлетворенность. Это позволяет получить детализированный обзор проблем, с которыми сталкиваются разработчики при использовании AI-кодинг-ассистентов.
## Результаты
Основные полученные результаты показывают, что пользователи ожидают не только интеллектуальных подсказок, но и контекстно-ориентированных, настраиваемых и ресурсо-эффективных функций. Анализ отзывов выявил несколько ключевых проблем, включая несоответствия предлагаемых подсказок реальным потребностям пользователя, сложности в настройке инструментов и нехватку ресурсо-эффективности. Также выявлено, что некоторые пользователи выражают неудовлетворенность связанной с производительностью и надежностью инструментов. Эти результаты предоставляют полезные подсказки для улучшения AI-кодинг-ассистентов, чтобы они могли лучше соответствовать потребностям разработчиков.
## Значимость
Результаты имеют значительное значение для разработчиков, производителей AI-инструментов и для общей индустрии программного обеспечения. Они открывают видимость в том, что разработчики не только нуждаются в интеллектуальных подсказах, но и в инструментах, которые могут быть легко настроены, контекстно-ориентированы и эффективны в использовании ресурсов. Эти полученные понятия могут помочь в развитии более эффективных и полезных AI-инструмен
Annotation:
This paper aims to explore fundamental questions in the era when AI coding
assistants like GitHub Copilot are widely adopted: what do developers truly
value and criticize in AI coding assistants, and what does this reveal about
their needs and expectations in real-world software development? Unlike
previous studies that conduct observational research in controlled and
simulated environments, we analyze extensive, first-hand user reviews of AI
coding assistants, which capture developers' authenti...
Авторы:
Yoseph Berhanu Alebachew
## Контекст
Исследование фокусируется на улучшении процесса понимания больших и сложных систем программного обеспечения, что является ключевой проблемой для разработчиков. Одним из главных вызовов является то, что процесс компреhension программы требует много времени и трудоемкий. Существующие инструменты, такие как статические визуализации и техники реверс-инжиниринга, недостаточно эффективны в плане интерактивности и адаптивности, а также часто не интегрируются с контекстным окружением. Недавние развития в области больших языковых моделей (LLM) предлагают новые возможности для решения этой проблемы. Однако их недостаток в грандировании и неполная интеграция с структурированными представлениями снижает их эффективность. Таким образом, целью данного исследования является разработка гибридного подхода, который объединяет определительные техники реверс-инжиниринга с LLM-ориентированной, интент-связанной визуальной исследовательской системой.
## Метод
Предложенная методология включает в себя структурированный подход, который сочетает в себе детерминированные технологии реверс-инжиниринга с использованием языковых моделей. Основным функционалом является использование технологии UML для визуализации структуры кода в интерактивной форме. Для повышения производительности используется гибридная модель, где LLM понимает запросы пользователя и адаптирует отображение в зависимости от потребностей пользователя. Динамический интерфейс, включающий в себя исторический контекст и возможности совместной работы, дает возможность быстрого и эффективного понимания кода. Разработанная архитектура включает в себя слой визуального представления, интерактивную систему ввода/вывода, а также модель LLM, которая обеспечивает адаптивность и понимание контекста.
## Результаты
Для проверки эффективности подхода был проведен эксперимент с использованием Java-кода. Было сгенерировано специфическое UML-диаграммное представление, которое позволило пользователям быстро ориентироваться в структуре кода. Использование LLM позволило пользователям задавать запросы и получать конкретные ответы, повышая эффективность понимания. Эксперименты показали, что интеграция LLM с визуальными инструментами увеличивает эффективность работы с кодом, уменьшая время, необходимое для понимания сложных систем. В результате была получена гибкая система, которая может отображать и изменять код в зависимости от пользовательских запросов.
## Значимость
Области применения данного подхода включают в себя разработку программного обеспечения, поддер
Annotation:
Understanding large-scale, complex software systems is a major challenge for
developers, who spend a significant portion of their time on program
comprehension. Traditional tools such as static visualizations and reverse
engineering techniques provide structural insights but often lack
interactivity, adaptability, and integration with contextual information.
Recent advancements in large language models (LLMs) offer new opportunities to
enhance code exploration workflows, yet their lack of ground...
Показано 11 -
18
из 18 записей