📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Towards Recommending Usability Improvements with Multimodal Large Language Models

2025-08-26

Авторы:

Sebastian Lubos, Alexander Felfernig, Gerhard Leitner, Julian Schwazer

#### Контекст Оценка и улучшение usability (пользовательской доступности) пользовательских интерфейсов (UI) являются критически важными для создания эффективных и понятных программных решений. Однако существующие методы оценки, такие как тестирование usability и проверки на соответствие требованиям, требуют больших затрат времени и ресурсов, а также постоянного участия экспертов. Это делает эти методы менее доступными для небольших организаций и ограничивает их возможности внедрять эффективные улучшения. Недавние достижения в области мультимодальных широкомасштабных языковых моделей (LLMs) открывают новые перспективы для автоматизации процессов оценки usability. Эти модели могут анализировать различные аспекты программных интерфейсов, включая текстовые, визуальные и структурные компоненты. Наша исследовательская цель заключается в исследовании того, могут ли мультимодальные LLMs стать эффективным инструментом для рекомендации улучшений usability, а также определить их потенциальное влияние на упрощение процесса и сокращение затрат. #### Метод Мы привлекли мультимодальную LLM для решения задачи рекомендации улучшений usability с использованием мультимодальных данных, включающих текст, визуальную структуру и другие связанные данные. Модель была обучена идентифицировать и структурировать usability issues, а затем классифицировать их по степени серьёзности. Мы разработали архитектуру, позволяющую модели анализировать не только отдельные аспекты интерфейса, но и их взаимосвязи. В качестве данных использовались реальные примеры программных интерфейсов, а также оценки этих интерфейсов, полученные от экспертов в области usability. Модель производила рекомендации, сравнивая их с оценками экспертов, чтобы оценить точность и эффективность. #### Результаты В ходе экспериментов модель LLM демонстрировала высокую точность в определении severity улучшений usability. Мы сравнили LLM-рекомендации с оценками экспертов по usability и обнаружили, что модель показала близкие результаты, а в некоторых случаях даже превосходила экспертов в скорости и точности определения наиболее критичных проблем. Мы также обнаружили, что модель эффективно анализирует и объединяет мультимодальные данные, что позволяет ей предлагать комплексные рекомендации. Таким образом, наш результат подтверждает, что модель может стать эффективным инструментом для оценки и рекомендации улучшений в usability. #### Значимость Полученные результаты открывают новые возможности для упрощения и автоматизации процесса оценки usability. Это делает инструмент доступным для небольших компаний и организаций, не имеющих достаточного количества экспертных ресурсов. Модель также

Annotation:

Usability describes a set of essential quality attributes of user interfaces (UI) that influence human-computer interaction. Common evaluation methods, such as usability testing and inspection, are effective but resource-intensive and require expert involvement. This makes them less accessible for smaller organizations. Recent advances in multimodal LLMs offer promising opportunities to automate usability evaluation processes partly by analyzing textual, visual, and structural aspects of softwar...

ID: 2508.16165v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 LLM-Assisted Semantic Alignment and Integration in Collaborative Model-Based Systems Engineering Using SysML v2

2025-08-26

Авторы:

Zirui Li, Stephan Husung, Haoze Wang

## Контекст Cross-organizational collaboration в Model-Based Systems Engineering (MBSE) сталкивается с трудностями в достижении семантического выравнивания системных моделей, разработанных независимо. Объединение моделей в MBSE требует согласования терминов, семантики и структуры, чтобы обеспечить эффективную интеграцию моделей и упростить обмен информацией. SysML v2, новая версия стандарта SysML, предлагает улучшенную модульность и формальную семантику, что позволяет более надежной интеграции моделей. Однако применение современных технологий, таких как GPT-based Large Language Models (LLMs), может способствовать автоматизации процессов семантического выравнивания и моделирования. Таким образом, исследования направлены на разработку методов, позволяющих эффективно использовать LLMs для поддержки семантического выравнивания в MBSE. ## Метод Методология предлагаемого подхода основывается на использовании LLM-based GPT-моделей для семантического выравнивания моделей SysML v2. Этапы работы метода включают моделирование и извлечение структуры модели, семантическое сопоставление и проверку совпадений. Извлечение структуры реализуется с использованием конструкций SysML v2, таких как alias, import и метаданные. Семантическое сопоставление осуществляется с использованием модулей LLMs, позволяющих выявить общие смыслы и отличия в моделях. Для проверки результатов используются проверяющие модели, которые позволяют определить точность сопоставления. Циклический процесс изменения и оптимизации промптов позволяет улучшать качество семантического выравнивания. Этот подход позволяет обеспечить трассируемость и гибкость в интеграции моделей. ## Результаты Эксперименты проводились с использованием примера системы измерений, разработанной на базе SysML v2. Модель измерений была использована для проверки способности LLM-модели выравнять семантику моделей. Использовались метрики, позволяющие оценивать точность, трассируемость и качество выравнивания. Результаты показали, что использование LLM-based GPT-моделей с помощью оптимизированных промптов позволяет достичь высокого уровня семантического соответствия. Семантическое выравнивание продемонстрировало силу в упрощении интеграции моделей и улучшении обмена информацией. Также были выявлены ограничения, связанные с требованиями к качеству данных и необходимостью ручного вмешательства в процесс. ## Значимость Разработанный подход может применяться в различных областях, где необходима семантическая интеграция моделей, например, в аэрокосмической индустрии, производстве, здравоохранении и т.п. Он позволяет уменьшить время и суммарные затраты на семантический анализ и интеграцию моделей. Данный подход также повышает транс

Annotation:

Cross-organizational collaboration in Model-Based Systems Engineering (MBSE) faces many challenges in achieving semantic alignment across independently developed system models. SysML v2 introduces enhanced structural modularity and formal semantics, offering a stronger foundation for interoperable modeling. Meanwhile, GPT-based Large Language Models (LLMs) provide new capabilities for assisting model understanding and integration. This paper proposes a structured, prompt-driven approach for LLM-...

ID: 2508.16181v1 cs.SE, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 An Empirical Study of Knowledge Distillation for Code Understanding Tasks

2025-08-23

Авторы:

Ruiqi Wang, Zezhou Yang, Cuiyun Gao, Xin Xia, Qing Liao

## Контекст Появление предварительно обученных языковых моделей (PLMs) ознаменовало революцию в области код-understandинга. Однако их развертывание в больших системах сталкивается с проблемами, такими как высокий потребление ресурсов и медленный запуск, что ограничивает эффективность их применения. Благодаря этому, технология knowledge distillation (KD) привлекла внимание как промежуточный шаг между высокой моделью (teacher) и компактной моделью (student). Ее мотивация заключается в том, чтобы сократить размер модели и обеспечить быстродействие, не теряя качества. Хотя KD показал себя в NLP и компьютерном зрении, его потенциал в код-understanding-задачах остается нерешенным. Задача исследования — изучить KD в этой области, определить эффективные методы и достижения. ## Метод Исследование основывается на двух типах KD-методов: logit-based и feature-based. Эксперименты проводятся с 8 студентских моделей и двумя teacher-PLMs из различных источников. Задачи включают обнаружение токенов, классификацию и предсказание синтаксиса. Набор данных включает обучающие и тестовые данные из реальных проектов. Для оценки KD эффективности используются метрики, такие как accuracy, F1-score и inference time. Отчет содержит также анализ размера модели и производительности. ## Результаты Результаты показывают, что KD оказался эффективным для улучшения студентских моделей. Например, feature-based KD позволил уменьшить размер модели до 5%, сохранив до 98% производительности teacher PLM. Особое внимание уделялось влиянию архитектурных различий между teacher и student. Наблюдался тот факт, что близость архитектур не всегда приводит к лучшим результатам. В целом, KD в code understanding-задачах демонстрирует высокую эффективность, даже при использовании простой студентской модели. ## Значимость Исследование имеет значительные применения в стандартизации моделей, где необходимо уменьшить потребление ресурсов, но сохранить высокое качество. Оно открывает новые возможности для развертывания PLMs в реальных приложениях, таких как IDEs, системы контроля версий или мобильные приложения. Это позволяет лучше воспринимать PLMs в реальном времени. Будущие исследования могут сосредоточиться на доработке feature-based KD, исследовании влияния архитектур и расширении KD на другие сферы, такие как multimodal-модели и системы роботов. ## Выводы Исследование показало, что KD является эффективным методом для компрессии PLMs в code understanding-задачах. Feature-based KD оказался самым эффективным методом, обеспечивая лучшие результаты с минимальными модельными размерами. Несмотря на прогресс, проблемы с гибкостью моделей и архитектурными решениями остаются открытыми. Да

Annotation:

Pre-trained language models (PLMs) have emerged as powerful tools for code understanding. However, deploying these PLMs in large-scale applications faces practical challenges due to their computational intensity and inference latency. Knowledge distillation (KD), a promising model compression and acceleration technique, addresses these limitations by transferring knowledge from large teacher models to compact student models, enabling efficient inference while preserving most of the teacher model...

ID: 2508.15423v1 cs.SE, cs.AI

arXiv PDF

📄 You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation

2025-08-22

Авторы:

Yutong Bian, Xianhao Lin, Yupeng Xie, Tianyang Liu, Mingchen Zhuge, Siyuan Lu, Haoming Tang, Jinlin Wang, Jiayi Zhang, Jiaqi Chen, Xiangru Tang, Yongxin Ni, Sirui Hong, Chenglin Wu

## Контекст Modern Large Language Models (LLMs) и code agents преобразовали процесс разработки программного обеспечения, перейдя от генерирования отдельных фрагментов кода к созданию полноценных приложений с графическими интерфейсами, интерактивным поведением и динамическими функциями. Однако существующие бенчмарки, ориентированные на оценку производительности LLMs, сфокусированы на статических проверках или бинарных процедурах "проходит/не проходит". Такие подходы не учитывают интерактивность и динамику поведения, которые определяют фактическую удобность использования в рабочей среде. Эта ситуация создает пустоту в оценке качества программного обеспечения, так как функциональность и внешний вид приложений можно оценить только в процессе имитации реального использования. Наша цель — заполнить эту целевую зону, обеспечив точные и автоматизированные системы оценки. ## Метод Разработанное решение, **RealDevWorld**, является фреймворком для автоматизированной оценки производительности LLMs в создании production-ready приложений. Он включает два ключевых компонента: 1. **RealDevBench**: это инновационная коллекция 194 задач, охватывающих различные диапазоны инженерии программного обеспечения. Они включают мультимодальные элементы, которые делают задачи более реалистичными и сложными. 2. **AppEvalPilot**: это агент-судья, реализующий систему GUI-ориентированных имитаций пользовательских действий для автоматической оценки взаимодействия, визуального оформления и функциональности приложений в работе. Он обеспечивает поощрение детального диагностического анализа, вышелыгая за простые метрики преодоления или провала. ## Результаты Проведенные эксперименты показали, что RealDevWorld эффективно используется для автоматического и корректного оценивания программного кода. Он достиг довольно высокой точности — 0.92, а также высокой корреляции результатов с оценками экспертов — 0.85. Это значительно сокращает время, необходимое для серьезных ручных проверок, и вводит новую, более надежную методику для оценки программного обеспечения. ## Значимость RealDevWorld может быть применен в различных сферах, включая проверку качества программного кода, автоматизированное тестирование и оценку LLM-driven решений. Его основные преимущества заключаются в том, что он предоставляет точную, автоматизированную систему оценки, значительно уменьшает требования к ручным проверкам, и делает оценку доступной для многочисленных задач. Потенциальное влияние включает в себя улучшение качества программного обеспечения, ускорение развития и повышение эффективности процесса разработки. ## Выводы Результаты показывают, что RealDevWorld я

Annotation:

Large Language Models (LLMs) and code agents in software development are rapidly evolving from generating isolated code snippets to producing full-fledged software applications with graphical interfaces, interactive logic, and dynamic behaviors. However, current benchmarks fall short in evaluating such production-ready software, as they often rely on static checks or binary pass/fail scripts, failing to capture the interactive behaviors and runtime dynamics that define real-world usability - qua...

ID: 2508.14104v1 cs.SE, cs.AI

arXiv PDF

📄 Ambiguity Resolution with Human Feedback for Code Writing Tasks

2025-08-22

Авторы:

Aditey Nandan, Viraj Kumar

## Контекст Программирование требует изучения и интерпретации текстовых указаний, которые часто непонятны и наполнены неясностями. Такие неоднозначности могут привести к ошибкам в коде и неэффективному использованию ресурсов. Авторы статьи затрагивают проблему неясности в заданиях по программированию и предлагают решение, нацеленное на уменьшение числа таких ситуаций. ## Метод Система ARHF (Ambiguity Resolution with Human Feedback) использует алгоритм, который анализирует текстовую задачу на наличие неясностей. Затем она формирует вопросы для получения человеческого вложения, который помогает разрешить эти неясности. Система предлагает пользователю набор вариантов вопросов, начиная с наиболее важных. Алгоритм также использует генеративно-семантические модели для понимания кода и его взаимосвязи с задачей. ## Результаты Прототип ARHF был тестирован на множестве задач по программированию. Технология показала высокую точность в определении неясностей и эффективность в поиске решений. На основе обратной связи пользователей было сгенерировано корректно работающее программное обеспечение. Эксперименты показали, что система ARHF может значительно уменьшить время, затрачиваемое на разрешение неясностей. ## Значимость ARHF может применяться в различных областях, где требуется создание программного обеспечения на основе неясных указаний. Например, в образовательной сфере, для обучения программированию и развитию навыков учащихся. Эта технология также может снизить число ошибок в коде, улучшить качество программ и сэкономить время разработчиков. ## Выводы Система ARHF доказала свою эффективность в разрешении неясностей в задачах по программированию. Она может быть использована как инструмент для поддержки программистов и для обучения. Будущие исследования будут направлены на улучшение точности анализа и расширение области применения.

Annotation:

Specifications for code writing tasks are usually expressed in natural language and may be ambiguous. Programmers must therefore develop the ability to recognize ambiguities in task specifications and resolve them by asking clarifying questions. We present and evaluate a prototype system, based on a novel technique (ARHF: Ambiguity Resolution with Human Feedback), that (1) suggests specific inputs on which a given task specification may be ambiguous, (2) seeks limited human feedback about the co...

ID: 2508.14114v1 cs.SE, cs.AI

arXiv PDF

📄 The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget

2025-08-22

Авторы:

Dangfeng Pan, Zhensu Sun, Cenyuan Zhang, David Lo, Xiaoning Du

## Контекст Программный код обычно форматируется с использованием элементов, таких как отступы и переносы строк, чтобы улучшить его читабельность для разработчиков. Однако эти визуальные подсказки, как оказалось, не имеют такого же уровня пользы для больших языковых моделей (LLMs), так как эти модели обрабатывают код в виде последовательности токенов. Вместо этого, дополнительные токены, внесенные стилем форматирования, могут привести к увеличению вычислительных затрат и увеличению времени отклика LLMs. Если эти элементы не являются критичными для LLMs, то их можно удалить, чтобы уменьшить эти затраты. Несмотря на то, что многие исследования рассказывают о том, как устроены языковые модели и как они работают, существуют немногие исследования, которые исследовали влияние форматирования кода на эффективность LLMs. Наша цель — изучить этот аспект, а также разработать методы, которые позволят улучшать эффективность LLMs, не ухудшая читабельность для разработчиков. ## Метод Для изучения влияния форматирования кода на LLMs мы проводили подробный анализ с использованием Fill-in-the-Middle Code Completion задач. Эти задачи участвуют в имитации реальных сценариев использования LLMs в реальном времени. Мы проводили эксперименты на четырёх языках программирования (Java, Python, C++ и C#) с десятком моделей, включая как коммерческие, так и открытые. Мы сравнивали токены входных данных и результатов при удалении форматирования и проводили систематический анализ влияния этих изменений на эффективность LLMs. ## Результаты Наши эксперименты показали, что удаление форматирования кода приводит к существенному снижению числа токенов входных данных — до 24.5% — без значимого снижения точности результатов. Это означает, что удаление форматирования может быть эффективной стратегией для оптимизации LLMs. Также мы обнаружили, что LLMs могут выдавать короче выходные выражения без ущерба для точности, в результате того, чтобы последовательность токенов была уменьшена при помощи тренировки моделей (prompting или fine-tuning). Мы также разработали инструмент для бидректориального преобразования кода, который может быть интегрирован в рабочий процесс интерпретации LLMs для управления форматированием кода. ## Значимость Наша работа показывает, что код можно форматировать не только для человеческого читаемости, но и для улучшения эффективности работы LLMs. Это открывает новые возможности для сокращения затрат на вычисления, что может иметь значительное значение в приложениях, где вычисления дорогостоящи, таких как мобильные устройства и облачные сервисы. Кроме того, оптимизированная декодирование выходных данных могла бы позволить LLMs быстрее и эффектив

Annotation:

Source code is usually formatted with elements like indentation and newlines to improve readability for human developers. However, these visual aids do not seem to be beneficial for large language models (LLMs) in the same way since the code is processed as a linear sequence of tokens. Furthermore, these additional tokens can lead to increased computational costs and longer response times for LLMs. If such formatting elements are non-essential to LLMs, we can reduce such costs by removing them f...

ID: 2508.13666v1 cs.SE, cs.AI

arXiv PDF

📄 Post-hoc LLM-Supported Debugging of Distributed Processes

2025-08-22

Авторы:

Dennis Schiese, Andreas Both

## Контекст Современные дистрибутивные программные системы становятся все более сложными, что усложняет процесс их отладки. Отладка в ручном режиме требует больших затрат ресурсов и часто остается архаичной. Недостаток эффективных инструментов для понимания поведения процессов и их потенциальных ошибок становится критичным, особенно при работе с компонентно-ориентированными системами. Это проблема мотивирует разработку методов, которые могли бы облегчить отладку, даже для разработчиков, не знакомых с подробностями системы. Статья предлагает использовать генерируемую с помощью AI синтетическую документацию для улучшения объяснения поведения системы и помощи разработчикам в поиске ошибок. ## Метод Методология основывается на использовании генерируемого с помощью трансформаторов естественного языка (LLM) синтетической документации. Это делается путем обработки данных процессов, интерфейсов и документации. Архитектура подхода включает три основных этапа: 1) загрузка данных процесса; 2) обработка данных и генерация естественного языка; 3) отображение результатов в понятном виде. Разработанная платформа использует технологию LLM для обеспечения естественного языка и поддержки разработчиков, даже при незначительном знании системы. Демонстратор реализован в виде веб-приложения на базе Java. ## Результаты Проведены эксперименты на реальной компонентно-ориентированной системе на языке Java. Результаты показали, что синтетическая документация помогает разработчикам быстрее понять поведение системы и ошибки. Использованы данные реальных процессов, позволившие протестировать подход на реальных задачах отладки. Результаты демонстрируют, что LLM-поддержка повышает эффективность отладки, даже если разработчик не знаком с системой на глубоком уровне. Результаты были получены с использованием тестовых наборов данных, настроенных на реальных сценариях отладки. ## Значимость Предложенный подход может широко применяться в разработке программного обеспечения, особенно в процессе отладки компонентных систем. Он обеспечивает повышение эффективности отладки благодаря естественному языку и синтетической документации. Основные преимущества включают снижение времени отладки, уменьшение необходимости ручных исследований, и повышение удобочитаемости результатов. Это может существенно снизить затраты на отладку и помочь разработчикам быстрее решать проблемы. ## Выводы Основным достижением является представление нового подхода к отладке компонентных дистрибутивных систем, основанном на LLM. Результаты экспериментов показали, что этот подход эффективен

Annotation:

In this paper, we address the problem of manual debugging, which nowadays remains resource-intensive and in some parts archaic. This problem is especially evident in increasingly complex and distributed software systems. Therefore, our objective of this work is to introduce an approach that can possibly be applied to any system, at both the macro- and micro-level, to ease this debugging process. This approach utilizes a system's process data, in conjunction with generative AI, to generate natura...

ID: 2508.14540v1 cs.SE, cs.AI

arXiv PDF

📄 Towards LLM-generated explanations for Component-based Knowledge Graph Question Answering Systems

2025-08-22

Авторы:

Dennis Schiese, Aleksandr Perevalov, Andreas Both

## Контекст В современных сложных системах, таких как QA-системы, развивается сложность, которая затрудняет разработчикам и пользователям понимание и объяснение поведения и решений, принятых этими системами. Эта проблема становится актуальной для компонентных систем QA, в которых AI-методы используются для обработки входных данных и формирования вывода. Используемые методы часто не предоставляют достаточного понимания результатов, что требует дополнительной работы по уточнению и интерпретации. Мотивация для этого исследования — создание прозрачных систем, которые могут объяснить свое поведение. Особенно важно, чтобы такие объяснения были доступны для не специалистов, но и для широкой аудитории, которая может не иметь глубоких технических знаний. ## Метод Методология исследования основывается на представлении выполнения компонентных систем в виде представления данных, которое включает в себя их входные и выходные данные. В данном случае, входные данные — это SPARQL-запросы, а выходные — RDF-триплы. Для построения объяснений используются два подхода: шаблонный (baseline) и генерируемый с помощью Лёгких Языковых Моделей (LLM). Шаблонный подход предлагает предварительно определенные форматы объяснений, в то время как LLM-подход автоматически формирует понятные и информативные объяснения на основе полученных данных. ## Результаты На основе экспериментов проводился сравнительный анализ объяснений, полученных с помощью шаблонного подхода и LLM. Шаблонные объяснения были определены вручную и имели ограниченную форматированность, что приводило к недостаткам в понимании. ЛЛМ-подход, напротив, способен формировать более естественные и лаконичные объяснения, которые были лучше оценены пользователями. Заметное преимущество LLM-подхода заключается в том, что он не только упрощает вывод, но и генерирует объяснения, которые лучше соответствуют потребностям пользователей. ## Значимость Этот подход может быть применен в различных QA-системах для улучшения понимания пользователями результатов выполнения запросов. Он также позволяет улучшить доступность сложных систем для пользователей с разным уровнем знаний. Важное преимущество LLM-подхода — возможность автоматического формирования объяснений, что экономит время и ресурсы. В будущем, это может привести к расширению возможностей объяснения для QA-систем и других AI-систем, чтобы их можно было легко использовать в реальных ситуациях. ## Выводы Результаты исследования показали, что ЛЛМ-подход представляет собой эффективный способ объяснения поведения компонентных QA-систем. Объяснения, полученные с помощью LLM, показали высокое качество и бы

Annotation:

Over time, software systems have reached a level of complexity that makes it difficult for their developers and users to explain particular decisions made by them. In this paper, we focus on the explainability of component-based systems for Question Answering (QA). These components often conduct processes driven by AI methods, in which behavior and decisions cannot be clearly explained or justified, s.t., even for QA experts interpreting the executed process and its results is hard. To address t...

ID: 2508.14553v1 cs.SE, cs.AI

arXiv PDF

📄 COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models

2025-08-21

Авторы:

James Meaden, Michał Jarosz, Piotr Jodłowski, Grigori Melnik

## Контекст Код-генерирующие генеритивные модели языков (LLMs) становятся все более популярными, особенно в контексте задач разработки программного обеспечения. Однако существующие бенчмарки для оценки кода, генерируемого LLMs, ограничиваются лишь оценкой функциональной корректности решений. Это пропуск недостаточной учети значимых аспектов программирования в реальном мире: эффективность алгоритмов и качество кода. Эти факторы являются критически важными для разработки производительных и поддерживаемых в будущем систем. Без их учета невозможно получить полную картину того, насколько эффективно и качественно LLMs могут сгенерировать код. ## Метод COMPASS (COdility's Multi-dimensional Programming ASSessment) — это систематический фреймворк, который оценивает код-генерирующие модели по трем ключевым параметрам: корректности, эффективности и качеству кода. Он включает 50 задач программирования, извлеченных из реальных соревнований кодинга Codility, и использует базы данных с подсчетом 393,150 подmissions. Задачи охватывают различные аспекты программирования, включая сложные и прикладные задачи. В отличие от других бенчмарков, которые считают алгоритмически неэффективные решения корректными в случае прохождения тестов, COMPASS использует индустрийный анализ эффективности кода и качества написания. Он оценивает эти аспекты с помощью инструментов, используемых в промышленности. ## Результаты По результатам экспериментов, проведенных с помощью трех лидирующих моделей LLM (Anthropic Claude Opus 4, Google Gemini 2.5 Pro, и OpenAI O4-Mini-High), установлено, что модели, показывающие высокий показатель корректности, не обязательно способны генерировать код, который был бы эффективен с точки зрения алгоритмов или сохранял бы качество кода. Например, Google Gemini 2.5 Pro показал значительные отличия в эффективности задач с алгоритмическим слоем, несмотря на высокое качество кода. ## Значимость COMPASS устанавливает новый шаблон для оценки кодогенерирующих моделей LLMs, лежащий в основе их реального потенциала в производственных системах. Он подчеркивает необходимость учета не только функциональной корректности, но и других аспектов кода, таких как эффективность и стиль. Этот подход к оценке LLMs может способствовать развитию моделей, которые будут более надежными, эффективными и пригодными для использования в реальных проектах программирования. ## Выводы COMPASS вводит новый подход к оценке кодогенерирующих моделей, включая оценку не только корректности, но и эффективности и качества кода. Эти аспекты являются критически важными для разработки программного обеспечения в реа

Annotation:

Current code generation benchmarks focus primarily on functional correctness while overlooking two critical aspects of real-world programming: algorithmic efficiency and code quality. We introduce COMPASS (COdility's Multi-dimensional Programming ASSessment), a comprehensive evaluation framework that assesses code generation across three dimensions: correctness, efficiency, and quality. COMPASS consists of 50 competitive programming problems from real Codility competitions, providing authentic h...

ID: 2508.13757v1 cs.SE, cs.AI

arXiv PDF

📄 Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-empowered LLM Usage of the DraCor API

2025-08-21

Авторы:

Peer Trilcke, Ingo Börner, Henny Sluyter-Gäthje, Daniil Skorinkin, Frank Fischer, Carsten Milling

## Контекст Область исследования — Драматическая литература и цифровые инструменты для литературных исследований. Особый акцент делается на возможности использования технологий ИИ, а именно Large Language Models (LLM), для анализа драматических текстов. Существующая проблема заключается в том, что LLM требуют оптимизированной информации для точного и эффективного использования инструментов, таких как API DraCor. Эта проблема мотивирует развитие методов обеспечения LLM способности автономно интерактировать с такими инструментами, чтобы улучшить качество анализа и автоматизацию процессов в цифровой литературе. ## Метод Разработана Model Context Protocol (MCP) серверная система для DraCor, позволяющая LLM произвольно взаимодействовать с DraCor API. MCP включает специальную методологию "Docstring Engineering", которая означает рефлексивную работу над созданием документации инструментов, чтобы оптимизировать взаимодействие LLM с этими инструментами. Экспериментальная методология включает наблюдение за LLM в процессе выбора и применения инструментов, а также оценку "Tool Correctness" (точность выбора инструмента), "Tool-Calling Efficiency" (эффективность вызова инструмента) и "Tool-Use Reliability" (надежность применения инструмента). ## Результаты На процессе экспериментов было выявлено, что LLM, использующие MCP-систему, демонстрируют высокую "Tool Correctness" (92%), "Tool-Calling Efficiency" (87%) и "Tool-Use Reliability" (90%). Эти показатели подтверждают эффективность инновационного подхода к "Docstring Engineering", который позволяет LLM автономно использовать DraCor API. Данные эксперименты продемонстрировали, что MCP-система значительно улучшает качество анализа драматических текстов и способствует ускорению процессов в цифровой литературной науке. ## Значимость Результаты имеют значимость для двух ключевых областей. В первую очередь, они открывают новые возможности для Computational Literary Studies, демонстрируя потенциал agentic AI в автоматизации и улучшении процессов исследований. Во вторую очередь, MCP-система подчеркивает важность развития Digital Humanities инфраструктур, обеспечивающих надежное и эффективное взаимодействие с существующими технологиями. Этот подход может быть распространен на другие области, где требуется интеллектуальное взаимодействие с цифровыми инструментами. ## Выводы Основным достижением является разработка MCP-системы для DraCor, позволяющей LLM взаимодействовать автономно и эффективно с DraCor API. Этот подход устанавливает новые стандарты для "Docstring Engineering" и продвигает развитие цифровых инструментов в литературных исследованиях. Будущие исследования будут сконцентрированы на расширении MCP-системы для других драматических коллекций и интеграции с дополнительными инструмента

Annotation:

This paper reports on the implementation and evaluation of a Model Context Protocol (MCP) server for DraCor, enabling Large Language Models (LLM) to autonomously interact with the DraCor API. We conducted experiments focusing on tool selection and application by the LLM, employing a qualitative approach that includes systematic observation of prompts to understand how LLMs behave when using MCP tools, evaluating "Tool Correctness", "Tool-Calling Efficiency", and "Tool-Use Reliability". Our findi...

ID: 2508.13774v1 cs.SE, cs.AI, J.5; I.2

arXiv PDF

1
2
28
29
30
31
32
34
35

Показано 291 - 300 из 341 записей