📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 When Many-Shot Prompting Fails: An Empirical Study of LLM Code Translation

2025-10-22

Авторы:

Amirkia Rafiei Oskooei, Kaan Baturalp Cosdan, Husamettin Isiktas, Mehmet S. Aktas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) with vast context windows offer new avenues for in-context learning (ICL), where providing many examples ("many-shot" prompting) is often assumed to enhance performance. We investigate this assumption for the complex task of code translation. Through a large-scale empirical study of over 90,000 translations, we systematically evaluate the impact of scaling in-context examples from zero-shot to many-shot configurations of up to 625 examples, with prompts spanning from...

ID: 2510.16809v1 cs.SE, cs.AI, cs.CL, cs.PL, 68T50, 68N30, 68W40, I.2.7; D.2.7; I.2.6

arXiv PDF

📄 E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task

2025-10-18

Авторы:

Jingyao Liu, Chen Huang, Zhizhao Guan, Wenqiang Lei, Yang Deng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

E2EDev comprises (i) a fine-grained set of user requirements, (ii) {multiple BDD test scenarios with corresponding Python step implementations for each requirement}, and (iii) a fully automated testing pipeline built on the Behave framework. To ensure its quality while reducing the annotation effort, E2EDev leverages our proposed Human-in-the-Loop Multi-Agent Annotation Framework (HITL-MAA). {By evaluating various E2ESD frameworks and LLM backbones with E2EDev}, our analysis reveals a persistent...

ID: 2510.14509v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 TRUSTVIS: A Multi-Dimensional Trustworthiness Evaluation Framework for Large Language Models

2025-10-17

Авторы:

Ruoyu Sun, Da Song, Jiayang Song, Yuheng Huang, Lei Ma

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As Large Language Models (LLMs) continue to revolutionize Natural Language Processing (NLP) applications, critical concerns about their trustworthiness persist, particularly in safety and robustness. To address these challenges, we introduce TRUSTVIS, an automated evaluation framework that provides a comprehensive assessment of LLM trustworthiness. A key feature of our framework is its interactive user interface, designed to offer intuitive visualizations of trustworthiness metrics. By integrati...

ID: 2510.13106v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 Operationalizing AI: Empirical Evidence on MLOps Practices, User Satisfaction, and Organizational Context

2025-10-15

Авторы:

Stefan Pasch

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Organizational efforts to utilize and operationalize artificial intelligence (AI) are often accompanied by substantial challenges, including scalability, maintenance, and coordination across teams. In response, the concept of Machine Learning Operations (MLOps) has emerged as a set of best practices that integrate software engineering principles with the unique demands of managing the ML lifecycle. Yet, empirical evidence on whether and how these practices support users in developing and operati...

ID: 2510.09968v1 cs.SE, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

2025-10-14

Авторы:

Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Crowdsourced model evaluation platforms, such as Chatbot Arena, enable real-time evaluation from human perspectives to assess the quality of model responses. In the coding domain, manually examining the quality of LLM-generated content is extremely challenging, as it requires understanding long chunks of raw code and deliberately simulating code execution. To this end, we introduce BigCodeArena, an open human evaluation platform for code generation backed by a comprehensive and on-the-fly execut...

ID: 2510.08697v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 McMining: Automated Discovery of Misconceptions in Student Code

2025-10-14

Авторы:

Erfan Al-Hossami, Razvan Bunescu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

When learning to code, students often develop misconceptions about various programming language concepts. These can not only lead to bugs or inefficient code, but also slow down the learning of related concepts. In this paper, we introduce McMining, the task of mining programming misconceptions from samples of code from a student. To enable the training and evaluation of McMining systems, we develop an extensible benchmark dataset of misconceptions together with a large set of code samples where...

ID: 2510.08827v1 cs.SE, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

2025-10-10

Авторы:

Hyunjun Kim, Sejong Kim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce MacroBench, a code-first benchmark that evaluates whether LLMs can synthesize reusable browser-automation programs (macros) from natural-language goals by reading HTML/DOM and emitting Selenium. MacroBench instantiates seven self-hosted sites covering 681 tasks across interaction complexity and targeting difficulty. Our end-to-end protocol validates generated code via static checks, sandboxed execution, and outcome verification (DOM assertions, database snapshots), and includes a sa...

ID: 2510.04363v2 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

2025-10-08

Авторы:

Hyunjun Kim, Sejong Kim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce MacroBench, a code-first benchmark that evaluates whether LLMs can synthesize reusable browser automation programs from natural language goals by reading HTML/DOM and emitting Python with Selenium. MacroBench instantiates seven self-hosted sites: Airbnb-like, TikTok-like, Reddit-like, Instagram-like, Facebook-like, Discord-like, and Threads-like, covering 681 tasks across interaction complexity and targeting difficulty. Our end-to-end protocol validates generated code via static che...

ID: 2510.04363v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 Metamorphic Testing for Audio Content Moderation Software

2025-10-01

Авторы:

Wenxuan Wang, Yongjiang Wu, Junyuan Zhang, Shuqing Li, Yun Peng, Wenting Chen, Shuai Wang, Michael R. Lyu

## Контекст Современные аудио-центричные платформы и приложения, такие как WhatsApp и Twitter, изменили методы общения и обмена аудиоконтентом в современном обществе. Однако эти платформы часто используются для распространения вредоносного аудиоконтента, такого как ненавистная речь, обманные рекламные объявления и жестокость, что может вызвать серьезные негативные последствия, в том числе нарушения психического здоровья. Чтобы бороться с этим, разработчики и исследователи создают и развертывают средства модерации аудиоконтента. Несмотря на эти усилия, злоумышленники могут обходить модерацию, изменяя аудиоконтент подробно, например, изменяя тональность или вставляя шум. Тем не менее, эффективность современных аудио-модерационных инструментов против таких угроз остается недостаточно исследована. Для решения этих проблем мы предлагаем MTAM, фреймворк метаморфонного тестирования для аудио-контент-модерационных систем. ## Метод MTAM основывается на метаморфонном тестировании, которое применяет метаморфонные связи для генерирования тестовых случаев, которые остаются вредоносными, но с большей вероятностью провалиться модерацию. В нашем исследовании мы определили 14 метаморфонных связей на двух категориях подкрутки: Основанные на аудио-функциях и Неправильные. Тестируемым объектам были представлены 2000 аудио-клипов, применяясь к ним 14 метаморфонных отношений. MTAM используется для тестирования пяти коммерческих моделей модерации, предоставленных Gladia, Assembly AI, Baidu, Nextdata и Tencent, а также одной академической модели. ## Результаты Результаты тестирования показывают, что MTAM достигает следующих значений ошибочных находок (EFR): - 38.6% для коммерческого сервиса Gladia - 18.3% для Assembly AI - 35.1% для Baidu - 16.7% для Nextdata - 51.1% для Tencent - 45.7% для академической модели. Эти результаты указывают на высокую эффективность MTAM в обнаружении вредоносного аудиоконтента, который может провалиться модерацию. ## Значимость Исследование MTAM имеет широкие области применения в модерации аудиоконтента, борьбе с ненавистной речью и злоупотреблениями платформ. Его преимущество в том, что он может обнаруживать незаметные изменения в аудио, которые могут быть пропущены традиционными системами. Это может привести к значительному улучшению модерации контента, уменьшению вредоносных действий и повышению безопасности пользователей. ## Выводы MTAM доказал свою эффективность в обнаружении вредоносного аудиоконтента, который может провалиться модерацию, используя метаморфонные связи. Наша работа показывает, что MTAM может с

Annotation:

The rapid growth of audio-centric platforms and applications such as WhatsApp and Twitter has transformed the way people communicate and share audio content in modern society. However, these platforms are increasingly misused to disseminate harmful audio content, such as hate speech, deceptive advertisements, and explicit material, which can have significant negative consequences (e.g., detrimental effects on mental health). In response, researchers and practitioners have been actively developin...

ID: 2509.24215v1 cs.SE, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios

2025-09-30

Авторы:

Junkai Chen, Huihui Huang, Yunbo Lyu, Junwen An, Jieke Shi, Chengran Yang, Ting Zhang, Haoye Tian, Yikun Li, Zhenhao Li, Xin Zhou, Xing Hu, David Lo

#### Контекст Large language models (LLM), внедренные в код, провоцируют значительное изменение в сфере разработки программного обеспечения, автоматизируя такие задачи, как тестирование, отладка и исправление. Однако огромные возможности LLMs сопряжены с необходимостью решать проблему безопасности генерируемого ими кода. Небезопасный код может привести к значительным проблемам, таким как утечки данных, взломы и другие уязвимости. Существующие бенчмарки, ориентированные на проверку кода на безопасность, полезны, но имеют ограничения: они часто не учитывают контекст внедрения уязвимостей или используют тестовые протоколы, не полностью отражающие реальную сложность ситуаций. Из-за этого, оценка безопасности генерируемого кода остается недостаточно точной. Чтобы устранить эти проблемы, мы предлагаем **SecureAgentBench** – новый бенчмарк, содержащий 105 задач, который позволяет тщательно оценивать способность кода-агентов генерировать безопасный код в реальных условиях. #### Метод **SecureAgentBench** строится на основе 105 реалистичных задач, требующих редактирования нескольких файлов в больших репозиториях. Для каждой задачи мы вводим контекст, основанный на настоящих открытых исходных кодах, где были отслежены точки внедрения уязвимостей. Наша методика включает три ключевых аспекта: (i) **тестирование функциональности**, чтобы убедиться, что решение корректно выполняет задачу, (ii) **проверка уязвимостей** с помощью создания proof-of-concept exploits, и (iii) **детектирование новых уязвимостей**, внедренных агентом в код. Бенчмарк работает с тремя современными большими лингвистическими моделями (LLMs): Claude 3.7 Sonnet, GPT-4.1 и DeepSeek-V3.1. Эти модели были использованы для сгенерированного кода, который последующим образом проверялся на наличие уязвимостей и структурных ошибок. #### Результаты Наши эксперименты показали, что хотя LLM-агенты способны генерировать код, который функционирует правильно, они сильно страдают в безопасности. Наилучший результат показал SWE-agent, поддерживаемый DeepSeek-V3.1, который смог выполнить 15.2% задач, сочетающих безопасность и функциональность. Однако даже в этом случае некоторые функционально корректные решения все равно включали в себя новые, незарегистрированные ранее, уязвимости. Заметим, что простой добавлением инструкций по безопасному программированию нельзя полностью решить эту проблему. Эти результаты подтверждают необходимость дальнейшего исследования для создания безопасных кодогенерирующих агентов. #### Значимость **SecureAgentBench** может быть применен в различных областях, включая соз

Annotation:

Large language model (LLM) powered code agents are rapidly transforming software engineering by automating tasks such as testing, debugging, and repairing, yet the security risks of their generated code have become a critical concern. Existing benchmarks have offered valuable insights but remain insufficient: they often overlook the genuine context in which vulnerabilities were introduced or adopt narrow evaluation protocols that fail to capture either functional correctness or newly introduced ...

ID: 2509.22097v1 cs.SE, cs.AI, cs.CL, cs.CR

arXiv PDF

Показано 11 - 20 из 28 записей