📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 When Many-Shot Prompting Fails: An Empirical Study of LLM Code Translation

2025-10-22

Авторы:

Amirkia Rafiei Oskooei, Kaan Baturalp Cosdan, Husamettin Isiktas, Mehmet S. Aktas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) with vast context windows offer new avenues for in-context learning (ICL), where providing many examples ("many-shot" prompting) is often assumed to enhance performance. We investigate this assumption for the complex task of code translation. Through a large-scale empirical study of over 90,000 translations, we systematically evaluate the impact of scaling in-context examples from zero-shot to many-shot configurations of up to 625 examples, with prompts spanning from...

ID: 2510.16809v1 cs.SE, cs.AI, cs.CL, cs.PL, 68T50, 68N30, 68W40, I.2.7; D.2.7; I.2.6

arXiv PDF

📄 A Taxonomy of Prompt Defects in LLM Systems

2025-09-20

Авторы:

Haoye Tian, Chong Wang, BoYang Yang, Lyuye Zhang, Yang Liu

## Контекст Large Language Models (LLMs) являются основными компонентами современного программного обеспечения, используя prompts как интерфейс для программирования. Однако проектирование prompts остается жизнерадостным и часто приводит к непредсказуемому поведению моделей. Ошибки в проектировании могут привести к небезопасному, неэффективному или небезошибочному поведению. Данная статья представляет первую систематизированную статистическую выборку и категоризацию дефектов в prompts, опираясь на примеры из реальных рабочих процессов. ## Метод Статья привносит новую лингвистическую модель, которая используется для категоризации дефектов prompts во время их проектирования. Метод включает в себя четыре шага: (1) Определение категорий дефектов и их характеристик, (2) Использование примеров из реальных рабочих процессов, (3) Определение корневых причин дефектов, (4) Создание алгоритмов для разделения категорий и подтипов. Этот подход позволяет анализировать как основные, так и мелкие дефекты в LLMs. ## Результаты В работе было проанализировано более 2000 дефектов в prompts, полученных из различных источников, включая рабочие процессы и тестирующие программы. Был разработан каталог дефектов, разделенный на шесть основных классов: Specification and Intent, Input and Content, Structure and Formatting, Context and Memory, Performance and Efficiency, и Maintainability and Engineering. Для каждого класса были извлечены подтипы дефектов, иллюстрированные примерами. ## Значимость Разработанная категоризация может быть использована в разработке программного обеспечения, которое использует LLMs, для того, чтобы улучшить надежность, безопасность и эффективность. Она помогает разработчикам выявлять и устранять дефекты в ранней стадии разработки, а также выявлять потенциальные проблемы, которые могут возникнуть в будущем. Этот подход может иметь значительное влияние на развитие новых технологий LLM. ## Выводы Основные достижения статьи заключаются в создании систематизированной категории дефектов в prompts, которая может быть использована в разработке и тестировании LLMs. Будущие исследования будут направлены на развитие автоматизированных систем для диагностики и устранения дефектов в prompts, а также на развитие методов для улучшения разработки и тестирования LLMs. Эти исследования будут способствовать улучшению надёжности и эффективности LLM-driven систем.

Annotation:

Large Language Models (LLMs) have become key components of modern software, with prompts acting as their de-facto programming interface. However, prompt design remains largely empirical and small mistakes can cascade into unreliable, insecure, or inefficient behavior. This paper presents the first systematic survey and taxonomy of prompt defects, recurring ways that prompts fail to elicit their intended behavior from LLMs. We organize defects along six dimensions: (1) Specification and Intent, (...

ID: 2509.14404v1 cs.SE, cs.AI, cs.CL, cs.PL

arXiv PDF