📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Amirkia Rafiei Oskooei, Kaan Baturalp Cosdan, Husamettin Isiktas, Mehmet S. Aktas
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language Models (LLMs) with vast context windows offer new avenues for
in-context learning (ICL), where providing many examples ("many-shot"
prompting) is often assumed to enhance performance. We investigate this
assumption for the complex task of code translation. Through a large-scale
empirical study of over 90,000 translations, we systematically evaluate the
impact of scaling in-context examples from zero-shot to many-shot
configurations of up to 625 examples, with prompts spanning from...
Авторы:
Haoye Tian, Chong Wang, BoYang Yang, Lyuye Zhang, Yang Liu
## Контекст
Large Language Models (LLMs) являются основными компонентами современного программного обеспечения, используя prompts как интерфейс для программирования. Однако проектирование prompts остается жизнерадостным и часто приводит к непредсказуемому поведению моделей. Ошибки в проектировании могут привести к небезопасному, неэффективному или небезошибочному поведению. Данная статья представляет первую систематизированную статистическую выборку и категоризацию дефектов в prompts, опираясь на примеры из реальных рабочих процессов.
## Метод
Статья привносит новую лингвистическую модель, которая используется для категоризации дефектов prompts во время их проектирования. Метод включает в себя четыре шага: (1) Определение категорий дефектов и их характеристик, (2) Использование примеров из реальных рабочих процессов, (3) Определение корневых причин дефектов, (4) Создание алгоритмов для разделения категорий и подтипов. Этот подход позволяет анализировать как основные, так и мелкие дефекты в LLMs.
## Результаты
В работе было проанализировано более 2000 дефектов в prompts, полученных из различных источников, включая рабочие процессы и тестирующие программы. Был разработан каталог дефектов, разделенный на шесть основных классов: Specification and Intent, Input and Content, Structure and Formatting, Context and Memory, Performance and Efficiency, и Maintainability and Engineering. Для каждого класса были извлечены подтипы дефектов, иллюстрированные примерами.
## Значимость
Разработанная категоризация может быть использована в разработке программного обеспечения, которое использует LLMs, для того, чтобы улучшить надежность, безопасность и эффективность. Она помогает разработчикам выявлять и устранять дефекты в ранней стадии разработки, а также выявлять потенциальные проблемы, которые могут возникнуть в будущем. Этот подход может иметь значительное влияние на развитие новых технологий LLM.
## Выводы
Основные достижения статьи заключаются в создании систематизированной категории дефектов в prompts, которая может быть использована в разработке и тестировании LLMs. Будущие исследования будут направлены на развитие автоматизированных систем для диагностики и устранения дефектов в prompts, а также на развитие методов для улучшения разработки и тестирования LLMs. Эти исследования будут способствовать улучшению надёжности и эффективности LLM-driven систем.
Annotation:
Large Language Models (LLMs) have become key components of modern software,
with prompts acting as their de-facto programming interface. However, prompt
design remains largely empirical and small mistakes can cascade into
unreliable, insecure, or inefficient behavior. This paper presents the first
systematic survey and taxonomy of prompt defects, recurring ways that prompts
fail to elicit their intended behavior from LLMs. We organize defects along six
dimensions: (1) Specification and Intent, (...