📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Punit Kumar, Asif Imran, Tevfik Kosar
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents a detailed comparative analysis of the performance of three major Python data manipulation libraries - Pandas, Polars, and Dask - specifically when embedded within complete deep learning (DL) training and inference pipelines. The research bridges a gap in existing literature by studying how these libraries interact with substantial GPU workloads during critical phases like data loading, preprocessing, and batch feeding. The authors measured key performance indicators includin...
Авторы:
Lirong Yi, Gregory Gay, Philipp Leitner
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language Models (LLMs) can generate code, but can they generate fast
code? In this paper, we study this question using a dataset of 65 real-world
tasks mined from open-source Java programs. We specifically select tasks where
developers achieved significant speedups, and employ an automated pipeline to
generate patches for these issues using two leading LLMs under four prompt
variations. By rigorously benchmarking the results against the baseline and
human-authored solutions, we demonstrate...
Авторы:
Spandan Garg, Roshanak Zilouchian Moghaddam
## Контекст
Performance bugs — это проблемы в программном обеспечении, вызывающие ненужный увеличение затрат ресурсов, не приводящие к ошибкам в функциональной части. Они трудно выявить и исправить, так как не вызывают функциональных сбоев, но неэффективно используют ресурсы. Данные проблемы значительно влияют на производительность программ, но часто не получают должного внимания из-за нехитрости их выявления и устранения.
Появление современных агентов в сфере программного обеспечения дало возможность автоматизировать обнаружение и исправление багов. Однако существующие бенчмарки ориентированы на функциональную корректность, не учитывая проблемы производительности. Необходимо создать бенчмарк, который бы позволил проверить способности агентов решать проблемы производительности.
## Метод
Мы предлагаем PerfBench — новый бенчмарк, состоящий из 81 реальных проблем производительности, извлечённых из GitHub-репозиториев на .NET. Отличительной чертой PerfBench является то, что он использует новую оценочную систему, при которой агенты могут создавать свои собственные бенчмарки производительности. Результаты этих бенчмарков сравниваются с результатами, полученными с исправлениями, предложенными разработчиками. Каждая задача в PerfBench подтверждена экспертами, чтобы гарантировать её реальность и актуальность.
В нашем бенчмарке используется новая методология, позволяющая лучше оценивать способности агентов к решению проблем производительности. Это позволяет создавать более точные оценки их показателей.
## Результаты
Мы провели эксперименты с использованием PerfBench и сравнили результаты работы двух агентов: базового OpenHands и модифицированного OpenHands-Perf-Agent. Базовый агент показал низкую производительность, достигнув только 3% успеха. Модифицированный агент OpenHands-Perf-Agent, использующий производительность-ориентированные инструменты и инструкции, повысил процент успешных решений до 20%.
Наши результаты показали, что агенты, имеющие доступ к конкретным инструментам и инструкциям, могут значительно повысить свою эффективность в решении проблем производительности. Однако существуют еще значительные возможности для улучшения.
## Значимость
PerfBench может применяться в разработке инструментов для автоматизации обнаружения и исправления проблем производительности. Он предоставляет значительные преимущества перед существующими бенчмарками, поскольку ориентирован на реальные проблемы производительности. Мы показали, что агенты, обученные на нашем бенчмарке, могут значительно повысить производительность системы, что в будущем может привести к революции в области ав
Annotation:
Performance bugs are inefficiencies in software that waste computational
resources without causing functional failures, making them particularly
challenging to detect and fix. While recent advances in Software Engineering
agents have shown promise in automated bug fixing, existing benchmarks
primarily focus on functional correctness and fail to evaluate agents'
abilities to identify and resolve non-functional issues like performance bugs.
We introduce PerfBench, a benchmark comprising 81 real-wo...