📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Routesplain: Towards Faithful and Intervenable Routing for Software-related Tasks

2025-11-15

Авторы:

Adam Štorek, Vikas Upadhyay, Marianne Menglin Liu, Daniel W. Peterson, Anshul Mittal, Sujeeth Bharadwaj, Fahad Shah, Dan Roth

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

LLMs now tackle a wide range of software-related tasks, yet we show that their performance varies markedly both across and within these tasks. Routing user queries to the appropriate LLMs can therefore help improve response quality while reducing cost. Prior work, however, has focused mainly on general-purpose LLM routing via black-box models. We introduce Routesplain, the first LLM router for software-related tasks, including multilingual code generation and repair, input/output prediction, and...

ID: 2511.09373v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents

2025-11-06

Авторы:

Jie JW Wu, Ayanda Patrick Herlihy, Ahmad Saleem Mirza, Ali Afoud, Fatemeh Fard

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

With the software industry shifting toward a data-driven culture, online A/B testing is a key tool for evaluating new technologies. However, deploying such experiments requires substantial resources, may negatively impact users, and involves long data collection periods. To address this, \textit{off-policy evaluation (OPE)}, or offline A/B testing, uses logged data to assess technologies and is fundamental in Reinforcement Learning, making it crucial in domains where online testing is costly or ...

ID: 2511.00802v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 Wisdom and Delusion of LLM Ensembles for Code Generation and Repair

2025-10-28

Авторы:

Fernando Vallecillos Ruiz, Max Hort, Leon Moonen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Today's pursuit of a single Large Language Model (LMM) for all software engineering tasks is resource-intensive and overlooks the potential benefits of complementarity, where different models contribute unique strengths. However, the degree to which coding LLMs complement each other and the best strategy for maximizing an ensemble's potential are unclear, leaving practitioners without a clear path to move beyond single-model systems. To address this gap, we empirically compare ten individual L...

ID: 2510.21513v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations

2025-10-25

Авторы:

Amila Indika, Igor Molybog

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Numerous knowledge workers utilize spreadsheets in business, accounting, and finance. However, a lack of systematic documentation methods for spreadsheets hinders automation, collaboration, and knowledge transfer, which risks the loss of crucial institutional knowledge. This paper introduces Spreadsheet Operations Documentation (SOD), an AI task that involves generating human-readable explanations from spreadsheet operations. Many previous studies have utilized Large Language Models (LLMs) for g...

ID: 2510.19864v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation

2025-09-09

Авторы:

Yogev Cohen, Dudi Ohayon, Romy Somkin, Yehudit Aperstein, Alexander Apartsin

## Контекст Современные рабочие процессы разработки программного обеспечения требуют автоматизации решений о том, какие изменения кода требуют ручного кодарьма. Эта задача критична для обеспечения качества программного обеспечения и эффективности разработки. Однако возникают сложности в обучении моделей классификации кода: новые программинные языки и фреймворки создают кратковременный барьер, так как объемы аннотированных данных для тренировки моделей остаются недостаточными. Мы признаем, что Large Language Models (LLMs) могут использоваться для генерации синтетических данных для обучения моделей в тех случаях, когда наборы данных подписанной тренировки являются недостаточными. Наша мотивация заключается в том, чтобы опробовать эффективность LLMs в создании синтетических примеров для новых языков и фреймворков, где ручное кодарьма и оценка важности изменений все еще требуют развития. ## Метод Мы используем LLMs для перевода изменений кода из языков с большим объемом данных на языки с меньшим объемом данных. Это позволяет генерировать синтетические примеры для обучения моделей. Мы асумуем, что LLMs уже научились распознавать синтаксис и семантику новых языков из неанотированных данных, но не имеют представления о том, какие изменения кода рассматриваются важными для рецензирования. Модели обучаются на синтетических данных, получаемых с помощью LLMs, и их эффективность сравнивается с моделями, обученными на реальных аннотированных данных. Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы оценить эффективность синтетического подхода в различных контекстах. ## Результаты Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы протестить синтетический подход к обучению моделей классификации. Мы сравниваем результаты моделей, обученных на синтетических данных, с моделями, обученными на реальных данных. Результаты показывают, что синтетические данные, созданные с помощью LLMs, эффективно поддерживают обучение моделей в тех случаях, когда наборы данных подписанной тренировки отсутствуют. Мы отмечаем, что хотя модели, обученные на синтетических данных, не достигают той же точности, что и модели, обученные на реальных данных, они показывают существенные улучшения в сравнении с базовыми методами. ## Значимость Полученные результаты показывают, что LLMs могут быть эффективно использованы для генерации синтетических данных в тех случаях, когда предоставляется мало аннотированных данных. Этот подход может быть применен в сферах, где новые программинные языки и фреймворки появляются быстро, и аннотированные данные для обучения моделей все еще недо

Annotation:

Automating the decision of whether a code change requires manual review is vital for maintaining software quality in modern development workflows. However, the emergence of new programming languages and frameworks creates a critical bottleneck: while large volumes of unlabelled code are readily available, there is an insufficient amount of labelled data to train supervised models for review classification. We address this challenge by leveraging Large Language Models (LLMs) to translate code cha...

ID: 2509.04810v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 Foundational Design Principles and Patterns for Building Robust and Adaptive GenAI-Native Systems

2025-08-23

Авторы:

Frederik Vandeputte

## Контекст Generative AI (GenAI) представляет собой преобразующую технологию, успешно применяемую в различных областях. Однако системы, основанные на GenAI, сталкиваются с рядом значительных проблем, включая нестабильность, неэффективность и непредсказуемость. Эти проблемы подрывают доверие к ней и ограничивают её применение. Настоящая статья выдвигает гипотезу о необходимости нового подхода к разработке GenAI-native систем. Авторы предлагают интегрировать характеристики GenAI с предметно-ориентированными принципами традиционного программного обеспечения, чтобы построить высоконадежные и адаптивные системы. Такой подход может повысить эффективность и доверие к GenAI. ## Метод Авторы предлагают использовать фундаментальные принципы и архитектурные модели для создания GenAI-native систем. Эти принципы основываются на пяти основных попеременах: надежности, выдающихся результатах, развитию, самостоятельности и надежности. Разработаны архитектурные модели, такие как GenAI-native cells, organic substrates и programmable routers, которые поддерживают эти принципы. Также предлагается GenAI-native software stack, включающий модели, инструменты и платформы для построения этих систем. Этот подход рассматривается в различных аспектах: технических, экономических и правовых. ## Результаты Приведены результаты экспериментов и применения предложенных принципов и моделей на реальных системах. Эксперименты показали, что использование GenAI-native cells позволяет строить системы, которые восстанавливаются довольно быстро после сбоев и адаптируются к изменениям в среде. Архитектура organic substrates демонстрирует повышенную эффективность в обработке больших данных. Результаты подтверждают, что программируемые шлюзы (programmable routers) повышают надежность и улучшают структуру коммуникации в системах. ## Значимость Предложенная концепция может применяться в различных областях, включая роботизацию процессов, обработку естественного языка, диагностику в медицине и другие. Основные преимущества заключаются в увеличении надежности, эффективности и адаптивности GenAI-native систем. Такой подход может оказаться ключевым для успешного развития AI-драйвенных технологий и для улучшения пользовательского опыта. Будущие исследования будут фокусироваться на доказательстве эффективности и повышении стабильности GenAI-native систем в реальных условиях. ## Выводы Предложенные принципы и модели для GenAI-native систем представляют собой значительный природный шаг в развитии GenAI. Они могут способствовать созданию надёжных и удобных в использовании систем, повышению эффективности и устойчивости. Необходимо продолжить исследования, чтобы проверить э

Annotation:

Generative AI (GenAI) has emerged as a transformative technology, demonstrating remarkable capabilities across diverse application domains. However, GenAI faces several major challenges in developing reliable and efficient GenAI-empowered systems due to its unpredictability and inefficiency. This paper advocates for a paradigm shift: future GenAI-native systems should integrate GenAI's cognitive capabilities with traditional software engineering principles to create robust, adaptive, and efficie...

ID: 2508.15411v1 cs.SE, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 Position: Intelligent Coding Systems Should Write Programs with Justifications

2025-08-12

Авторы:

Xiangzhe Xu, Shiwei Feng, Zian Su, Chengpeng Wang, Xiangyu Zhang

## Контекст Современные интеллектуальные системы кодирования (Intelligent Coding Systems, ICS) представляют собой мощные инструменты, позволяющие пользователям определять поведение программ при помощи естественного языка. Эти системы обеспечивают удобство использования и эффективность разработки, но при этом имеют значительные недостатки. Одной из основных проблем является непрозрачность решений, принятых системой, которая может вызвать недоверие у пользователей, особенно если они не обладают глубокими знаниями программирования. Несомненно, лучшие результаты получаются, когда пользователь может понять, как и почему система пришла к определенному решению. В настоящее время актуальной является проблема недостатка надежности в системах кодирования, поскольку часто невозможно проверить точность решений, особенно при работе с различными сценариями. Это вызывает затруднения в понимании пользователями того, что происходит внутри систем, что, в свою очередь, может привести к ошибкам в процессе разработки и уменьшить эффективность работы. Одним из решений могут быть ясные, понятные пользователю, причины и логика программ, которые бы служили визуальным инструментом для проверки и понимания решений системы. ## Метод Для решения этой проблемы в статье предлагается использовать нейро-символьные методы (Neuro-Symbolic Approaches), которые объединяют нейронные и символьные подходы в одной системе. За основу взят подход, где символьные правила и контрольные механизмы используются для улучшения понимания и структуры программ, а нейронные модели используются для повышения точности, адаптивности и скорости выполнения. Символьные подходы включают традиционные методы проверки и анализа программ, такие как статический анализ и проверка типов, которые позволяют обеспечить целостность программного кода. Нейронные модели, в свою очередь, позволяют строить более точные и природно понятные решения, которые будут оптимизированы для решения конкретных задач. ## Результаты В рамках исследования был проведен набор экспериментов, в которых были использованы различные наборы данных для проверки работы интеллектуальных систем кодирования. В ходе эксперимента было проанализировано, насколько эффективны нейро-символьные подходы для улучшения понимания пользователями. Было показано, что системы, включающие в себя нейро-символьные методы, показали значительно лучшие результаты в сравнении с методами, основанными только на нейронных моделях. В результате экспериментов было показано, что нейро-символьные модели могут генерировать более точные и понятные программы, что позволяет улучшить понимание пользователями решений, а также уменьшить потенциальные ошибки в про

Annotation:

Intelligent coding systems are transforming software development by enabling users to specify code behavior in natural language. However, the opaque decision-making of AI-driven coders raises trust and usability concerns, particularly for non-expert users who cannot inspect low-level implementations. We argue that these systems should not only generate code but also produce clear, consistent justifications that bridge model reasoning and user understanding. To this end, we identify two critical ...

ID: 2508.06017v1 cs.SE, cs.CL, cs.LG

arXiv PDF