📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Improving Code Localization with Repository Memory

2025-10-04

Авторы:

Boshi Wang, Weijian Xu, Yunsheng Li, Mei Gao, Yujia Xie, Huan Sun, Dongdong Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Code localization is a fundamental challenge in repository-level software engineering tasks such as bug fixing. While existing methods equip language agents with comprehensive tools/interfaces to fetch information from the repository, they overlook the critical aspect of memory, where each instance is typically handled from scratch assuming no prior repository knowledge. In contrast, human developers naturally build long-term repository memory, such as the functionality of key modules and associ...

ID: 2510.01003v1 cs.SE, cs.CL

arXiv PDF

📄 DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern

2025-10-01

Авторы:

Lekang Yang, Yuetong Liu, Yitong Zhang, Jia Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Software development relies heavily on extensive unit testing, which makes the efficiency of automated Unit Test Generation (UTG) particularly important. However, most existing LLMs generate test cases one token at a time in each forward pass, which leads to inefficient UTG. Recently, diffusion LLMs (dLLMs) have emerged, offering promising parallel generation capabilities and showing strong potential for efficient UTG. Despite this advantage, their application to UTG is still constrained by a cl...

ID: 2509.24975v1 cs.SE, cs.CL

arXiv PDF

📄 AgentPack: A Dataset of Code Changes, Co-Authored by Agents and Humans

2025-09-30

Авторы:

Yangtian Zi, Zixuan Wu, Aleksander Boruch-Gruszecki, Jonathan Bell, Arjun Guha

## Контекст На протяжении десятилетий участие автоматизированных систем в процессе разработки программного обеспечения было ограничено ролью помощников. Однако появление продвинутых языковых моделей, таких как Codex, Claude Code и Cursor Agent, изменило это представление. Эти агентские модели могут сотрудничать с эмпирическими разработчиками для генерирования и редактирования кода, улучшая продуктивность и качество кода. Однако существуют проблемы с доступной для обучения лингвистико-технической базой данных. Традиционная аналитика проектирует методы поиска и анализа commits, которые часто оказываются ненадежными из-за ненаблюдаемого контекста, перегруженности информацией и низкого качества. В этом контексте возникает необходимость создания более чистого и репрезентативного исходного кода, который может быть использован для тренировки моделей. ## Метод Методология для создания AgentPack заключается в сборе и предобработке данных из публичных репозиториев GitHub, полученных с использованием средств клонирования и краулинга. Архитектура предлагаемого решения включает в себя два основных этапа: сбор данных и их курирование. Во время сбора данных используется механизм курирования, который отфильтровывает сообщения и изменения, подвергая их различным критериям качества. Эти критерии определяются на основе технических требований, таких как четкость логики, ясность выражения и наличие связанных сценариев. Наконец, AgentPack образует базу данных из 1,3 миллиона кодовых изменений, созданных взаимодействием агентов и разработчиков. ## Результаты В ходе экспериментов был проанализирован 1,3 миллион кодовых изменений, созданных агентами и разработчиками. Было проверено, что изменения, сгенерированные агентами, являются более конкретными и сосредоточенными по сравнению с традиционными commits, сгенерированными разработчиками. На основе AgentPack был проведен файн-тюнинг текущих моделей языкового моделирования, показав, что финальные модели показывают повышение эффективности при редактировании кода. Данные также позволили установить, что совместная работа агентов и разработчиков приводит к более качественным редакциям и улучшенному контексту. ## Значимость AgentPack может быть применен в различных областях, включая обучение самообучающихся моделей, анализ кода, а также разработку новых методов автоматизации процессов разработки. Одним из ключевых преимуществ является улучшение качества и чистоты данных, что исключает многие из ограничений, связанных с традиционными методами. Таким образом, AgentPack может способствовать более точному моделированию целей разработчиков и улучшению технологий, применяемых в глубо

Annotation:

Fine-tuning large language models for code editing has typically relied on mining commits and pull requests. The working hypothesis has been that commit messages describe human intent in natural language, and patches to code describe the changes that implement that intent. However, much of the previously collected data is noisy: commit messages are terse, human-written commits commingle several unrelated edits, and many commits come from simple, rule-based bots. The recent adoption of software...

ID: 2509.21891v1 cs.SE, cs.CL

arXiv PDF

📄 Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries

2025-09-30

Авторы:

Lukas Twist, Jie M. Zhang, Mark Harman, Helen Yannakoudakis

#### Контекст Large language models (LLMs) широко применяются для генерирования кода, однако их поведение часто становится проблематичным из-за "халлуцинаций" (hallucinations). Это происходит, когда модель генерирует код, в котором упоминаются несуществующие библиотеки. Такие ошибки превращаются в опасные угрозы, так как могут привести к ошибкам в сборке, неверном понимании задачи, а также к повышенному риску со стороны интернета вещей (supply chain threats, такие как сложные атаки типа слоп-скваттинга). Хотя эти риски уже привлекли внимание, мало известно о том, как различные стили пользовательских запросов влияют на частоту халлуцинаций в коде. Наша работа является первой систематической исследовательской работой, которая исследует, как различные вариации пользовательских запросов влияют на частоту халлуцинаций в LLMs, особенно в сфере библиотек. #### Метод Мы провели исследование, используя шесть разных моделей текстов, сравнивая два типа халлуцинаций: неправильные импорты (library name hallucinations) и некорректные вызовы (library member hallucinations). Мы использовали данные, собранные из реальных форумов для разработчиков, в том числе различные виды ошибок в запросах: ошибки одного или нескольких символов, а также совершенно несуществующие библиотеки или их члены. Наши эксперименты направлены на изучение того, насколько эти ошибки влияют на частоту халлуцинаций в LLMs, а также определять, насколько модели чувствительны к видам ошибок и природе запросов. #### Результаты Мы обнаружили, что частота халлуцинаций сильно зависит от того, как запросы сформулированы пользователем. Даже одна ошибка в одном символе может привести к халлуцинациям в 26% случаев, а совершенно несуществующие библиотеки были приняты в 99% случаев. Также обнаружено, что запросы, связанные с временем и другими контекстами, приводят к халлуцинациям в 84% случаев. Таким образом, мы показали, что LLMs чувствительны к различным видам ошибок в запросах, что является системным недостатком. Однако мы также выявили, что при помощи оптимизации запросов (промпто-инжиниринга) можно существенно снизить частоту халлуцинаций. Тем не менее, эффективность таких методов зависит от конкретной модели. #### Значимость Наши результаты имеют важное значение для развития инфраструктуры и безопасности систем, основанных на LLMs. Мы выявили, что такие модели очень чувствительны к пользовательским запросам, что может привести к значительным проблемам в реальных системах. Мы также показали, что наличие реалистичных запросов, создаваемых разработчиками, может привести к значительным рискам. Например, в сфере инт

Annotation:

Large language models (LLMs) are increasingly used to generate code, yet they continue to hallucinate, often inventing non-existent libraries. Such library hallucinations are not just benign errors: they can mislead developers, break builds, and expose systems to supply chain threats such as slopsquatting. Despite increasing awareness of these risks, little is known about how real-world prompt variations affect hallucination rates. Therefore, we present the first systematic study of how user-lev...

ID: 2509.22202v1 cs.SE, cs.CL

arXiv PDF

📄 SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

2025-09-24

Авторы:

Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler

## Контекст Информационные технологии становятся все более важной частью современной экономики, а среди них автоматизация процессов разработки программного обеспечения (СЕ) приобретает все большее значение. Однако далеко не все задачи в СЕ могут быть автоматизированы с помощью нынешних моделей машинного обучения. Особенно сложной является задача поиска решений для долгосрочных задач в разработке программного обеспечения, требующих многочасовых работ профессионального разработчика. Эта сложность возникает из-за недостатка достаточного контекста, реалистичности и сложности задач, а также отсутствия тестов, которые могли бы сравнить модели в этих условиях. Это движет мотивацией к созданию SWE-Bench Pro — бенчмарка, предназначенного для того, чтобы выявить слабые места у нынешних агентов для решения долгосрочных задач в области СЕ. ## Метод SWE-Bench Pro является расширенной версией SWE-Bench, специально разработанной для решения долгосрочных задач в области СЕ. Он содержит 1865 задач, собранных из 41 репозиториев, включая бизнес-приложения, B2B-сервисы и инструменты разработчиков. Бенчмарк поделен на три части: публичный набор (11 репозиториев), закрытый набор для тестирования (12 репозиториев) и коммерческий набор, содержащий задачи из 18 репозиториев, с которыми у авторов есть партнерские соглашения. Задачи включают набор действий, которые могут требовать часов или дней работы профессионального разработчика, включая поиск и исправление ошибок в нескольких файлах. Для каждой задачи был проведен тщательный human-verified процесс, чтобы гарантировать решаемость и контекстность. Это позволяет SWE-Bench Pro представлять реальную сложность реального программирования на профессиональном уровне. ## Результаты В ходе экспериментов были рассмотрены широко известные модели кодирования в рамках SWE-Bench Pro. Полученные результаты показали, что выполнение задач на этом бенчмарке остается низким — ни одна из тестируемых моделей не превышала 25% Pass@1. Модель GPT-5 показала наилучший результат с уровнем 23.3%. Были проанализированы кластеры ошибок, полученных в результате работы моделей, что позволило выделить основные недостатки, такие как неверное понимание контекста, неточности в оценке задач и несостоятельность решений в долгосрочных сценариях. Таким образом, SWE-Bench Pro выступает как честный тест для моделей, позволяя выявить ограничения нынешних моделей в решении долгосрочных задач в СЕ. ## Значимость SWE-Bench Pro представляет собой новый шаг в развитии бенчмарков для решения долгосрочных задач в СЕ. Он позволяет оценить не только точность решений, но и способность моделей понимать контекст, отслеживать задачи в процессе

Annotation:

We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from...

ID: 2509.16941v1 cs.SE, cs.CL

arXiv PDF

📄 Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation

2025-09-09

Авторы:

Yogev Cohen, Dudi Ohayon, Romy Somkin, Yehudit Aperstein, Alexander Apartsin

## Контекст Современные рабочие процессы разработки программного обеспечения требуют автоматизации решений о том, какие изменения кода требуют ручного кодарьма. Эта задача критична для обеспечения качества программного обеспечения и эффективности разработки. Однако возникают сложности в обучении моделей классификации кода: новые программинные языки и фреймворки создают кратковременный барьер, так как объемы аннотированных данных для тренировки моделей остаются недостаточными. Мы признаем, что Large Language Models (LLMs) могут использоваться для генерации синтетических данных для обучения моделей в тех случаях, когда наборы данных подписанной тренировки являются недостаточными. Наша мотивация заключается в том, чтобы опробовать эффективность LLMs в создании синтетических примеров для новых языков и фреймворков, где ручное кодарьма и оценка важности изменений все еще требуют развития. ## Метод Мы используем LLMs для перевода изменений кода из языков с большим объемом данных на языки с меньшим объемом данных. Это позволяет генерировать синтетические примеры для обучения моделей. Мы асумуем, что LLMs уже научились распознавать синтаксис и семантику новых языков из неанотированных данных, но не имеют представления о том, какие изменения кода рассматриваются важными для рецензирования. Модели обучаются на синтетических данных, получаемых с помощью LLMs, и их эффективность сравнивается с моделями, обученными на реальных аннотированных данных. Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы оценить эффективность синтетического подхода в различных контекстах. ## Результаты Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы протестить синтетический подход к обучению моделей классификации. Мы сравниваем результаты моделей, обученных на синтетических данных, с моделями, обученными на реальных данных. Результаты показывают, что синтетические данные, созданные с помощью LLMs, эффективно поддерживают обучение моделей в тех случаях, когда наборы данных подписанной тренировки отсутствуют. Мы отмечаем, что хотя модели, обученные на синтетических данных, не достигают той же точности, что и модели, обученные на реальных данных, они показывают существенные улучшения в сравнении с базовыми методами. ## Значимость Полученные результаты показывают, что LLMs могут быть эффективно использованы для генерации синтетических данных в тех случаях, когда предоставляется мало аннотированных данных. Этот подход может быть применен в сферах, где новые программинные языки и фреймворки появляются быстро, и аннотированные данные для обучения моделей все еще недо

Annotation:

Automating the decision of whether a code change requires manual review is vital for maintaining software quality in modern development workflows. However, the emergence of new programming languages and frameworks creates a critical bottleneck: while large volumes of unlabelled code are readily available, there is an insufficient amount of labelled data to train supervised models for review classification. We address this challenge by leveraging Large Language Models (LLMs) to translate code cha...

ID: 2509.04810v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 Functional Consistency of LLM Code Embeddings: A Self-Evolving Data Synthesis Framework for Benchmarking

2025-08-29

Авторы:

Zhuohao Li, Wenqing Chen, Jianxing Yu, Zhichao Lu

## Контекст В последние годы текстовые эмбеддинги, полученные из больших языковых моделей (LLMs), доказали свою эффективность в задачах кластеризации, восстановления информации и выделения признаков. Они обладают выгодными показателями производительности и экономичностью в сравнении с генеритивными моделями и кросс-энкодерами. Тем не менее, неизвестно, насколько эффективно эти эмбеддинги отражают функциональную семантику кода. Несмотря на успехи в задачах детектирования клонов кода, они ориентированы на синтаксические сходства и не достаточно учитывают функциональную точку зрения. Наша работа сосредотачивается на изучении функциональной консистенции эмбеддингов LLMs, то есть на вопросе, способны ли эти модели отличить функциональные сходства кода, независимо от его синтаксических различий. ## Метод Мы предлагаем развитый фреймворк для само-эволюционной синтеза данных, называемый "Функционально-ориентированная Само-Эволюция Кода" (Functionality-Oriented Code Self-Evolution, FOCSE). Он стремится создавать разнообразные и сложные бенчмарки для эмбеддингов кода. Мы определяем четыре категории семантических и синтаксических различий, которые отражают различные аспекты функциональных отличий между кодовыми фрагментами. Наш процесс само-эволюции генерирует четыре уникальных вариации из одного исходного кода, позволяя получить более широкий спектр примеров, которые лучше отражают функциональные отличия. Этот подход позволяет оценивать эмбеддинги кода не только с точки зрения их синтаксических свойств, но и их возможности понимать функциональную семантику. ## Результаты Мы провели исследования на трех задачах: детектирование клонов кода, идентификацию функциональной консистенции кода и поиск кода. Наши эксперименты показали, что при обучении эмбеддингов LLMs на наших само-эволюционных данных, производительность этих моделей наползла на новые высоты. Ключевым показателем стала возможность эмбеддингов отличать функциональные сходства кода независимо от их синтаксических различий. Это демонстрирует значительный потенциал нашего подхода в создании более глубокого понимания функциональных мотивов кода. ## Значимость Наш фреймворк может иметь широкое применение в разработке и тестировании моделей, ориентированных на работу с кодом. Он предлагает уникальные возможности для повышения точности и глубины анализа функциональных свойств кода, что может быть критически важно для таких задач, как автоматическое документирование, поиск и устранение ошибок. Мы также видим будущие направления в расширении этого подхода для других типов неструктурированных данных, таких как множествен

Annotation:

Embedding models have demonstrated strong performance in tasks like clustering, retrieval, and feature extraction while offering computational advantages over generative models and cross-encoders. Benchmarks such as MTEB have shown that text embeddings from large language models (LLMs) capture rich semantic information, but their ability to reflect code-level functional semantics remains unclear. Existing studies largely focus on code clone detection, which emphasizes syntactic similarity and ov...

ID: 2508.19558v1 cs.SE, cs.CL, cs.PL

arXiv PDF

📄 Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

2025-08-28

Авторы:

Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

## Контекст Современные большие языковые модели (LLMs) продемонстрировали их великолепные возможности, особенно в сфере инженерии программного обеспечения, где они используют верифицированные обратные сигналы для обучения. Несмотря на это, высококачественные исполняемые среды для обучения таких моделей остаются редкостью. Это ограничивает возможности для развития мощных машинных обучаемых агентов. Одной из главных проблем является существующая систематическая сложность в создании и поддержании таких сред, что требует больших усилий и ресурсов. Мы предлагаем CTF-Dojo, первую уникальную платформу, созданную с целью обучения LLMs в исполняемых средах с поддержкой верифицированных обратных сигналов. Она включает 658 полностью функциональных задач в стиле Capture-The-Flag (CTF), контейнеризованных в Docker, с гарантированной повторяемостью. Эта платформа позволяет значительно упростить процесс развертывания интерактивных исполняемых сред в обучении LLMs, позволяя быстро и эффективно создавать новые среды. ## Метод CTF-Dojo базируется на архитектуре, которая сочетает в себе верифицированные задачи стиля CTF с инструментами автоматизации для создания исполняемых сред. Мы разработали CTF-Forge, автоматизированную систему, которая может принимать общедоступные данные и преобразовывать их в готовые к использованию среды за несколько минут. Это устраняет необходимость в ресурсоемкой и дорогостоящей конфигурации, которая, как правило, занимает несколько недель. Однако CTF-Dojo не только упрощает процесс, но и добавляет значительные возможности для выполнения сложных задач в стиле CTF. Это позволяет обучать модели не только с помощью традиционных методов, но и с использованием новых, более эффективных подходов. ## Результаты Мы провели исследования с использованием LLM-агентов, обученных на CTF-Dojo. Мы использовали 486 высококачественных, верифицированных структурных обучающих траекторий. Это привело к улучшению результатов на трех различных бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша модель 32B достигла доля 31.9% Pass@1, что является новым самым высоким результатом в открытом весовом классе. Этот результат находится на уровне с такими моделями, как DeepSeek-V3-0324 и Gemini-2.5-Flash. Эти результаты показывают, что интеллектуальные системы, обучаемые через исполняемые среды, могут достигать высоких результатов без необходимости использования дорогостоящих и закрытых систем. ## Значимость CTF-Dojo открывает новые возможности для обучения моделей с помощью исполняемых сред без необходимости использования дорогостоящих и

Annotation:

Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-F...

ID: 2508.18370v1 cs.SE, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

2025-08-26

Авторы:

Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding

## Контекст Готовность бо LLM (Large Language Models) к выполнению предметно-ориентированных задач, в том числе кодированию и решению проблем, является ключевым признаком их эффективности. Одним из самых вызововательных и позиционированных вариантов использования LLMs является их применение в конкурентных программировании, где необходимо решать комплексные, нелинейные задачи. Однако последние исследования показали, что хотя LLMs проявляют впечатляющую эффективность на различных метриках, они все еще далеко недостигают уровня элитных программистов в контексте реального измерения. Недостаток надежных и качественных бенчмарков, способных точно оценивать соответствие LLMs критериям элитных программистов, оставляет за собой вопросы о реальных технических и логических характеристиках LLMs. AetherCode предлагается как новый бенчмарк, нацеленный на выявление этих проблем и улучшения оценочных критериев. ## Метод AetherCode представляет собой современный платформенный подход к оценке LLMs, основанный на использовании реальных задач, взятых из престижных программистских соревнований, таких как IOI (International Olympiad in Informatics) и ICPC (International Collegiate Programming Contest). Весь процесс построения бенчмарка основывается на трех ключевых этапах: (1) сбор и преобразование задач, (2) разработка и проверка внешних тестовых ситуаций, и (3) оценка результатов с использованием многоуровневого подхода. Основные технические решения включают в себя разработку автоматизированных систем для генерации тестовых сценариев, а также интеграцию экспертных оценок для достижения высокой точности и репрезентативности. Метод гарантирует, что LLMs будут оцениваться не только по их моделированию информации, но и по их способности к решению реальных задач программирования. ## Результаты Исследовательская группа провела тщательные эксперименты, протестировав AetherCode на нескольких вариантах LLMs, включая как современные модели, так и более старые. Эксперименты показали, что LLMs, несмотря на их высокую оценку на других метриках, испытывают значительные сложности при решении задач AetherCode. Например, значительная часть моделей столкнулась с проблемами в обработке высокосложностных задач, включая задачи, требующие углубленного логического и тематического понимания. Это свидетельствует об огромном разрыве между текущим уровнем LLMs и уровнем элитных программистов, указывая на необходимость дальнейшего усовершенствования. Результаты также подтверждают, что AetherCode может служить как надежная метрика для оценки прогресса LLMs в области кодирования и решения проблем. ## Значимость AetherCode открывает новые возможности для развития и оценки LLMs в контексте реальных задач кодирования.

Annotation:

Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortc...

ID: 2508.16402v1 cs.SE, cs.CL

arXiv PDF

📄 Foundational Design Principles and Patterns for Building Robust and Adaptive GenAI-Native Systems

2025-08-23

Авторы:

Frederik Vandeputte

## Контекст Generative AI (GenAI) представляет собой преобразующую технологию, успешно применяемую в различных областях. Однако системы, основанные на GenAI, сталкиваются с рядом значительных проблем, включая нестабильность, неэффективность и непредсказуемость. Эти проблемы подрывают доверие к ней и ограничивают её применение. Настоящая статья выдвигает гипотезу о необходимости нового подхода к разработке GenAI-native систем. Авторы предлагают интегрировать характеристики GenAI с предметно-ориентированными принципами традиционного программного обеспечения, чтобы построить высоконадежные и адаптивные системы. Такой подход может повысить эффективность и доверие к GenAI. ## Метод Авторы предлагают использовать фундаментальные принципы и архитектурные модели для создания GenAI-native систем. Эти принципы основываются на пяти основных попеременах: надежности, выдающихся результатах, развитию, самостоятельности и надежности. Разработаны архитектурные модели, такие как GenAI-native cells, organic substrates и programmable routers, которые поддерживают эти принципы. Также предлагается GenAI-native software stack, включающий модели, инструменты и платформы для построения этих систем. Этот подход рассматривается в различных аспектах: технических, экономических и правовых. ## Результаты Приведены результаты экспериментов и применения предложенных принципов и моделей на реальных системах. Эксперименты показали, что использование GenAI-native cells позволяет строить системы, которые восстанавливаются довольно быстро после сбоев и адаптируются к изменениям в среде. Архитектура organic substrates демонстрирует повышенную эффективность в обработке больших данных. Результаты подтверждают, что программируемые шлюзы (programmable routers) повышают надежность и улучшают структуру коммуникации в системах. ## Значимость Предложенная концепция может применяться в различных областях, включая роботизацию процессов, обработку естественного языка, диагностику в медицине и другие. Основные преимущества заключаются в увеличении надежности, эффективности и адаптивности GenAI-native систем. Такой подход может оказаться ключевым для успешного развития AI-драйвенных технологий и для улучшения пользовательского опыта. Будущие исследования будут фокусироваться на доказательстве эффективности и повышении стабильности GenAI-native систем в реальных условиях. ## Выводы Предложенные принципы и модели для GenAI-native систем представляют собой значительный природный шаг в развитии GenAI. Они могут способствовать созданию надёжных и удобных в использовании систем, повышению эффективности и устойчивости. Необходимо продолжить исследования, чтобы проверить э

Annotation:

Generative AI (GenAI) has emerged as a transformative technology, demonstrating remarkable capabilities across diverse application domains. However, GenAI faces several major challenges in developing reliable and efficient GenAI-empowered systems due to its unpredictability and inefficiency. This paper advocates for a paradigm shift: future GenAI-native systems should integrate GenAI's cognitive capabilities with traditional software engineering principles to create robust, adaptive, and efficie...

ID: 2508.15411v1 cs.SE, cs.CL, cs.LG, cs.MA

arXiv PDF

Показано 21 - 30 из 33 записей