Breaking Android with AI: A Deep Dive into LLM-Powered Exploitation

2509.07933v1 cs.SE, cs.AI 2025-09-11
Авторы:

Wanni Vidulige Ishan Perera, Xing Liu, Fan liang, Junyi Zhang

Резюме на русском

## Контекст Современное развитие искусственного интеллекта (AI) и больших языковых моделей (LLMs) внесло значительные изменения в области кибербезопасности, особенно в автоматизации процессов эксплуатации уязвимостей и проведении пентестинга. Одной из ключевых областей применения является автоматизация тестирования и эксплуатации мобильных устройств, в частности, Android-устройств. Несмотря на значительные преимущества, такие как эффективность и уменьшение времени, связанного с проведением ручных тестов, технологии AI не являются идеальными и требуют осторожного применения. Новая статья изучает потенциал AI-powered penetration testing, в частности, с помощью LLM-based tool PentestGPT, который используется для автоматизации тестирования Android-устройств. ## Метод Работа исследования включает в себя два ключевых этапа: автоматизацию тестирования и сравнение с результатами ручного тестирования. Для эмуляции Android-устройств использовался Genymotion, что позволило создать устойчивую среду для экспериментов. Изначально было проведено ручное тестирование для идентификации уязвимостей и построения нормативных данных для сравнения. Затем, с помощью PentestGPT, были сгенерированы скрипты, автоматизировав процесс эксплуатации уязвимостей. Для упрощения интеграции LLM-based tools и их доступности для пользователей была разработана веб-приложение, интегрирующее OpenAI API. Это приложение позволяет автоматически генерировать скрипты на основе выводов LLMs. Тестируемые методы были сравнины по ключевым показателям, таким как эффективность, надежность и масштабируемость. ## Результаты Исследование продемонстрировало, что AI-powered pentesting может значительно ускорить процесс идентификации уязвимости и сократить время проведения тестирования. Однако, результаты также показали, что LLM может сделать ошибки в построении уязвимостей, которые могут привести к неточности результатов. Использование веб-приложения, основанного на OpenAI API, доказало значительные преимущества в упрощении генерации скриптов, но также подчеркнуло важность ручного контроля. Например, ручное тестирование показало более точные результаты в некоторых сложных сценариях, где LLM пропустил мелкие, но критичные детали. ## Значимость Полученные результаты имеют большое значение для области кибербезопасности, особенно в сфере тестирования и эксплуатации мобильных устройств. AI-powered pentesting может использоваться для быстрого определения уязвимостей и автоматизации процессов, что повышает эффективность и экономит время. Однако, необходимо учитывать риски, связанные с ошибками AI, в том числе и в сфере морального применения. Эта работа может с

Abstract

The rapid evolution of Artificial Intelligence (AI) and Large Language Models (LLMs) has opened up new opportunities in the area of cybersecurity, especially in the exploitation automation landscape and penetration testing. This study explores Android penetration testing automation using LLM-based tools, especially PentestGPT, to identify and execute rooting techniques. Through a comparison of the traditional manual rooting process and exploitation methods produced using AI, this study evaluates the efficacy, reliability, and scalability of automated penetration testing in achieving high-level privilege access on Android devices. With the use of an Android emulator (Genymotion) as the testbed, we fully execute both traditional and exploit-based rooting methods, automating the process using AI-generated scripts. Secondly, we create a web application by integrating OpenAI's API to facilitate automated script generation from LLM-processed responses. The research focuses on the effectiveness of AI-enabled exploitation by comparing automated and manual penetration testing protocols, by determining LLM weaknesses and strengths along the way. We also provide security suggestions of AI-enabled exploitation, including ethical factors and potential misuse. The findings exhibit that while LLMs can significantly streamline the workflow of exploitation, they need to be controlled by humans to ensure accuracy and ethical application. This study adds to the increasing body of literature on AI-powered cybersecurity and its effect on ethical hacking, security research, and mobile device security.

Ссылки и действия