When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning

2509.10946v1 cs.SE, cs.AI 2025-09-17

Авторы:

Roberto Morabito, Guanghan Wu

Резюме на русском

## Контекст Область исследования крупных языковых моделей (LLMs) в рамках автоматизации процессов разработки программного обеспечения, в том числе в сфере машинного обучения, получила значительный развитий в последние годы. Эти модели используются для автоматизации широкого спектра задач, включая создание и оптимизацию кода, а также интеграцию моделей машинного обучения в различные системы. Однако несмотря на высокую точность и эффективность LLMs в задачах генерации кода, есть недостаточно изученные аспекты, в том числе моменты, когда модель «замирает» или приводит к непредсказуемому поведению. Это в особенности актуально для приложений в области машинного обучения, где непредсказуемость может привести к серьезным последствиям. В нашем исследовании мы фокусируемся на LLMs, применяемых в сфере машинного обучения для создания и настройки моделей, а также их внедрения на устройствах. Наша мотивация заключается в том, чтобы выявить и проанализировать основные причины проблем, которые возникают в процессе работы LLM-powered ML pipelines, а также выявить решение этих проблем для повышения надежности и прозрачности. ## Метод Мы разработали концептуальный автопилот, который управляет работой LLM в процессе автоматизации целого цикла разработки программного обеспечения: начиная от загрузки данных до генерации кода, который может быть запущен на устройстве. Наша модель включает несколько этапов: препроцессинг данных, преобразование моделей для работы на устройстве, и генерацию кода, который будет исполнен на целевой платформе. Мы использовали различные модели LLM, отобранных по их способности сгенерировать код, относящийся к машинному обучению, и проверяли их на различных наборах данных и сценариях. Для анализа результатов мы разработали каркас для детальной оценки качества кода, включая возможность определения проблем в рантайме. Мы также проанализировали качество работы моделей в разных условиях, включая различные предложения (prompts) и настройки. Это позволило нам понять, какие факторы влияют на надежность и качество работы LLMs в сфере машинного обучения. ## Результаты В ходе наших экспериментов мы выявили несколько интересных закономерностей в поведении LLMs. Например, мы обнаружили, что некоторые модели, хотя и генерируют код, который компилируется, могут привести к ошибкам во время выполнения, которые не видны при проверке. Мы также обнаружили, что различные модели отличаются в том, насколько хорошо они учитывают характеристики данных и специфику целевой платформы. В частности, мы выявили, что ошибки часто возникают из-за несоответствия формата данных, недостаточного понимания задачи или ошибок в метаданных, которые могут не

Abstract

Large Language Models (LLMs) are increasingly used to automate software generation in embedded machine learning workflows, yet their outputs often fail silently or behave unpredictably. This article presents an empirical investigation of failure modes in LLM-powered ML pipelines, based on an autopilot framework that orchestrates data preprocessing, model conversion, and on-device inference code generation. We show how prompt format, model behavior, and structural assumptions influence both success rates and failure characteristics, often in ways that standard validation pipelines fail to detect. Our analysis reveals a diverse set of error-prone behaviors, including format-induced misinterpretations and runtime-disruptive code that compiles but breaks downstream. We derive a taxonomy of failure categories and analyze errors across multiple LLMs, highlighting common root causes and systemic fragilities. Though grounded in specific devices, our study reveals broader challenges in LLM-based code generation. We conclude by discussing directions for improving reliability and traceability in LLM-powered embedded ML systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация