📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Benchmarking LLMs in Web API Integration Tasks

2025-09-29

Авторы:

Daniel Maninger, Leon Chemnitz, Amir Molzam Sharifloo, Jannis Brugger, Mira Mezini

## Контекст В современном цифровом мире API-интеграция является ключевым компонентом создания современных программных систем. Однако ручное создание кода для интеграции с веб-API часто является задачей, требующей значительных усилий и ресурсов. Несмотря на то, что Большие Лингвистические Модели (LLM) стали популярны в сфере разработки программного обеспечения, их потенциал в автоматизации генерации кода для интеграции с веб-API еще не до конца изучен. Это включает в себя автоматическое создание кода для вызова веб-API, что требует точного понимания запросов и ответов, а также обработки специфических требований API. Было проведено исследование, чтобы оценить эффективность LLMs в этой области и выявить существующие проблемы в их применении. ## Метод Для оценки способностей LLMs в задачах интеграции с веб-API была разработана подробная методология. Основной элемент этой методологии является создание датасета с реальными задачами интеграции с веб-API, который включает запросы и ответы, а также спецификации API. Модели LLM были применены для генерирования кода, соответствующего этим задачам. Результаты этих генераций были измерены на основе точности кода, правильности вызовов и отсутствия ошибок. Также были проведены эксперименты с различными LLM, включая общедоступные модели с открытым кодом, для сравнения их производительности. ## Результаты В результате проведенных экспериментов было обнаружено, что генерация кода для вызова веб-API представляет собой сложную задачу для LLMs. В тестах было замечено, что модели часто создают неточный код, включая ошибки в использовании аргументов, неверные URL-адреса, и даже создание несуществующих API-конечных точек. Ни одна открытая модель LLM не смогла решить более 40% задач, что указывает на существующие ограничения в их подходе к этой задаче. Эти результаты подтверждают, что генерация кода для веб-API-интеграции является задачей, требующей больших усилий для достижения высокой точности и надежности. ## Значимость Эти результаты имеют значительное значение для области разработки программного обеспечения, особенно для тех, кто работает с API-интеграцией. Несмотря на то, что LLMs могут сэкономить время и усилия, они еще не достигли уровня достоверности, необходимого для автоматизированного создания кода в этой области. Этот подход может быть применен в ситуациях, когда требуется быстрая разработка, но требуется ручное внимание для проверки результатов. Будущие исследования могут сфокусироваться на улучшении точности и качества генерируемого кода, а также на расширении возможностей LLMs в сложных за

Annotation:

API integration is a cornerstone of our digital infrastructure, enabling software systems to connect and interact. However, as shown by many studies, writing or generating correct code to invoke APIs, particularly web APIs, is challenging. Although large language models (LLMs) have become popular in software development, their effectiveness in automating the generation of web API integration code remains unexplored. In order to address this, we present a dataset and evaluation pipeline designed ...

ID: 2509.20172v2 cs.SE, cs.LG

arXiv PDF

📄 Design, Implementation and Evaluation of a Novel Programming Language Topic Classification Workflow

2025-09-27

Авторы:

Michael Zhang, Yuan Tian, Mariam Guizani

## Контекст Современные программные системы adquiren значительный размер и сложность, что приводит к усложнению понимания их структуры и работы. Особенно важной является возможность точного определения распределения программирования тем в исходном коде. Эта возможность играет ключевую роль при принятии технических решений, улучшении процессов внедрения, создании утилит и разработке образовательных материалов. Тематическое классифицирование кода позволяет выявлять ключевые компоненты, такие как шаблоны, наследование, виртуальные функции и операторы перегрузки. Однако существующие методы часто недостаточно точны или не подходят для определения локальных элементов кода. Данная работа стремится решить эти проблемы, обеспечив более точное и эффективное классифицирование тем в исходном коде. ## Метод Для решения поставленной задачи был разработан инновационный подход к классификации тем в исходном коде. Методология основывается на сверточной нейронной сети, которая обладает высокой точностью и мощью в обработке больших корпусов данных. Ключевым элементом методики является способность работать с многомерными объектами, что позволяет охватить локальные компоненты кода. Была использована модель Support Vector Machine (SVM) с трёхмерным вектором, позволяющим выявить тонкие отличия в тематической разметке. Кроме того, была применена методика скользящего окна с алгоритмом голосования, чтобы улучшить точность классификации. Данный подход был проверен на имеющихся данных, чтобы подтвердить его эффективность. ## Результаты На основе данных из Project CodeNet были проведены эксперименты для оценки эффективности разработанного подхода. Модель достигла средней F1-меры в 0.90 для различных тем и 0.75 для кода-тематического выделения. Эти результаты показывают, что модель способна значительно улучшить точность классификации тем в коде. Особенно выдающимися результатами были замечены в случае локальных компонентов, таких как шаблоны и наследование. Эти результаты подтверждают, что разработанный подход может стать важной инструментой для анализа кода и повышения качества программных систем. ## Значимость Разработанный подход имеет широкие перспективы применения в различных областях. Он может быть использован в инструментах разработки программного обеспечения для упрощения процесса внедрения и улучшения понимания кода. Также он полезен в образовательных программах, позволяя учить новичкам лучшим практикам в программировании. Наконец, данный подход может быть использован в сфере анализа кода, чтобы предоставить более точные инсайты для решения задач тестирования и поддержки. ## Выводы В результате данного ис

Annotation:

As software systems grow in scale and complexity, understanding the distribution of programming language topics within source code becomes increasingly important for guiding technical decisions, improving onboarding, and informing tooling and education. This paper presents the design, implementation, and evaluation of a novel programming language topic classification workflow. Our approach combines a multi-label Support Vector Machine (SVM) with a sliding window and voting strategy to enable fin...

ID: 2509.20631v1 cs.SE, cs.LG

arXiv PDF

📄 Benchmarking Web API Integration Code Generation

2025-09-26

Авторы:

Daniel Maninger, Leon Chemnitz, Amir Molzam Sharifloo, Jannis Brugger, Mira Mezini

## Контекст API integration является ключевым элементом современной цифровой инфраструктуры, обеспечивая взаимодействие между программными системами. Однако создание или генерация кода для вызова API, особенно веб-API, является затруднительной задачей. Несмотря на то, что большие языковые модели (LLMs) набирают популярность в разработке программного обеспечения, их эффективность в автоматизации генерирования кода для интеграции веб-API пока неизучена. Для заполнения этого пробела, авторы предлагают датасет и процедуру оценки, позволяющие измерить способность LLMs сгенерировать код для вызова веб-API. ## Метод Проведена аналитическая модель, основанная на датасете, содержащем задачи интеграции веб-API. Датасет был сконструирован на основе реальных случаев, включая различные сценарии использования веб-API. Для оценки моделей использовались несколько LLMs, включая те, которые доступны как открытый код. Метод включал в себя этапы создания задач, оценки результатов и сравнения моделей. ## Результаты Эксперименты показали, что генерация кода для вызова веб-API является сложной задачей. Многие модели сгенерировали недостоверные или совсем неверные коды, включая несуществующие конечные точки и неправильно используемые аргументы. Ни одна открытая модель не смогла решить более 40% задач. Это указывает на существующие ограничения в текущих LLMs при работе с конкретными задачами интеграции API. ## Значимость Результаты имеют большое значение для развития технологий генерирования кода и интеграции API. Они могут быть применены в сферах, где необходима автоматизация разработки программного обеспечения, в том числе в разработке веб-приложений и сервисов. Несмотря на ограничения, эти находки могут побудить развитие более точных и надежных моделей для решения задач API-интеграции. ## Выводы Главные достижения статьи заключаются в разработке датасета и оценке способности LLMs генерировать код для вызова веб-API. Однако в результатах значительные ограничения, которые открывают путь для будущих исследований в области улучшения моделей и адаптации их к специфике API-интеграции.

Annotation:

API integration is a cornerstone of our digital infrastructure, enabling software systems to connect and interact. However, as shown by many studies, writing or generating correct code to invoke APIs, particularly web APIs, is challenging. Although large language models~(LLMs) have become popular in software development, their effectiveness in automating the generation of web API integration code remains unexplored. In order to address this, we present a dataset and evaluation pipeline designed ...

ID: 2509.20172v1 cs.SE, cs.LG

arXiv PDF

📄 Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs

2025-09-25

Авторы:

Juyeon Yoon, Somin Kim, Robert Feldt, Shin Yoo

#### Контекст Современное программирование становится все более зависимым от возможностей Large Language Models (LLMs), которые применяются в областях, таких как естественномочный понимание, анализ и генерация кода. Однако тестирование LLMs на специфических задачах остается нетривиальной и дорогостоящей задачей. Одна из проблем заключается в том, что многие промежуточные промежуточные модели не имеют полного множества тестов, что приводит к необходимости использовать человеческое суждение. Другая проблема заключается в том, что существующие методы оценки полноты и неопределенности часто требуют полного выполнения модели, что увеличивает затраты на тестирование. Ключевым вызовом является разработка метода, который мог бы оценивать критерии соответствия тестов к задачам до генерации выходных данных. #### Метод Мы предлагаем CLOTHO, подход к оценке критериев соответствия задач на основе предварительной модели, который основывается на анализе скрытых состояний LLM. Для набора необученных входных данных CLOTHO использует Гауссову смесь моделей (GMM) для примерно отображения самых проблемных случаев, которые могут быть отнесены к человеческой оценке. Этот метод позволяет генерировать набор примеров, который можно оценить в пределах 5-10% от всего набора данных. Затем эти примеры могут быть использованы для определения неопределенности и более точной оценки других входных данных. CLOTHO также может работать с LLMs разных типов, включая проприетарные модели, что увеличивает гибкость и эффективность. #### Результаты В нашем исследовании мы применили CLOTHO к 8 бенчмаркам и 3 LLMs. Мы показали, что метод может предсказать неуспехи с ROC-AUC в 0.716, используя только 5.4% от входных данных для тестирования. Таким образом, CLOTHO уменьшает затраты на тестирование, поскольку оценивает критерии соответствия до генерации выходных данных. По сравнению с безрандонным тестированием, CLOTHO увеличивает количество неудачных примеров с 18.7 до 42.5 на 100, что позволяет более эффективно использовать модели. Наши результаты также показали, что критерии соответствия, выявленные на open-weight моделях, могут быть эффективно перенесены на проприетарные модели, что увеличивает широту применения метода. #### Значимость CLOTHO может быть применен в различных областях, где LLMs используются для тестирования специфических задач. Он обеспечивает эффективный и компактный подход к оценке критериев соответствия, что позволяет экономить ресурсы при тестировании. Важно, что CLOTHO может применяться к обоим открытым и закрытым моделям, что расширяет его область применения. Будущие исследования будут направлены на улучшение точности о

Annotation:

Software increasingly relies on the emergent capabilities of Large Language Models (LLMs), from natural language understanding to program analysis and generation. Yet testing them on specific tasks remains difficult and costly: many prompts lack ground truth, forcing reliance on human judgment, while existing uncertainty and adequacy measures typically require full inference. A key challenge is to assess input adequacy in a way that reflects the demands of the task, ideally before even generatin...

ID: 2509.17314v2 cs.SE, cs.LG

arXiv PDF

📄 Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs

2025-09-24

Авторы:

Juyeon Yoon, Somin Kim, Robert Feldt, Shin Yoo

## Контекст В последние годы роль крупных языковых моделей (LLMs) в программном обеспечении неуклонно растет. Они применяются в широком круге задач, включая естественное языковое понимание, программный анализ и генерацию. Однако тестирование LLMs на заданную задачу остается нетривиальной и дорогостоящей задачей. Особенно проблематична проверка качества ввода (input adequacy) для LLMs, которая должна отражать специфику задачи. Традиционные меры доверия или неопределенности часто требуют полного вывода модели, что увеличивает стоимость тестирования. Для улучшения этого процесса необходимо разработать метод, который предварительно оценивал качество ввода относительно задачи, идеально — до начала генерации. ## Метод Мы предлагаем **CLOTHO** — метод оценки качества ввода, ориентированный на конкретную задачу и работающий до начала генерации ответов модели. CLOTHO основывается на **Gaussian Mixture Model (GMM)**, которая адаптивно определяет наиболее информативные случаи для ручного обозначения. Выбор этих случаев осуществляется на основе широкой выборки необъявленных входов для задачи. Алгоритм CLOTHO ведет себя следующим образом: после инициализации на основе выборки, он может оценивать вероятность неудачи для других входов, не требуя полного вывода модели. Это позволяет эффективно структурировать тестирование, оптимизировав набор входов для последующей проверки. ## Результаты Мы провели эксперименты на восьми задачах с использованием трех LLMs с открытыми весами. Метод CLOTHO продемонстрировал высокую точность в предсказании неудач, достигнув ROC-AUC 0.716 при оценке только 5.4% от общего количества входов. Мы также провели сравнение CLOTHO с другими методами оценки неопределенности, показав, что он эффективнее раннего определения неудач. Кроме того, мы продемонстрировали, что классификаторы, обученные на открытых моделях LLMs, эффективно переводятся и на подходящие задачи при использовании проприетарных моделей. ## Значимость CLOTHO может применяться в различных областях, где LLMs применяются для задач, требующих высокого качества ввода. Он позволяет экономить время и ресурсы, делая тестирование более эффективным. Наши результаты показывают, что CLOTHO может значительно увеличить число определяемых неудачных входов, обеспечивая повышенное качество теста. Это делает его привлекательным для использования в контексте тестирования новых LLMs, в том числе в сценариях, где используются закрытые модели. ## Выводы Результаты наших исследований показали, что CLOTHO эффективно оценивает качество ввода до начала генерации, позволяя экономить ресурсы. Мы также доказали, что модели, обученные на открытых моделях LLMs

Annotation:

ID: 2509.17314v1 cs.SE, cs.LG

arXiv PDF

📄 When Bugs Linger: A Study of Anomalous Resolution Time Outliers and Their Themes

2025-09-23

Авторы:

Avinash Patil

#### Контекст Отладка и устранение неполадок в программном обеспечении являются критическими для поддержания его качества и удовлетворения пользователей. Однако некоторые баги (bug reports), называемые "ангар-баги", имеют необычно долгий поток устранения неполадок. Это может указывать на проблемы в процессе разработки или сложности в устранении данных неполадок. Целью данного исследования является анализ этих выбросов в резолюционном времени (resolution time) и их тематического анализа. #### Метод Для определения выбросов в резолюционном времени были применены статистические методы, включая Z-score и Interquartile Range (IQR). Для выделения тематики багов были использованы алгоритмы TF-IDF (Term Frequency-Inverse Document Frequency) для извлечения текстовых признаков и KMeans кластеризации для группировки похожих описаний багов. Исследование проводилось на данных семи открытых проектов: Cassandra, Firefox, Hadoop, HBase, SeaMonkey, Spark и Thunderbird. #### Результаты Обнаружены значительные выбросы в резолюционном времени, которые сгруппированы вокруг тем, таких как проблемы с тестами (test failures), запросы на улучшение (enhancement requests) и проблемы с пользовательским интерфейсом (user interface issues). Эти темы повторяются во всех проектах, что указывает на общие проблемы в процессе разработки. Результаты показывают, что факторы, такие как сложность бага и его уровень критичности, влияют на долгое резолюционное время. #### Значимость Результаты данного исследования могут быть применены во многих областях, например, для улучшения процессов управления проектами, построения эффективных трекеров багов и уменьшения времени резолюции "ангар-багов". Этот подход позволяет проекту разработчикам сфокусироваться на самых важных проблемах и эффективно управлять ресурсами. #### Выводы Исследование выделило значительные выбросы в резолюционном времени, связанные с конкретными темами, такими как тестирование, улучшения и проблемы с пользовательским интерфейсом. Будущие исследования будут направлены на более глубокий анализ этих тем и разработку конкретных стратегий для устранения этих проблем. Это может привести к улучшению процессов разработки и увеличению качества программного обеспечения.

Annotation:

Efficient bug resolution is critical for maintaining software quality and user satisfaction. However, specific bug reports experience unusually long resolution times, which may indicate underlying process inefficiencies or complex issues. This study presents a comprehensive analysis of bug resolution anomalies across seven prominent open-source repositories: Cassandra, Firefox, Hadoop, HBase, SeaMonkey, Spark, and Thunderbird. Utilizing statistical methods such as Z-score and Interquartile Range...

ID: 2509.16140v1 cs.SE, cs.LG

arXiv PDF

📄 MatchFixAgent: Language-Agnostic Autonomous Repository-Level Code Translation Validation and Repair

2025-09-23

Авторы:

Ali Reza Ibrahimzada, Brandon Paulsen, Reyhaneh Jabbarvand, Joey Dodds, Daniel Kroening

#### Контекст Код перевод (code translation) — это процесс преобразования исходного кода из одного языка программирования (PL) в другой. Он широко используется для портирования программ, обновления старых кодов и адаптации исходного кода к новым средствам разработки. Гарантия функциональной эквивалентности перевода и исправление ошибок, если они возникают, является критически важной задачей в этой области. Несмотря на некоторые усилия в развитии автоматизированных систем для проверки эквивалентности и исправления кода, существуют значительные проблемы, связанные с нехваткой гибкости, высоким техническим затратам и недостаточной общностью. Эти проблемы порождают ложные срабатывания или недостаточно заметные исправления, что в итоге приводит к недостаточному качеству перевода. Эти проблемы мотивируют развитие универсальных, платформонезависимых и автоматизированных систем для проверки и исправления переводов кода. #### Метод "MatchFixAgent" — это новая гибридная система, основанная на больших языковых моделях (LLM), предназначенная для решения проблем функциональной эквивалентности и исправления ошибок в переводе кода. Основой системы является многоагентная архитектура, где каждый агент отвечает за отдельную субзадачу. Агент **Equivalence Validation Agent** выполняет подробный семантический анализ исходного кода и его перевода, предоставляя результаты для **Test Agent**, который генерирует и выполняет тесты для проверки эквивалентности. Если тесты завершаются неудачно, то **Repair Agent** пытается исправить ошибку в переводе, используя техники машинного обучения. Наконец, **Verdict Agent** синтезирует все результаты и принимает решение об эквивалентности. Эта система работает в платформонезависимой форме, позволяя работать с любыми парами языков программирования. #### Результаты Мы проверили MatchFixAgent на датасете, состоящем из 2,219 переводов из 6 пар языков программирования, собранных из 24 репозиториев GitHub с общим объемом более 900,000 строк кода. Мы сравнили нашу систему с четырьмя текущими методами проверки и исправления переводов. Результаты показали, что MatchFixAgent дает окончательные вердикты на 99.2% всех переводов, согласующиеся с результатами предыдущих методов на 72.8% случаев. Более интересно, когда результаты MatchFixAgent отличаются от ожиданий, 60.7% из них оказываются верными. Кроме того, мы показали, что MatchFixAgent может исправить 50.6% неэквивалентных переводов, в то время как предыдущие методы делали это только в 18.5% случаев. Это показывает, что наш подход значительно более эффективен и универсален. #### Значимость MatchFixAgent может применяться во многих областях, где

Annotation:

Code translation transforms source code from one programming language (PL) to another. Validating the functional equivalence of translation and repairing, if necessary, are critical steps in code translation. Existing automated validation and repair approaches struggle to generalize to many PLs due to high engineering overhead, and they rely on existing and often inadequate test suites, which results in false claims of equivalence and ineffective translation repair. We develop MatchFixAgent, a l...

ID: 2509.16187v1 cs.SE, cs.LG

arXiv PDF

📄 Monitoring Machine Learning Systems: A Multivocal Literature Review

2025-09-20

Авторы:

Hira Naveed, Scott Barnett, Chetan Arora, John Grundy, Hourieh Khalajzadeh, Omar Haggag

## Контекст Мониторинг машинного обучения (ML) в динамичных производственных средах является ключевым аспектом для обеспечения надежности и качества моделей ML. Несмотря на то, что ML решения позволяют автоматизировать и улучшать многие процессы, неожиданные изменения в данных или операционных условиях могут привести к ухудшению производительности моделей. Это может привести к потере доверия пользователей и негативным последствиям для организаций. Мониторинг помогает обнаружить и устранить такие проблемы в ранней стадии, снижая риск их развития. Однако существуют различия в подходах к мониторингу, а также проблемы в текущих решениях. Уточнение мотивации, целей и сферы применения мониторинга помогает создать более точный пакет мер, способствующих повышению надежности и эффективности ML-систем. ## Метод Мы провели многоголосую литературную рецензию (MLR), основываясь на руководстве Garousi. Мы проанализировали 136 статей, раскрыв четыре ключевых области: (1) мотивации, целей и контекста мониторинга ML, (2) мониторинга технических аспектов, метрик и инструментов, (3) вклад и пользу, (4) текущие ограничения. Мы также привлекли сведения из серой литературы (серых публикаций), которая часто не учитывается в классических литературных обзорах. Это позволило нам увидеть сходства и разрывы между формальными и неформальными источниками. ## Результаты Мы получили подробную визуализацию текущих направлений в мониторинге ML, выделив стандартные методы, новые подходы и проблемы. Мы сосредоточились на определении мотиваций и целей мониторинга, определили самые часто используемые техники и метрики, а также выявили слабые места в нынешних решениях. Многоголосая литературная рецензия позволила обнаружить общие стратегии и различия в работах, что улучшило понимание современных подходов и недостатков в области мониторинга ML. ## Значимость Мониторинг ML может применяться в различных сферах, включая финансы, здравоохранение, переподготовку моделей и т. д., где надежность и качество выводов ML-систем критически важны. Наше исследование предоставляет базу для выбора наиболее подходящих технологий и инструментов для мониторинга, а также подчеркивает недостатки нынешних подходов. Это означает, что наши рекомендации могут влиять на развитие будущих инструментов и методов мониторинга, повышая уровень надежности и эффективности ML-систем. ## Выводы Мы изучили текущие методы мониторинга ML и выделили главные направления для будущих исследований. Основные достижения включают уточнение мотиваций, определение распространенных и новых подхо

Annotation:

Context: Dynamic production environments make it challenging to maintain reliable machine learning (ML) systems. Runtime issues, such as changes in data patterns or operating contexts, that degrade model performance are a common occurrence in production settings. Monitoring enables early detection and mitigation of these runtime issues, helping maintain users' trust and prevent unwanted consequences for organizations. Aim: This study aims to provide a comprehensive overview of the ML monitoring ...

ID: 2509.14294v1 cs.SE, cs.LG

arXiv PDF

📄 CARGO: A Framework for Confidence-Aware Routing of Large Language Models

2025-09-20

Авторы:

Amine Barrak, Yosr Fourati, Michael Olchawa, Emna Ksontini, Khalil Zoghlami

## Контекст С появлением крупных языковых моделей (LLMs), развитие системы для эффективного их использования стало ключевым заданием для оптимизации производительности и стоимости. Одним из ключевых вопросов является выбор наилучшей модели для каждого запроса в зависимости от его характеристик. Это становится особенно важно при работе с моделями с разными специализациями и производительностью. Недостаток доступных данных для обучения моделей, а также высокая стоимость их тренировки, приводят к необходимости разработки эффективных фреймворков для их выбора. CARGO — это инновационный подход, нацеленный на достижение эффективного выбора моделей с учетом их достоинств и недостатков. ## Метод CARGO представляет собой двухступенчатый подход к выбору модели. В первой стадии используется нейронная сеть, обученная на парных сравнениях моделей, для предсказания производительности моделей. Во второй стадии, когда необходимость в выборе модели неясна, применяется бинарный классификатор. Используя LLM-подобную архитектуру, CARGO обеспечивает надежный выбор моделей, включая категориальные модели для четкой области, таких как математика, кодирование, рассуждения, сводки и творческая письменность. Метод CARGO позволяет достичь профессионального качества выбора моделей с минимальной нагрузкой на вычисления. ## Результаты CARGO был протестирован на 4 моделях LLMs: GPT-4o, Claude 3.5 Sonnet, DeepSeek V3 и Perplexity Sonar. Он показал высокую точность выбора (76.4%) и выигрышные результаты против любых индивидуальных моделей. Также CARGO был тестирован на категориальных моделях, показав выигрышные результаты в 5 задачных группах. Эти результаты подтверждают, что CARGO может обеспечить эффективное выбор моделей с минимальными ресурсами. ## Значимость CARGO предлагает практическое решение для развертывания LLMs в реальном мире, где необходимо быстро выбирать модели в зависимости от задач. Он обеспечивает точный выбор моделей, сохраняя необходимое качество и снижая ресурсозатраты. CARGO может применяться в различных сферах, например, в образовании, техническом сопровождении и творчестве. ## Выводы Разработка CARGO достигла преемственного шага в выборе моделей LLMs, обеспечивая профессиональное качество выбора, даже с ограниченными ресурсами. Будущие исследования будут сосредоточены на расширении области применения CARGO и его интеграции с разными типами моделей.

Annotation:

As large language models (LLMs) proliferate in scale, specialization, and latency profiles, the challenge of routing user prompts to the most appropriate model has become increasingly critical for balancing performance and cost. We introduce CARGO (Category-Aware Routing with Gap-based Optimization), a lightweight, confidence-aware framework for dynamic LLM selection. CARGO employs a single embedding-based regressor trained on LLM-judged pairwise comparisons to predict model performance, with an...

ID: 2509.14899v1 cs.SE, cs.LG

arXiv PDF

📄 Analysing Python Machine Learning Notebooks with Moose

2025-09-17

Авторы:

Marius Mignard, Steven Costiou, Nicolas Anquetil, Anne Etien

## Контекст Машинное обучение (ML), особенно в контексте ноутбуков, часто страдает от низкого качества кода. Несоблюдение общих правил программирования в Python, неудобная структура ноутбука и недостаточное применение ML-специфических практик, таких как отслеживание истории использования API или тестирование моделей, приводят к значительным проблемам. Ограниченные существующие инструменты способностью контекстуализировать проблемы во всех этих уровнях, что снижает их эффективность в обнаружении и устранении ошибок. ## Метод Мы предлагаем Vespucci Linter, инструмент статического анализа, основанный на концепции metamodeling. Он позволяет объединить структурные элементы ноутбука с кодом на Python, обеспечивая универсальную архитектуру для проведения контекстуализированного анализа. Инструмент поддерживает 22 правил, основанных на литературе и практике, и содержит возможности для трех уровней анализа: общих практик, структуры ноутбука и ML-специфических аспектов. Мы использовали этот инструмент для анализа 5000 ноутбуков с Kaggle и сравнили результаты с текущими инструментами. ## Результаты Выявлены проблемы на всех уровнях, что подтвердило эффективность Vespucci Linter. Особое внимание уделяется ML-специфическим проблемам, таким как несоответствия в использовании API и неправильное тестирование моделей. Результаты демонстрируют, что Vespucci Linter может предоставить более глубокий и контекстуальный анализ, чем существующие инструменты. ## Значимость Vespucci Linter может применяться во всех сферах разработки ML, где используются ноутбуки. В частности, он привносит революционные возможности в ландшафт анализа кода, позволяя разработчикам обнаруживать и устранять ошибки на разных уровнях. Это способствует улучшению качества кода, уменьшению частоты ошибок и повышению надежности ML-моделей. ## Выводы Выдвигаемый инструмент Vespucci Linter доказывает свою эффективность в контекстуальном анализе ноутбуков. Он может использоваться для улучшения качества разработки ML и обеспечения надежности. Будущие исследования будут фокусироваться на расширении правил анализа и интеграции инструмента с другими средствами разработки.

Annotation:

Machine Learning (ML) code, particularly within notebooks, often exhibits lower quality compared to traditional software. Bad practices arise at three distinct levels: general Python coding conventions, the organizational structure of the notebook itself, and ML-specific aspects such as reproducibility and correct API usage. However, existing analysis tools typically focus on only one of these levels and struggle to capture ML-specific semantics, limiting their ability to detect issues. This pap...

ID: 2509.11748v1 cs.SE, cs.LG

arXiv PDF

Показано 31 - 40 из 55 записей