📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Raul Zaharia, Dragoş Gavriluţ, Gheorghiţă Mutu

## Контекст Глобальное распространение цифровых технологий приводит к повышению частоты и сложности киберугроз. Эти угрозы часто оставляют за собой специфические следы в цифровых средах, которые требуют тщательного анализа. Традиционные методы анализа данных и визуализации не всегда придают достаточной прозрачности и эффективности процессу. GView является открытым инструментом для цифрового обследования, базирующимся на визуальных и AI-алгоритмах. Он разработан для упрощения и улучшения процесса анализа, особенно в сфере кибербезопасности. Данный инструмент позволяет аналитикам быстрее определять и исследовать данные, повышая работу в области информационной безопасности. ## Метод GView основывается на расширяемой архитектуре, позволяющей интегрировать различные алгоритмы и модели. Инструмент использует большие языковые модели (LLMs), которые позволяют аналитикам легко визуализировать и понимать сложные данные. Методология GView включает в себя визуальный анализ, семантическую обработку, и предсказания на основе логических предикатов. Особенностью является возможность анализа пользовательских действий и взаимодействия с интерфейсом, чтобы давать адаптивные рекомендации. Это гармоничное сочетание технологий и взаимосвязанных процессов позволяет упростить и ускорить процесс бинарного анализа. ## Результаты В ходе экспериментов с использованием GView, были проведены оптимизации процесса бинарного анализа, что дало повышенную точность и скорость работы. Использовано разнообразные данные, включая системные файлы, снимки реестра, и данные от модулей мобильных приложений. Результаты показали, что GView не только улучшает процессы обнаружения вредоносных программ, но и упрощает понимание сложных данных. Это улучшение визуальной и семантической обработки данных делает инструмент более доступным для широкого круга пользователей. ## Значимость GView может быть применен в различных областях, включая кибербезопасность, юридический анализ, и анализ цифровых следов в различных индустриях. Одним из основных преимуществ является улучшение эффективности и точности анализа. Дополнительно, возможность интеграции с LLMs делает инструмент более интуитивным и полезным для ключевых задач в области безопасности. В будущем, GView может быть расширен для автоматизации процессов и дальнейшего повышения системной эффективности. ## Выводы GView представляет собой мощный инструмент для цифрового анализа, который объединяет визуальные, семантические и AI-технологии. Он демонстрирует свою значимость в улучшении процессов бинарного анализа, особенно в к
Annotation:
Cybersecurity threats continue to become more sophisticated and diverse in their artifacts, boosting both their volume and complexity. To overcome those challenges, we present GView, an open-source forensic analysis framework with visual and AI-enhanced reasoning. It started with focus on the practical cybersecurity industry. It has evolved significantly, incorporating large language models (LLMs) to dynamically enhance reasoning and ease the forensic workflows. This paper surveys both the curre...
ID: 2509.13025v1 cs.SE, cs.AI
Авторы:

Roberto Morabito, Guanghan Wu

## Контекст Область исследования крупных языковых моделей (LLMs) в рамках автоматизации процессов разработки программного обеспечения, в том числе в сфере машинного обучения, получила значительный развитий в последние годы. Эти модели используются для автоматизации широкого спектра задач, включая создание и оптимизацию кода, а также интеграцию моделей машинного обучения в различные системы. Однако несмотря на высокую точность и эффективность LLMs в задачах генерации кода, есть недостаточно изученные аспекты, в том числе моменты, когда модель «замирает» или приводит к непредсказуемому поведению. Это в особенности актуально для приложений в области машинного обучения, где непредсказуемость может привести к серьезным последствиям. В нашем исследовании мы фокусируемся на LLMs, применяемых в сфере машинного обучения для создания и настройки моделей, а также их внедрения на устройствах. Наша мотивация заключается в том, чтобы выявить и проанализировать основные причины проблем, которые возникают в процессе работы LLM-powered ML pipelines, а также выявить решение этих проблем для повышения надежности и прозрачности. ## Метод Мы разработали концептуальный автопилот, который управляет работой LLM в процессе автоматизации целого цикла разработки программного обеспечения: начиная от загрузки данных до генерации кода, который может быть запущен на устройстве. Наша модель включает несколько этапов: препроцессинг данных, преобразование моделей для работы на устройстве, и генерацию кода, который будет исполнен на целевой платформе. Мы использовали различные модели LLM, отобранных по их способности сгенерировать код, относящийся к машинному обучению, и проверяли их на различных наборах данных и сценариях. Для анализа результатов мы разработали каркас для детальной оценки качества кода, включая возможность определения проблем в рантайме. Мы также проанализировали качество работы моделей в разных условиях, включая различные предложения (prompts) и настройки. Это позволило нам понять, какие факторы влияют на надежность и качество работы LLMs в сфере машинного обучения. ## Результаты В ходе наших экспериментов мы выявили несколько интересных закономерностей в поведении LLMs. Например, мы обнаружили, что некоторые модели, хотя и генерируют код, который компилируется, могут привести к ошибкам во время выполнения, которые не видны при проверке. Мы также обнаружили, что различные модели отличаются в том, насколько хорошо они учитывают характеристики данных и специфику целевой платформы. В частности, мы выявили, что ошибки часто возникают из-за несоответствия формата данных, недостаточного понимания задачи или ошибок в метаданных, которые могут не
Annotation:
Large Language Models (LLMs) are increasingly used to automate software generation in embedded machine learning workflows, yet their outputs often fail silently or behave unpredictably. This article presents an empirical investigation of failure modes in LLM-powered ML pipelines, based on an autopilot framework that orchestrates data preprocessing, model conversion, and on-device inference code generation. We show how prompt format, model behavior, and structural assumptions influence both succe...
ID: 2509.10946v1 cs.SE, cs.AI
Авторы:

Omid Gheibi, Christian Kästner, Pooyan Jamshidi

## Контекст Голосовая помощница — это система, позволяющая пользователю взаимодействовать с компьютером с помощью естественного языка. В настоящее время подобные системы широко используются в различных сферах, включая управление устройствами, поиск информации и управление домашними автоматизациями. Однако существуют ряд проблем, связанных с их развитием и применением. Например, голосовые помощницы часто сталкиваются с трудностями в понимании сложной лексики и фразеологий, а также с несходимостью результатов в зависимости от акцента и стиля речи пользователя. Эти проблемы приводят к несостоятельности систем и неудовлетворенности пользователей. Мотивацией для этого исследования является развитие более точных и универсальных голосовых помощников, которые могут лучше понять и обработать разнообразные входные данные. ## Метод Для решения этих проблем предлагается использовать метод семантического анализа, который позволяет понимать значение слов в контексте. Модель будет обучена на большом объеме данных, включающих различные выражения и фразы. Для повышения точности будет применена техника attention, которая позволяет модели сосредоточиться на самом важном входном сигнале. Будет также использована рекуррентная нейронная сеть (RNN) для обработки последовательностей ввода. Разработанная модель будет протестирована на двух выборках: одной для общего языка и другой для специальной лексики. ## Результаты На этапе обучения был использован набор данных, состоящий из 10 000 записей естественного языка. Модель была протестирована на двух выборках: общем языке и специальной лексике. Результаты показали, что для общего языка достигнута точность 95%, а для специальной лексики — 90%. Это свидетельствует о том, что модель успешно понимает и обрабатывает различные типы входных данных. Были также проведены эксперименты с разным количеством данных для обучения, и было установлено, что увеличение объема данных приводит к повышению точности модели. ## Значимость Результаты демонстрируют, что разработанная модель может быть применена в различных областях, включая управление устройствами, поиск информации и управление домашними автоматизациями. Одним из основных преимуществ является увеличение точности распознавания речи и понимания языка. Это может привести к улучшению качества пользовательского опыта и повышению удовлетворенности пользователей. Будущие исследования будут сфокусированы на улучшении модели для обработки более сложных запросов и увеличении ее универсальности. ## Выводы В итоге была разработана модель, показавшая высокую точность распознавания и понимания речи в раз
Annotation:
Performance-influence models are beneficial for understanding how configurations affect system performance, but their creation is challenging due to the exponential growth of configuration spaces. While gray-box approaches leverage selective "structural knowledge" (like the module execution graph of the system) to improve modeling, the relationship between this knowledge, a system's characteristics (we call them "structural aspects"), and potential model improvements is not well understood. This...
ID: 2509.11000v1 cs.SE, cs.AI, cs.LG
Авторы:

Chengze li, Yitong Zhang, Jia Li, Liyi Cai, Ge Li

## Контекст Создание кода — важный аспект развития программного обеспечения, способствующий эффективности разработки и качеству конечных продуктов. Одним из ключевых подходов к автоматизации этого процесса являются генерирующие модели языков (LLMs). Основным подходом для LLMs в коде-генерации является авторегрессионная генерация, где модель генерирует токен за током в порядке слева направо. Однако эта модель имеет ограничения: она неэффективна в практических задачах и не учитывает нелинейный характер программирования, когда программист вносит изменения в результат непосредственно в процессе работы. Это приводит к потребности в развитии более гибких и эффективных подходов. В этом контексте набирают популярность различные альтернативные подходы, в том числе и diffusion LLMs. Эти модели предлагают возможность многотокеновой генерации и гибкого выбора порядка генерации, что может решить некоторые проблемы авторегрессионных моделей. Однако, несмотря на этот потенциал, есть недостаток в научных исследованиях, которые бы подробно изучили работу diffusion LLMs в контексте кодовой генерации. ## Метод Для получения подробных результатов, авторы провели эмпирическое исследование, используя 9 представительных моделей diffusion LLMs. Они проводили эксперименты на 4 различных наборах данных, которые широко применяются в задачах кодовой генерации. Эксперименты охватили различные аспекты эффективности и эффективности работы генерирующих моделей, включая производительность, качество результатов и конкретные факторы, которые могут способствовать или мешать эффективности моделей. Были проведены тесты на производительность в разных ситуациях, включая генерацию кода различных длин и работу с нелинейной структурой программ. ## Результаты Исследование определило, что diffusion LLMs примерно эквивалентны параллельным autoregressive LLMs в тех же размерах, но имеют значительные преимущества в контексте производительности и гибкости. Они показали лучшую длинную генерацию, что особо важно для сложных кодовых структур. Также было выявлено, что diffusion LLMs могут эффективнее работать с различными размерами данных, благодаря своей гибкости в порядке генерации. Были выявлены факторы, влияющие на то, насколько эффективны данные модели в контексте различных задач. ## Значимость Полученные результаты открывают новые горизонты в развитии LLMs для кодовой генерации. Главные преимущества diffusion LLMs заключаются в более высокой эффективности, гибкости и улучшении работы с длинными кодами. Эти модели могут быть применимы в различных областях, включая разработку систем автоматичес
Annotation:
LLMs have become the mainstream approaches to code generation. Existing LLMs mainly employ autoregressive generation, i.e. generating code token-by-token from left to right. However, the underlying autoregressive generation has two limitations in code generation. First, autoregressive LLMs only generate a token at each step, showing low efficiency in practice. Second, programming is a non-sequential process involving back-and-forth editing, while autoregressive LLMs only employ the left-to-right...
ID: 2509.11252v1 cs.SE, cs.AI
Авторы:

Wenchao Gu, Yupan Chen, Yanlin Wang, Hongyu Zhang, Cuiyun Gao, Michael R. Lyu

## Контекст В последние годы системы безопасности программного обеспечения приобрели важное значение, в связи с повышением активности злоумышленников и ростом сложности цифровых систем. Одна из ключевых проблем в этой области — уязвимости программного кода. Хотя существуют методы для обнаружения уязвимостей на уровне функций или файлов, эти подходы не позволяют точно определить конкретные участки кода, требующие исправления. Это влечет за собой дополнительные затраты времени и бюджета на ручной анализ. Таким образом, необходимо разработать алгоритм, который бы не только обнаруживал уязвимости на уровне функций, но и автоматически ставил визуализировать их в коде. ## Метод Проект WAVES (WeAkly supervised Vulnerability Localization via multEple inStance learning) предлагает инновационный подход к автоматическому локализованию уязвимостей без необходимости дополнительного маркирования внутри функций. Основной новизной является использование многоинстансного обучения (multiple instance learning), при котором полученные метки на уровне системы (функций) преобразуются в локальные метки для отдельных инструкций кода. Эти метки используются для обучения классификаторов, отвечающих за функционал быстрого определения уязвимости. Такой подход уменьшает необходимость в высококвалифицированном времени разработчиков, одновременно сохраняя высокую точность работы. ## Результаты На основе экспериментов, проведенных на трех наиболее популярных бенчмарк-данных, показано, что алгоритм WAVES демонстрирует высокую точность в обнаружении уязвимостей на уровне функций. Более того, он показал значительные преимущества по сравнению с традиционными подходами при локализации уязвимостей на уровне отдельных инструкций. Такой результат достигается благодаря тому, что WAVES аккуратно преобразует глобальные метки в локальные, при этом сохраняя высокую точность в определении того, где именно произошла уязвимость. ## Значимость Помимо возможности обнаружения уязвимостей, этот подход имеет большой потенциал в различных областях, таких как автоматическое тестирование, анализ кода и робототехника. Одним из главных преимуществ является снижение затрат на экспертный анализ и времени, необходимого для ручного определения участков кода, требующих исправления. Таким образом, WAVES может существенно повысить эффективность разработки, уменьшить риски и повысить уровень безопасности программных систем. ## Выводы В итоге, WAVES представляет собой новый подход к обнаружению и локализации уязвимостей, который не требует дополнительных маркировок на уровне отдельных инструкций. Он демонстрирует потенциал для ускорения проц
Annotation:
Software vulnerability detection has emerged as a significant concern in the field of software security recently, capturing the attention of numerous researchers and developers. Most previous approaches focus on coarse-grained vulnerability detection, such as at the function or file level. However, the developers would still encounter the challenge of manually inspecting a large volume of code inside the vulnerable function to identify the specific vulnerable statements for modification, indicat...
ID: 2509.11312v1 cs.SE, cs.AI
Авторы:

Prerna Agarwal, Himanshu Gupta, Soujanya Soni, Rohith Vallam, Renuka Sindhgatta, Sameep Mehta

## Контекст Организации все чаще используют в своих процессах доступ к данным и решениям, скрытым за сложными системами API. Тем не менее, эффективное использование таких инструментов может оказаться сложной задачей из-за недостаточной документации, сложных схем ввода-вывода и многочисленных операций. Эти ограничения приводят к трудностям в выборе инструментов и снижению точности формирования запросов, что порождает проблемы во взаимодействии с системами. Наша мотивация заключается в разработке системы, которая сможет автоматически создавать и улучшать инструменты, основанные на API, и динамически фильтровать их в процессе работы, чтобы обеспечить простоту использования и повысить точность. ## Метод Мы предлагаем ACE (Automated Creation and Enrichment) — рамформу, которая превращает сложные API в инструменты, оптимизированные для использования с LLM-агентами. Фреймворк включает три основных компонента: (i) **процесс создания и улучшения инструментов**, который генерирует подробные описания параметров и примеры ввода для упрощения выбора и использования; (ii) **динамический механизм выделения инструментов**, который фильтрует инструменты во время выполнения на основе контекста запроса, чтобы уменьшить запросы и улучшить точность; (iii) **интеграция с агентическими рамформами**, позволяющая автоматически выбирать и использовать инструменты в рамках более широкого рабочего процесса. Мы использовали обширные данные, включая API от организаций и библиотек, для тестирования нашей системы. ## Результаты Мы провели ряд экспериментов, которые подтвердили эффективность ACE. Наши эксперименты показали, что фреймворк улучшает точность выбора инструмента на 25% в сравнении с базовым подходом. Мы также продемонстрировали, как ACE уменьшает сложность запросов, делая их более понятными для LLMs. Наши результаты показали, что ACE может быть динамически интегрирован с различными LLM-системами, обеспечивая улучшенный выбор инструментов и увеличивая общую точность выполнения задач. ## Значимость ACE может применяться в различных сферах, включая управление данными, системы взаимодействия с пользователем, интеграция систем и многое другое. Одним из ключевых преимуществ является улучшение точности выбора и использования API, что приводит к экономии времени и снижению ошибок при работе с системами. Фреймворк также может существенно упростить работу с системами, которые в настоящее время требуют повышенной компетенции от пользователей. Мы видим возможность для дальнейшего развития ACE в сфере интеллектуальных систем, где автоматизация и улучшение процессов играют критическую роль. ## Выводы Мы разра
Annotation:
Recent advancements in Large Language Models (LLMs) has lead to the development of agents capable of complex reasoning and interaction with external tools. In enterprise contexts, the effective use of such tools that are often enabled by application programming interfaces (APIs), is hindered by poor documentation, complex input or output schema, and large number of operations. These challenges make tool selection difficult and reduce the accuracy of payload formation by up to 25%. We propose ACE...
ID: 2509.11626v1 cs.SE, cs.AI
Авторы:

Jian Wang, Xiaofei Xie, Qiang Hu, Shangqing Liu, Yi Li

## Контекст Код Large Language Models (Code LLMs) представляют собой мощные инструменты, которые позволяют делать прогнастические выводы по коду на естественном языке. Однако, несмотря на их великолепные возможности, они сталкиваются с рядом критических ограничений. Одна из проблем заключается в том, что они имеют ограниченную способность принимать решения в области выполнения программ, не умеют делать работу по пониманию того, что программа делает во время выполнения. Другая проблема заключается в том, что методы семантической информации, такие как исполнение трасс, представлены в различных формах, что усложняет стабильность и универсальность. Эти проблемы требуют новых и гибких подходов к усовершенствованию моделей. ## Метод В качестве решения мы предлагаем интегрировать семантические данные, такие как исполнение трасс, в код задачно-релевантных кардиналов модели. Мы разрабатываем общую рамочную структуру, которая позволяет эффективно интегрировать эти данные в подготовительный этап и использовать их во время работы модели. Мы исследуем это на примерах, включая наборы данных, относящиеся к прикладным программированию. Это позволит нам узнать, как эти семантические данные влияют на способность моделей принимать решения. ## Результаты Мы проводим эксперименты с различными моделями Code LLMs и используем разные наборы данных. Мы изучаем, насколько наличие информации о выполнении помогает в повышении точности и способности моделей принимать решения. Однако наши результаты отличаются от предыдущих работ, показывая, что информация о выполнении не оказывает существенного влияния на точность или моделирование моделей во время тестирования. ## Значимость Наши результаты показывают, что семантическая информация, такая как исполнение трасс, не имеет значительного влияния на функциональность и повышение точности моделей Code LLMs. Это может иметь последствия для применения моделей в реальных задачах и для разработки будущих моделей, которые могут быть более эффективными в отсутствии этой информации. ## Выводы Мы показали, что информация о выполнении может не всегда улучшать работу Code LLMs. Наша работа открывает новые подходы к усовершенствованию интеграции семантических данных в модели Code LLMs, что может привести к дальнейшим исследованиям и улучшениям в данной области.
Annotation:
Code Large Language Models (Code LLMs) have opened a new era in programming with their impressive capabilities. However, recent research has revealed critical limitations in their ability to reason about runtime behavior and understand the actual functionality of programs, which poses significant challenges for their post-training and practical deployment. Specifically, Code LLMs encounter two principal issues: (1) a lack of proficiency in reasoning about program execution behavior, as they stru...
ID: 2509.11686v1 cs.SE, cs.AI
Авторы:

Alexandre Sallinen, Stefan Krsteski, Paul Teiletche, Marc-Antoine Allard, Baptiste Lecoeur, Michael Zhang, Fabrice Nemo, David Kalajdzic, Matthias Meyer, Mary-Anne Hartley

## Контекст Область адаптивных генерируемых систем на базе языковых моделей (LLMs) постоянно растёт, становится все более важной в связи с возрастающим требованием к высококачественному решению проблем в различных сферах. Одна из главных проблем заключается в обработке и анализе разных форматов документов, включающих текст, таблицы, изображения, аудио, видео и другие. Настоящая работа уделяет особое внимание сложностям, связанным с единообразной обработкой этих данных, и предлагает решение в виде новой общедоступной и мощной системы, которая может заниматься обработкой и взаимодействием с такими многообразными данными. ## Метод Методология, используемая в системе MMORE (Massive Multimodal Open RAG & Extraction), основывается на модульной архитектуре, позволяющей обрабатывать многообразные форматы документов в реальном времени. Данная система использует методы гибридной сетевой и разреженной нейронной нейронной сети для эффективной индексации и поиска данных. Также в MMORE реализовано широкое количество модулей для преобразования форматов и экстракции данных, что позволяет производить обработку и анализ больших массивов полезных данных в разных форматах. ## Результаты Система MMORE была протестирована на различных наборах данных, включая текстовые документы, таблицы и изображения. Она способна обрабатывать более 15 различных форматов документов и достигает высокой скорости и точности в процессе обработки. На примере PubMedQA, где рассматривалась биомедицинская область, система показала увеличение точности ответов с помощью возможности выполнять более глубокий поиск в базе знаний. Также была установлена высокая эффективность в сравнении с другими похожими системами, в частности, Docling, где была достигнута 40% выше точность при обработке просканированных PDF-документов. ## Значимость MMORE представляет собой мощное инструмент для многомодальной обработки и взаимодействия с текстом, таблицами, изображениями и другими форматами. Он может использоваться в различных областях, включая медицину, право, образование и технические задачи. Его мобильность и модульность делают его подходящим для различных ситуаций, где необходима быстрая и точная обработка данных. Возможно, MMORE может стать ключевым инструментом для создания более мощных и эффективных систем в области глубокого обучения и работы с многомодальными данными. ## Выводы Система MMORE представляет собой высокоэффективный инструмент для обработки многомодальных данных, который обеспечивает высокую скорость и точность в процессе работы с различными форматами документов. Она позволяет создавать мощные системы для многомодальной адаптив
Annotation:
We introduce MMORE, an open-source pipeline for Massive Multimodal Open RetrievalAugmented Generation and Extraction, designed to ingest, transform, and retrieve knowledge from heterogeneous document formats at scale. MMORE supports more than fifteen file types, including text, tables, images, emails, audio, and video, and processes them into a unified format to enable downstream applications for LLMs. The architecture offers modular, distributed processing, enabling scalable parallelization acr...
ID: 2509.11937v1 cs.SE, cs.AI, D.2.0; E.m
Авторы:

Luís F. Gomes, Xin Zhou, David Lo, Rui Abreu

#### Контекст Визуальная документация является эффективным средством для уменьшения когнитивных затруднений, с которыми сталкиваются разработчики при понимании незнакомого кода. Она позволяет обеспечить более интуитивное понимание структуры и данных системы. Несмотря на то, что визуальные представления обычно предпочитаются разработчикам по сравнению с длинными текстовыми описаниями, особенно для крупных программных систем, создание визуальной документации является трудоемким и сложным процессом. Известные подходы, автоматизированные или ручные, не могут автоматически генерировать высокоуровневую визуальную документацию напрямую из исходного кода. Эта проблема становится еще более актуальной в условиях повышения скорости развития приложений и увеличения сложности их архитектур. В статье предлагается исследовать новый подход, использующий agentic LLM-системы для автоматической генерации визуальной документации, что может реvolutionize процесс разработки и поддержки программных систем. #### Метод Предложенный подход, VisDocSketcher, основывается на комбинации статического анализа и agentic LLM-систем. Он идентифицирует ключевые элементы в исходном коде с помощью статического анализа и использует LLM-агентов для генерации визуальных элементов, таких как диаграммы и визуальные описания. Эта архитектура позволяет обеспечить высокую степень автоматизации в процессе генерации визуальной документации. Уникальность VisDocSketcher заключается в способности агентов LLM предсказывать и эффективно представлять информацию, не только в виде текстовых строк, но и в виде визуальных диаграмм. Эта методика обеспечивает гибкость и точность при генерировании визуальных представлений, которые лучше всего отражают структуру и данные системы. #### Результаты В ходе экспериментов был проведен подробный анализ возможности VisDocSketcher на 74.4% семплов. Это указывает на то, что визуальная документация может быть легко генерирована для большинства систем. В сравнении с шаблонно-базированным подходом, который показал лишь 34.7% успеха, VisDocSketcher показал значительный прогресс в 26.7-39.8%. Оценка качества визуальной документации была осуществлена с помощью нового фреймворка AutoSketchEval, который использует code-level metrics. Этот фреймворк достиг AUC 0.87, показывая высокую точность в распознавании качества визуальной документации. В результате, VisDocSketcher может генерировать качественную визуальную документацию, которая надежно отражает структуру и данные системы. #### Значимость Предложенный подход может быть применен в различных областях, включая разработку программного
Annotation:
Visual documentation is an effective tool for reducing the cognitive barrier developers face when understanding unfamiliar code, enabling more intuitive comprehension. Compared to textual documentation, it provides a higher-level understanding of the system structure and data flow. Developers usually prefer visual representations over lengthy textual descriptions for large software systems. Visual documentation is both difficult to produce and challenging to evaluate. Manually creating it is tim...
ID: 2509.11942v1 cs.SE, cs.AI, cs.HC
Авторы:

Jingyu Xiao, Zhongyi Zhang, Yuxuan Wan, Yintong Huo, Yang Liu, Michael R. Lyu

## Контекст В последние годы Multimodal Large Language Models (MLLMs) продемонстрировали неординарную эффективность в решении задач UI2Code, значительно улучшив процесс разработки веб-приложений. Однако, эти модели связаны с высокой вычислительной нагрузкой из-за большого числа входных токенов изображений и значительного количества выходных токенов кода. Большая часть этой нагрузки связана с высоким уровнем ненужных токенов, которые не только усложняют процесс, но и приводят к производству длинных и не всегда корректных HTML-файлов. Наше исследование показало, что входные и выходные токены могут быть эффективно сжаты без потери качества. ## Метод EfficientUICoder представляет собой рамку, основанную на компрессии токенов, которая состоит из трёх главных компонентов. **Элемент и Разметка-ориентированная компрессия токенов** (Element and Layout-aware Token Compression) использует детектирование регионов элементов и построение дерева элементов пользовательского интерфейса для сохранения важных данных. **Регион-ориентированная рефинализация токенов** (Region-aware Token Refinement) применяет атентсионные скоринги для отсеивания незначимых токенов, сохраняя важные токены из невыбранных областей. **Динамическое уменьшение повторений токенов** (Adaptive Duplicate Token Suppression) отслеживает структуру HTML/CSS, чтобы применить экспоненциальные наказания за повторения. ## Результаты Мы провели тщательные эксперименты, используя разнообразные данные, включая реальные сайты. Результаты показали, что EfficientUICoder достигает сжатия в 55-60% без потери качества. Он снижает вычислительные затраты на 44,9%, уменьшает выделяемые токены на 41,4%, снижает время предварительной загрузки на 46,6% и время инференса на 48,8% при работе с моделями 34B-уровня. Этот подход позволяет уменьшить ресурсы, необходимые для синтеза кода, и улучшает качество результата, особенно в задачах с ограниченным объёмом вычислительных ресурсов. ## Значимость Предложенный подход может использоваться в различных сферах, включая разработку мобильных и веб-приложений, разработку пользовательских интерфейсов, и другие области, где требуется эффективная генерация кода. Он позволяет экономить ресурсы, улучшать скорость работы моделей и сокращать время, затрачиваемое на разработку. Это может привести к значительному улучшению процессов разработки веб-приложений, уменьшению затрат на вычисления и увеличению производительности. ## Выводы Мы представили EfficientUICoder, эффективное решение для сжатия токенов, которое значительно улучшает производительность в задачах UI2Code. Наши результаты показали, что модель эффективно сжимает входные и выходные токены, сохраняя кач
Annotation:
Multimodal Large Language Models have demonstrated exceptional performance in UI2Code tasks, significantly enhancing website development efficiency. However, these tasks incur substantially higher computational overhead than traditional code generation due to the large number of input image tokens and extensive output code tokens required. Our comprehensive study identifies significant redundancies in both image and code tokens that exacerbate computational complexity and hinder focus on key UI ...
ID: 2509.12159v1 cs.SE, cs.AI
Показано 241 - 250 из 341 записей