📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 AgenticData: An Agentic Data Analytics System for Heterogeneous Data

2025-08-09

Авторы:

Ji Sun, Guoliang Li, Peiyao Zhou, Yihui Ma, Jingzhe Xu, Yuan Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире управления данными традиционные системы анализа неструктурированных данных требуют значительных усилий со стороны экспертов для написания кода и управления сложными рабочими процессами. Это делает такие системы затратными и медленными в применении, особенно когда речь идет о работе с данными разного типа, включая как структурированные, так и неструктурированные. Кроме того, существующие решения часто не обладают достаточной способностью к самостоятельному анализу и оптимизации, что увеличивает временные и финансовые затраты на анализ данных. Возрастающий объем и сложность данных в различных отраслях подчеркивают необходимость в разработке новых подходов, которые могли бы автоматизировать и упростить процесс анализа. Одной из ключевых проблем является необходимость в создании систем, которые могли бы эффективно обрабатывать запросы на естественном языке (NL) и обеспечивали бы высокую точность, не требуя постоянного вмешательства человека. Такие системы должны быть в состоянии работать с разными типами данных, поддерживать итеративное оптимизационное планирование и обеспечивать эффективное управление контекстом. AgenticData предлагает решение этих проблем, предлагая инновационный подход к анализу данных, основанный на использовании агентских систем и естественного языка. Основной целью этой системы является предоставление пользователям возможности задавать запросы на естественном языке, при этом система самостоятельно выполняет анализ данных, оптимизируя их поиск и обработку в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД AgenticData использует трехуровневую систему агентов для автоматизации и оптимизации процесса анализа данных. Первый уровень — **данные**, которые поступают из различных источников, включая структурированные и неструктурированные данные. Для обработки этих данных используется **дата-профайлинговый агент**, который отвечает за идентификацию и выборку релевантных данных. Второй уровень — **семантический кросс-валидационный агент**, который работает на основе обратной связи от пользователя. Этот агент выполняет итеративную оптимизацию семантических планов, улучшая точность и эффективность запросов. Третий уровень — **смарт-мемори агент**, который отвечает за управление контекстом. Он хранит краткосрочную информацию и долгосрочные знания, что позволяет системе адаптироваться к последовательным запросам и улучшать качество результатов. Для обработки запросов AgenticData использует **семантическую оптимизационную модель**, которая преобразует запросы на естественном языке в семантические планы, состоящие из реляционных и семантических операторов. Эти планы последовательно оптимизируются и выполняются, обеспечивая высокую точность и скорость выполнения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ AgenticData была протестирована на трех различных бенчмарках. Результаты показали, что система достигает значительно высокой точности как на простых, так и на сложных запросах. В сравнении с современными методами AgenticData показала значительное преимущество в точности и скорости выполнения задач. Благодаря своей функциональности и автоматизации, AgenticData показала способность эффективно работать в условиях сложности и гетерогенности данных, превзойдя существующие методы в области анализа данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AgenticData имеет широкий спектр применения в различных областях, где необходим анализ данных различных типов. Она может быть использована в бизнесе для анализа клиентских данных, в медицине для обработки медицинских записей, в образовании для анализа учебных материалов, а также в других областях, требующих эффективного управления и анализа данных. Преимущества AgenticData включают в себя снижение затрат на анализ данных, повышение точности результатов и ускорение процесса анализа. Это делает систему привлекательной для компаний и организаций, желающих оптимизировать свои процессы работы с данными. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AgenticData является передовым решением для анализа данных, которое обеспечивает высокую точность и эффективность работы с различными типами данных. Будущие исследования могут быть направлены на дальнейшее улучшение модели, включая расширение ее способностей к работе с большими наборами данных и улучшение ее адаптивности к новым типам запросов. Кроме того, можно рассмотреть возможность интеграции AgenticData с другими системами анализа данных для создания еще более мощных инструментов анализа.

Annotation:

Existing unstructured data analytics systems rely on experts to write code and manage complex analysis workflows, making them both expensive and time-consuming. To address these challenges, we introduce AgenticData, an innovative agentic data analytics system that allows users to simply pose natural language (NL) questions while autonomously analyzing data sources across multiple domains, including both unstructured and structured data. First, AgenticData employs a feedback-driven planning techn...

ID: 2508.05002v1 cs.DB, cs.AI

arXiv PDF

📄 Making Prompts First-Class Citizens for Adaptive LLM Pipelines

2025-08-09

Авторы:

Ugur Cetintemel, Shu Chen, Alexander W. Lee, Deepti Raghavan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные конвейеры больших языковых моделей (LLM) становятся все более похожими на данные, управляемые системы. Они извлекают внешний контекст, компонуют промежуточные результаты, проверяют выводы и адаптируются в зависимости от отзывов, полученных во время выполнения. Однако ключевым элементом, руководящим этим процессом, является **промпт** (запрос или контекст, передаваемый модели), который часто остается хрупким и непрозрачным. Промпты часто представляют собой неструктурированные строки, которые не интегрированы с окружающим процессом выполнения. Это создает серьезные ограничения на возможности повторного использования, оптимизации и управления процессом в реальном времени. Проблема заключается в том, что традиционные подходы к управлению промптами не обеспечивают достаточной гибкости и контроля над их динамическим поведением. В результате разработчики сталкиваются с трудностями при модификации промптов в ответ на изменяющиеся условия выполнения, такие как низкая уверенность модели, высокая задержка или отсутствие необходимого контекста. Кроме того, отсутствие структурированного управления промптами затрудняет их версионирование, отладку и анализ. Предлагаемое решение должно решить эту проблему, превратив промпты в **структурированные, адаптивные и первоклассные компоненты** конвейера выполнения. Такой подход позволит динамически изменять промпты в зависимости от сигналов, полученных во время выполнения, а также обеспечит возможность их структурированного хранения и оптимизации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Решение, предложенное в работе, называется **SPEAR** — язык и среда выполнения, предназначенные для заполнения пробела в управлении промптами. SPEAR делает промпты структурированными, адаптивными и первоклассными элементами модели выполнения. SPEAR вводит **алгебру промптов**, которая определяет правила построения и адаптации промптов в конвейере. Эта алгебра поддерживает различные режимы уточнения (ручной, помощью пользователя и автоматический), обеспечивая баланс между контролем разработчика и автоматизацией процесса. Ключевыми компонентами SPEAR являются: 1. **Динамическая адаптация промптов**: SPEAR позволяет модифицировать промпты в реальном времени в ответ на сигналы, такие как низкая уверенность модели, высокая задержка или отсутствие контекста. Это обеспечивает более гибкое и реактивное поведение конвейера. 2. **Структурированное управление промптами**: SPEAR организует фрагменты промптов в версионируемые представления (views), которые могут быть инспектированы и записаны в логи. Это облегчает отладку, версионирование и повторное использование промптов. 3. **Оптимизации на уровне промптов**: Используя структурированный подход, SPEAR позволяет применять оптимизации, такие как слияние операторов (operator fusion), кэширование префиксов и повторное использование представлений, что повышает эффективность конвейера. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты для оценки эффективности SPEAR в сравнении с традиционными статическими промптами и агентскими повторными попытками (agentic retries). Результаты показали, что динамическая адаптация промптов позволяет значительно повысить точность и эффективность конвейера. Кроме того, эксперименты показали положительное влияние оптимизаций, таких как слияние операторов и кэширование префиксов, на производительность системы. Результаты демонстрируют, что SPEAR не только повышает качество вывода моделей, но и позволяет оптимизировать время выполнения и ресурсы. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SPEAR имеет широкое применение в областях, требующих высокого уровня адаптивности и контроля над промптами. Это может включать: - **Конвейеры обработки естественного языка**: Где необходима динамическая модификация запросов в зависимости от контекста. - **Автоматизированные системы**: Где критична оптимизация времени выполнения и ресурсов. - **Системы с открытым контекстом**: Где важна возможность интеграции внешних данных и их динамического использования. Преимущества SPEAR включают в себя повышенную эффективность, улучшенную отладку и повторное использование кода, что делает его привлекательным для разработчиков сложных систем на основе LLM. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SPEAR предлагает передовой подход к управлению промптами, превращая их в структурированные и адаптивные компоненты конвейера выполнения. Это позволяет решить многие проблемы, связанные с традиционными неструктурированными промптами, такие как низкая повторяемость, сложность отладки и ограниченные возможности оптимизации. Будущие исследования могут фокусироваться на расширении SPEAR для поддержки более широкого спектра режимов адаптации и оптимизации, а также на интеграции с другими системами управления данными для создания еще более гибких и эффективных конвейеров.

Annotation:

Modern LLM pipelines increasingly resemble data-centric systems: they retrieve external context, compose intermediate outputs, validate results, and adapt based on runtime feedback. Yet, the central element guiding this process -- the prompt -- remains a brittle, opaque string, disconnected from the surrounding dataflow. This disconnect limits reuse, optimization, and runtime control. In this paper, we describe our vision and an initial design for SPEAR, a language and runtime that fills this ...

ID: 2508.05012v1 cs.DB, cs.AI, cs.CL

arXiv PDF

Показано 51 - 52 из 52 записей