📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li

#### Контекст В последние годы широко распространился использование бо LLM (Large Language Models). Они эффективно решают задачи в области естественного языка, но сталкиваются с трудностями при выполнении задач, требующих логического рассуждения, взаимодействия с внешними сервисами и использования специфических инструментов. Ограничения этих моделей были стандартизированы в Model Context Protocol (MCP), который позволяет LLM взаимодействовать с внешними сервисами. Тем не менее, существующие бенчмарки не полностью отражают реальных проблем, таких как узкое контекстное понимание и необходимость преодолевать проблемы с неизвестными инструментами. Наша цель — создать комплексный бенчмарк для оценки способностей LLM в решении реальных задач. #### Метод Мы предлагаем MCP-Universe — первый полный бенчмарк для оценки LLM с использованием реальных сервисов MCP. Бенчмарк включает шесть основных областей: управление местоположением, управление репозиториями, финансовый анализ, дизайн в 3D, автоматизацию браузера и поиск в Интернете. У каждого из этих направлений есть соответствующие реальные сервисы MCP. Мы разработали специальные тесты выполнения, включая форматированные тесты для проверки соответствия агентам, статические тесты для сравнения результатов с истинными данными, и динамические тесты, которые запрашивают реальное состояние для временно устойчивых задач. Это позволяет оценивать LLM в реальных условиях использования. #### Результаты Мы провели многочисленные эксперименты с лучшими моделями, включая GPT-5 (43.72%), Grok-4 (33.33%) и Claude-4.0-Sonnet (29.44%). Наши результаты показали, что даже лучшие модели сталкиваются с значительными ограничениями в выполнении задач, особенно в области длинных сценариев и незнакомых инструментов. Мы также обнаружили, что даже специализированные агенты, такие как Cursor, не превосходят более общие фреймворки, такие как ReAct, в решении этих задач. Бенчмарк также показал, что LLM страдают от ограниченной возможности удерживать длинного контекста и склонны к ошибкам при работе с незнакомыми инструментами. #### Значимость MCP-Universe может применяться в различных областях, где требуется логический рассуждения, тщательное взаимодействие с системами и управление инструментами. Бенчмарк позволяет выявлять слабые стороны моделей и обеспечивает возможность улучшения их производительности в реальных условиях. Благодаря своему широкому кругу применения, MCP-Universe может способствовать развитию технологий общения с AI, облегчить разработку новых сервисов и оптимизировать их интеграцию с LLM. #### Выводы Мы успешно продемонстрировали
Annotation:
The Model Context Protocol has emerged as a transformative standard for connecting large language models to external data sources and tools, rapidly gaining adoption across major AI providers and development platforms. However, existing benchmarks are overly simplistic and fail to capture real application challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To address this critical gap, we introduce MCP-Universe, the first comprehensive benchmark specifically designed to ...
ID: 2508.14704v1 cs.AI, cs.CL
Авторы:

Siyuan Song, Harvey Lederman, Jennifer Hu, Kyle Mahowald

## Контекст Современные глубокие нейронные сети (LLMs) возникают в различных областях применения, включая синтез речи, генерацию текста и анализ изображений. Однако существуют значительные ограничения в их внутреннем осознании и способности к автоматической внутренней анализировать свои собственные процессы. Это приводит к проблемам в понимании и контроле, которые важны для использования в критически важных ситуациях. Насколько могут модели разобраться в своем внутреннем состоянии и использовать эти знания для улучшения своих операций? Этот вопрос становится все более актуальным в свете требований к прозрачности и управляемости ИИ-систем. ## Метод Мы заложили стандартную работу на основе уже существующей работы, определяющей "легковесную" версию внутреннего осознания (introspection). Объединив это с новой, более глубокой подходом, мы развиваем новый подход, определяя "тяжелую" внутреннюю анализировать в интроспекции. Мы используем эксперименты с температурными параметрами в LLM, чтобы проверить модели на их способность проводить тяжелую интроспекцию. Это позволяет проверить модели на понимание своих текущих состояний и принятие более зрелых решений на основе этих пониманий. ## Результаты Мы проводили эксперименты, в которых LLM рассуждали о своих температурных параметрах. Мы наблюдали, что модели могут демонстрировать "легковесную" интроспекцию - т.е., имеют возможность анализировать свои внутренние параметры - но при этом не показывают способности к "тяжелой" интроспекции. Это подтверждает, что хотя модели могут дать внешний вид того, что они могут корректно проводить интроспекцию, эти способности ограничены и не достаточно сильны для целей реального применения. ## Значимость Наша работа выделяет важность развития моделей AI, которые могут проводить более сложную внутреннюю анализировать. Это может привести к улучшению прозрачности, управляемости и надежности AI-систем в критических областях применения, таких как медицина, финансы и другие. Использование "тяжелой" интроспекции может позволить моделям принимать более точные решения, основываясь на глубоком понимании своих внутренних состояний. ## Выводы Мы доказали, что "легковесная" интроспекция не является достаточной для полноценной внутренней анализировать моделей AI. В будущем, требуется дальнейшее исследование "тяжелой" интроспекции, которая могла бы сделать AI-системы более прозрачными и эффективными в его применении в критически важной области. Этот подход может привести к новым возможностям в развитии AI
Annotation:
Whether AI models can introspect is an increasingly important practical question. But there is no consensus on how introspection is to be defined. Beginning from a recently proposed ''lightweight'' definition, we argue instead for a thicker one. According to our proposal, introspection in AI is any process which yields information about internal states through a process more reliable than one with equal or lower computational cost available to a third party. Using experiments where LLMs reason a...
ID: 2508.14802v1 cs.AI, cs.CL
Авторы:

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang

#### Контекст В последние годы, релевантность поиска в электронной коммерции стала центральной задачей, так как качество поискового запроса определяет удовлетворенность пользователей и показатели продаж. Несмотря на то, что модели типа BERT демонстрируют значительные улучшения в семантическом поиске, они ограничены в своих мощностях рационального продуманного анализа. Большие языковые модели (LLMs), хотя и обладают более высоким потенциалом, обычно используются в дискриминативном режиме или дистилляции для оптимизации производительности в реальном времени. Недостаток логического рассуждения в этих моделях приводит к проблемам, таким как ошибки цепочки мышления (Chain-of-Thought, CoT), приторговывание (hallucination) и сложности при развертывании. Мы предлагаем TaoSR1, новую рамочную модель, которая адресует эти проблемы и вводит новый подход к применению CoT-рассуждений для решения проблемы релевантности. #### Метод TaoSR1 основывается на трех этапах обучения и оптимизации: 1. **Supervised Fine-Tuning (SFT) с Chain-of-Thought**: Мы используем CoT для внедрения логического мышления в модель. Это помогает модели логически рассуждать при выполнении задачи. 2. **Offline Sampling c Pass@N и Direct Preference Optimization (DPO)**: Мы используем технику прохождения (Pass@N) и DPO для улучшения результатов поиска. Это позволяет модели лучше выделять и отсортировать варианты. 3. **Difficulty-based Dynamic Sampling с Group Relative Policy Optimization (GRPO)**: Мы применяем динамическое выборничество сложности с использованием GRPO для минимизации риска ошибок. Кроме того, мы используем пост-CoT обработку и метод разбиения по суммарной вероятности, чтобы обеспечить эффективное развертывание в реальном времени. #### Результаты Мы произвели эксперименты на различных данных, включая стандартные наборы для оценки релевантности. Модель TaoSR1 показала значительное превосходство по сравнению с базовыми моделями в контексте математических задач и релевантности поиска. Особенно важно наблюдать, что во время экспериментов, проведенных с принципом side-by-side human evaluation, TaoSR1 превзошла существующие модели, особенно в ситуациях, требующих более высокого уровня логического рассуждения и выбора. #### Значимость TaoSR1 предлагает новый подход к решению проблемы релевантности в поисковых запросах. Она может быть применена в различных сферах, включая электронную коммерцию, социальные сети и поиск информации. Ее преимущества заключаются в улучшенной точности и мощности рассуждения, что способствует более удовлетворительному пользовательскому опыту. Будущие исследования будут сконцентрированы на дальнейшем улучшении модели и ее применении в различных контекстах. #### Выводы Мы представляем Tao
Annotation:
Query-product relevance prediction is a core task in e-commerce search. BERT-based models excel at semantic matching but lack complex reasoning capabilities. While Large Language Models (LLMs) are explored, most still use discriminative fine-tuning or distill to smaller models for deployment. We propose a framework to directly deploy LLMs for this task, addressing key challenges: Chain-of-Thought (CoT) error accumulation, discriminative hallucination, and deployment feasibility. Our framework, T...
ID: 2508.12365v1 cs.IR, cs.AI, cs.CL
Авторы:

Zeyu Zhang, Yang Zhang, Haoran Tan, Rui Li, Xu Chen

#### Контекст Персонализация в современных системах обработки естественного языка является ключевым аспектом для обеспечения эффективного взаимодействия с пользователем. Основная роль в этом процессе играет память, которая позволяет моделям хранить и использовать информацию о пользователе. До сих пор, большинство исследований в этой области фокусировались на простых задачах, таких как выравнивание предпочтений или простые вопросы-ответы. Однако в реальной жизни пользователи часто сталкиваются с задачами, требующими сложного многокровного рассуждения над большими объемами личной информации. Это создает серьезные вызовы для существующих памятных механизмов и поднимает вопрос о их эффективности в решении таких задач. Наше исследование направлено на изучение этих проблем и развитие новых подходов к решению многокровного рассуждения в контексте персонализации. #### Метод Мы предлагаем новую задачу — многокровное персонализированное рассуждение, которая фокусируется на решении сложных задач, используя многоуровневое памяти. Для этого мы определили ключевые аспекты этой задачи, включая ее структуру и характеристики. Далее, мы реализовали различные памятные модели, как эксплицитные (например, ключ-значение память), так и имплицитные (например, внутренние состояния моделей). Мы также строили датасет, который позволяет эффективно оценивать производительность различных методов в различных сценариях. Наши эксперименты охватывали множество аспектов, включая точность, эффективность и способность работы в нерегулярных ситуациях. #### Результаты Мы провели исследования с использованием различных моделей памяти и проанализировали их результаты. Оценки показали, что ни одна из моделей не показала своей ясной лидирующей позиции во всем диапазоне задач. Эксплицитные модели показали высокую точность в простых задачах, но стали менее эффективными при увеличении сложности. Имплицитные модели, наоборот, демонстрировали лучшие результаты в сложных сценариях, но их скорость обучения и точность в простых задачах оставляли желать лучшего. Мы также исследовали гибридные подходы, которые объединяют эксплицитные и имплицитные памяти, и продемонстрировали их выгоду в решении задач, требующих большой гибкости и точности. #### Значимость Наша работа имеет значительное значение для области персонализации в генеративных моделях. Она демонстрирует возможности и ограничения различных памятных парадигм и помогает понять, как можно сочетать их для получения лучших результатов. Мы показали, что гибридные модели могут эфф
Annotation:
In large language model-based agents, memory serves as a critical capability for achieving personalization by storing and utilizing users' information. Although some previous studies have adopted memory to implement user personalization, they typically focus on preference alignment and simple question-answering. However, in the real world, complex tasks often require multi-hop reasoning on a large amount of user information, which poses significant challenges for current memory approaches. To ad...
ID: 2508.13250v1 cs.AI, cs.CL, cs.IR
Авторы:

Nicole Cho, Kirsty Fielding, William Watson, Sumitra Ganesh, Manuela Veloso

## Контекст Выбор области исследований определяется значительными проблемами в обработке и анализе данных из реальных финансовых документов. Эти документы часто содержат критическую информацию, хранящуюся в многостраничных, многослойных таблицах, которые сложно автоматически обработать. Отсутствие структуры в таблицах, их разнообразие и большое количество записей приводят к значительным сложностям в выделении и интерпретации корректной информации. Это приводит к трудоемкости в процессах анализа и рекомендации структурированных данных. Отсутствие надежных систем, которые могут адаптироваться к такому разнообразию данных, подчеркивает необходимость развития новых подходов к автоматической обработке таких таблиц. ## Метод Мы предлагаем TASER (Table Agents for Schema-guided Extraction and Recommendation) — систему, основанную на агентной модели, для схематического выделения и рекомендации данных из таблиц. Основные элементы TASER: 1. **Табличный детектор** — определяет таблицы в документе и их границы. 2. **Классификатор таблиц** — определяет тип таблицы (например, финансовый отчет). 3. **Расшифровщик таблиц** — извлекает данные из таблицы в структурированном виде. 4. **Рекомендательный агент** — анализирует результаты работы других агентов и рекомендует корректировки схемы. Система постоянно обучается с помощью тренировочных данных и регулярных рекомендаций. Мы разработали методы для обработки многостраничных таблиц с высоким разнообразием данных. Эталонные данные для обучения получены из 22 584 макетных страниц, включая 3 213 таблиц, содержащих сведения об управляемых ресурсах на сумму $731 млрд. ## Результаты Мы провели эксперименты, сравнивая TASER с существующими моделями, такими как Table Transformer. Наши результаты показывают, что TASER превосходит табличные модели существующими методами на 10.1% в объеме выделенных данных. Мы также провели эксперименты с разными параметрами обучения, такими как размер пакета, и выявили, что увеличение размера пакета приводит к значительному улучшению рекомендаций схемы (104.3%). Одним из ключевых результатов является то, что наши модели позволили извлечь данные по финансовым позициям в 9.8% большем количестве случаев. Эти результаты приводят к увеличению точности и эффективности процесса выделения и рекомендации данных. ## Значимость TASER может быть применен в различных финансовых институтах, аналитических компаниях и инвестиционных платформах для повышения эффективности обработки финансовых документов. Он обеспечивает более точную и структурированную выгрузку данных, уменьшая время, затрачиваемое на анализ. Этот под
Annotation:
Real-world financial documents report essential information about an entity's financial holdings that can span millions of different financial instrument types. Yet, these details are often buried in messy, multi-page, fragmented tables - for example, 99.4% of the tables in our dataset have no bounding boxes with the maximum number of rows amounting to 426 per table across 44 pages. To tackle these unique challenges from real-world tables, we present a continuously learning, agentic table extrac...
ID: 2508.13404v2 cs.AI, cs.CL, cs.IR, cs.LG
Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

#### Контекст Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городских и автострадных сцен, а также точного выявления рисков в дорожном трафике. Однако существующие подходы часто сталкиваются с проблемами в области масштабируемости, гибкости и достоверности анализа в условиях сложной и динамичной среды. Эти ограничения приводят к недостаточной точности и неспособности работать в реальном времени. Многие существующие модели не могут обрабатывать видео с низким разрешением или генерировать подробные, контекстуально обоснованные оценки риска. Требуется разработка новых архитектур, которые бы способствовали улучшению точности и эффективности таких систем. #### Метод Мы предлагаем развитый подход, основанный на идее **Structured Prompting** и **Multi-Agent Knowledge Distillation**. Данная модель использует две большие Vision-Language Models (VLMs): GPT-4o и o3-mini. Используя **Chain-of-Thought (CoT)**, эти модели создают разноплановые и подробные выводы, которые в дальнейшем используются для подготовки знаний (pseudo-annotations). Эти аннотации используются для файн-тюнинга меньшего модели, оптимизированной под ресурсы. Результирующая модель, VISTA (Vision for Intelligent Scene and Traffic Analysis), получает мощные результаты в гибридной задаче видео-обработки и риск-инференции, несмотря на то, что имеет многократно меньшую параметрическую структуру. Это позволяет оптимизировать модель для работы на ресурс-ограниченных устройствах, таких как роутеры и смартфоны. #### Результаты В ходе экспериментов мы сравнивали нашу модель VISTA с другими моделями, используя стандартные метрики качества в области видео-описаний, такие как BLEU-4, METEOR, ROUGE-L и CIDEr. Наши результаты показали, что VISTA существенно превосходит своих тестовых моделей по этим метрикам, несмотря на значительное сокращение количества параметров. Мы также проводили эксперименты в среде реального трафика, где видео с низким разрешением были обработаны VISTA с помощью алгоритмов риск-инференции. Эти результаты показали, что VISTA удается генерировать достоверные оценки риска и сформировать контекстуально обоснованные описания трафика, даже при ограниченных возможностях вычислительных ресурсов. #### Значимость Наш подход имеет широкие возможности для применения в различных областях, включая ITS, автономное вождение и системы безопасности транспорта. Визуальный мониторинг трафика, построенный на VISTA, может быть использован для анализа транспортных проблем, оценки рисков и управления дорожной съемкой. Его мощность заключается в том, что он сочетает в себе высокую точность с низкими
Annotation:
Comprehensive highway scene understanding and robust traffic risk inference are vital for advancing Intelligent Transportation Systems (ITS) and autonomous driving. Traditional approaches often struggle with scalability and generalization, particularly under the complex and dynamic conditions of real-world environments. To address these challenges, we introduce a novel structured prompting and knowledge distillation framework that enables automatic generation of high-quality traffic scene annota...
ID: 2508.13439v1 cs.CV, cs.AI, cs.CL, eess.IV
Авторы:

Jaewan Moon, Seongmin Park, Jongwuk Lee

## Контекст Интеллектуальные рекомендательные системы (IRS) широко используются для поиска и предоставления полезной информации пользователям на основе их предпочтений и поведенческих моделей. Одним из главных факторов успеха IRS является качественная система оценки рекомендаций, которая должна учитывать не только поведенческие сигналы, но и семантические свойства представленных итемов. Несмотря на развитие технологий для обработки текстовых данных, существующие решения для IRS часто сталкиваются с проблемами, такими как ограниченная способность понимать глубокие семантические отношения между товарами или учет контекста в пользовательских предпочтениях. Эти ограничения приводят к неточным рекомендациям и низкому удовлетворению пользователей. ## Метод Предлагаемый подход, L3AE (LLM-Enhanced Linear Autoencoders), представляет собой инновационное сочетание бо LLM и обычных линейных автокодировщиков. Метод состоит из двух этапов. В первой фазе L3AE использует модель LLM для построения семантического матрицы взаимосвязей между товарами на основе их текстовых описаний. Во второй фазе L3AE учитывает пользовательские интеракции с товарами, учитывая предыдущую семантическую информацию для оптимизации системы рекомендаций. Особенностью L3AE является то, что каждый из этих этапов оптимизируется с помощью замкнутых формул, что позволяет достичь глобальной оптимальности с минимальными вычислительными затратами. ## Результаты Эксперименты были проведены на трех различных бенчмарк-датасетах. Использовались метрики Recall@20 и NDCG@20 для оценки качества рекомендаций. Результаты показали, что L3AE показал значительное преимущество перед существующими моделями, с увеличением Recall@20 на 27.6% и NDCG@20 на 39.3%. Эти результаты демонстрируют эффективность L3AE в улучшении качества рекомендаций, особенно в задачах, требующих точного учета семантических отношений между товарами. ## Значимость L3AE может быть применен в различных областях, где необходимо учитывать текстовую информацию при рекомендациях, таких как электронная коммерция, медиасервисы и социальные сети. Особым преимуществом является его способность объединить семантическую информацию с пользовательскими интеракциями, что приводит к более точным и смысловым рекомендациям. Это может повысить удовлетворение пользователей и увеличить активность на платформах, где эти рекомендации используются. ## Выводы L3AE представляет собой новую платформу для повышения эффективности IRS, особенно в сферах, где текстовые данные играют ключевую роль. Он показал свою эффективность в улучшении качества
Annotation:
Large language models (LLMs) have been widely adopted to enrich the semantic representation of textual item information in recommender systems. However, existing linear autoencoders (LAEs) that incorporate textual information rely on sparse word co-occurrence patterns, limiting their ability to capture rich textual semantics. To address this, we propose L3AE, the first integration of LLMs into the LAE framework. L3AE effectively integrates the heterogeneous knowledge of textual semantics and use...
ID: 2508.13500v1 cs.IR, cs.AI, cs.CL, cs.LG
Авторы:

Rapheal Huang, Weilong Guo

## Контекст Input Time Scaling (ITS) — это новый подход к масштабированию бо LARGE LANGUAGE MODELS (LLMs), который фокусируется на максимизации эффективности ввода данных (input time). Исследование адресует проблемы, связанные с традиционным подходом к масштабированию, включая data scaling, training scaling и inference time scaling. Несмотря на то, что эти подходы доказали свою эффективность, они часто игнорируют влияние ввода данных на процесс обучения и вывода. ITS предлагает новый взгляд на этот вопрос, раскрывая возможность применения мета-знаний LLMs для оптимизации ввода и улучшения результатов. ## Метод ITS основывается на совмещении мета-знаний LLMs с новыми стратегиями ввода для повышения качества обучения и вывода. Методология включает: 1. **Мета-знания LLMs:** Использование мета-знаний модели для изменения ввода данных во время обучения и тестирования. 2. **Различные стратегии ввода:** Включая добавление неполностью отфильтрованных данных, случайного выбора примеров и добавление нерелевантных данных в запросы. 3. **Обучение и тестирование с помощью ITS:** Наблюдение за взаимодействием мета-знаний и стратегий ввода в течение всего цикла тренировки и проверки. 4. **Параллельная интерпретация:** ITS проверяет, как разные стратегии ввода влияют на поведение модели в разных сценариях. ## Результаты Эксперименты показали, что ITS может достичь следующих результатов: 1. **Более высокий пропускный показатель (pass@1):** Модели, обученные с использованием ITS, достигли сверхуровневых результатов на AIME24 (76.7%) и AIME25 (76.7%). 2. **Комбинация моделей:** Множественные модели могут давать еще более высокие результаты при оценке по множеству примеров. 3. **Пониженная индуктивная биас:** ITS противоречит широко распространенному мнению, что "плохой ввод — плохой вывод". Даже с использованием некачественных данных можно достичь высоких результатов. 4. **Границы данных:** Данные с небольшим размером, но с применением ITS, могут превосходить данные с большим размером, но с более низким качеством. ## Значимость ITS открывает новые возможности для лучшего использования LLMs: 1. **Практическое применение:** ITS может быть использован в ситуациях, где качество ввода данных ограничено, но требуется высокий уровень разума. 2. **Экономия ресурсов:** Этот подход снижает требования к объему и качеству данных, необходимым для обучения моделей. 3. **Новые направления исследований:** ITS может привести к новым архитектурам моделей, стратегиям тренировки и методам оптимизации. ## Выводы ITS представляет собой новый и эффективный подход к масштабированию LLMs, который может улучшить способность моделей к высокому уровню рассуждения. Он открывает
Annotation:
Current Large Language Models (LLMs) are usually post-trained on large-scale carefully curated datasets (data & training scaling) and doing reasoning in test time (inference time scaling). In this work, we present a new scaling paradigm, Input Time Scaling, to complement previous scaling methods by putting resources on queries (input time). During training and testing, we combine meta-knowledge from LLMs to refine inputs with different strategies. We also find a new phenomenon, training-testing ...
ID: 2508.13654v2 cs.LG, cs.AI, cs.CL
Авторы:

Katharina Stein, Nils Hodel, Daniel Fišer, Jörg Hoffmann, Michael Katz, Alexander Koller

## Контекст Планирование общего характера (generalized planning) предполагает разработку планов, которые могут применяться к любым задачам в заданном планировательном домене (PDDL domain). Одним из популярных подходов является использование генерируемых текстовыми моделями глубоким обучением (LLMs) для создания Python-программ, реализующих такие планы. Однако, существуют проблемы: однако одна стратегия, сгенерированная моделью, не всегда удачно реализуется, и ошибки в ней могут привести к неверной реализации плана. Без возможности отладки стратегии до её реализации в коде, качество решений может оставаться низким. Это ограничивает широкое применение таких подходов. ## Метод Мы предлагаем новый подход, основанный на трех ключевых усовершенствованиях. Во-первых, мы преобразуем стратегию, сгенерированную моделью, в псевдокод, чтобы упростить её анализ и оптимизацию. Во-вторых, мы вводим автоматическую отладку псевдокода, которая позволяет выявлять и исправлять ошибки до формирования самого плана. В-третьих, мы добавляем шаг отражения в процесс отладки Python-программ: запрашивая от модели разъяснений о проблемах в работе программы, мы улучшаем её качество. Наконец, наша система генерирует несколько вариантов реализаций программы и выбирает наилучший. ## Результаты Мы проверили наш подход на 17 бенчмарк-доменах PDDL. Он позволил улучшить качество решений, снизив частоту ошибок и увеличив число успешно решённых задач. На 12 доменах наши методы позволили создать программы, которые решают все задачи, сгенерированные инструментом для генерации испытаний. Это свидетельствует о значительном повышении качества за счёт введённых усовершенствований. ## Значимость Наш подход может быть применён в сферах, где требуется автоматизация процессов, требующих генерации общих решений, таких как управление роботами, логистика, разработка программных систем. Он обеспечивает высокое качество решений, гибкость в адаптации к новым задачам и улучшенную отладочную возможность. Эти достижения открывают новые перспективы для применения текстовых моделей глубокого обучения в общем планировании. ## Выводы Мы представили усовершенствованный подход к общему планированию с использованием текстовых моделей глубокого обучения. Введение псевдокода, автоматической отладки и шага отражения значительно улучшил качество решений. Этот подход демонстрирует перспективы текстовых моделей глубокого обучения в области общего планирования и может быть использован в различных практических приложениях. Будущие исследования будут ориентированы на улучшение точности и гибкости моделей, а
Annotation:
LLMs have recently been used to generate Python programs representing generalized plans in PDDL planning, i.e., plans that generalize across the tasks of a given PDDL domain. Previous work proposed a framework consisting of three steps: the LLM first generates a summary and then a strategy for the domain, both in natural language, and then implements that strategy as a Python program, that gets debugged on example planning tasks. In that work, only one strategy is generated and passed directly t...
ID: 2508.13876v1 cs.AI, cs.CL
Авторы:

Yuge Zhang, Nan Chen, Jiahang Xu, Yuqing Yang

## Контекст Large Language Models (LLMs) широко используются для решения различных задач, но требуют тщательного обучения и сложных вызовов при создании эффективных запросов. На данный момент существуют проблемы в структуре, интеграции данных, чувствительности к форматам и инструментах, которые затрудняют разработку качественных запросов. Особенностью этих проблем является нехватка полноценных решений, которые могли бы помочь упростить и улучшить процесс создания продвинутых запросов к LLM. Наша мотивация заключается в разработке системы, которая может упростить работу с LLM, обеспечивая улучшенную структуру и интеграцию данных, а также уменьшая чувствительность к форматам. ## Метод Мы предлагаем Prompt Orchestration Markup Language (POML), которая представляет собой компонентную разметку для организации запросов. POML использует логическую структуру, такую как роли, задачи и примеры, чтобы упростить работу с различными типами данных, включая документы, таблицы и изображения. Для интеграции данных мы вводим специальные теги, которые позволяют упростить подключение информации. Также в POML включен CSS-подобный стиль, который позволяет отделить контент от представления, уменьшая степень чувствительности к форматированию. Мы также усовершенствовали возможность шаблонизации для динамических запросов и разработали полный набор инструментов для разработчиков, включая поддержку IDE и SDK, чтобы улучшить возможности управления версиями и командной работы. ## Результаты Мы провели несколько экспериментов, используя различные сценарии, включая PomLink, который демонстрирует улучшение интеграции сложных приложений, и TableQA, который показывает улучшение точности ответов на вопросы с помощью табличных данных. Наши результаты показали, что POML значительно упрощает процесс создания запросов и улучшает их точность. Мы также провели исследование с участием разработчиков, чтобы оценить эффективность POML в реальных условиях разработки. ## Значимость POML может быть применена в различных областях, где требуется эффективное использование LLM, в том числе в области интеграции данных, разработки сложных приложений и упрощения процесса разработки запросов. Одним из главных преимуществ POML является уменьшение чувствительности к форматам и улучшение структуры запросов. Это приводит к более высокой точности и эффективности в использовании LLM. Мы видим потенциал POML в расширении возможностей LLM, упрощении работы разработчиков и улучшении качества решений, основанных на LLM. ## Выводы Мы доказали, что POML может значительно улучшить процесс работы с LLM, особенно в сложных сценариях. В будущем мы пла
Annotation:
Large Language Models (LLMs) require sophisticated prompting, yet current practices face challenges in structure, data integration, format sensitivity, and tooling. Existing methods lack comprehensive solutions for organizing complex prompts involving diverse data types (documents, tables, images) or managing presentation variations systematically. To address these gaps, we introduce POML (Prompt Orchestration Markup Language). POML employs component-based markup for logical structure (roles, ta...
ID: 2508.13948v1 cs.HC, cs.AI, cs.CL, cs.PL
Показано 1131 - 1140 из 1292 записей