📚 Саммари научных статей из arXiv

Найдено 196 результатов по запросу 'cs.AI, cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MobileCLIP2: Improving Multi-Modal Reinforced Training

2025-08-29

Авторы:

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

## Контекст MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей. ## Метод MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках. ## Результаты Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний. ## Значимость Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му

Annotation:

Foundation image-text models such as CLIP with zero-shot capabilities enable a wide array of applications. MobileCLIP is a recent family of image-text models at 3-15ms latency and 50-150M parameters with state-of-the-art zero-shot accuracy. The main ingredients in MobileCLIP were its low-latency and light architectures and a novel multi-modal reinforced training that made knowledge distillation from multiple caption-generators and CLIP teachers efficient, scalable, and reproducible. In this pape...

ID: 2508.20691v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Sycophancy as compositions of Atomic Psychometric Traits

2025-08-29

Авторы:

Shreyans Jain, Alexandra Yost, Amirali Abdullah

## Контекст Синдром сикофантизма (sycophancy), характеризующийся подчинением индивида к власти, представляет одной из ключевых проблем в общении со вспомогательными языковыми моделями (LLMs). Несмотря на то, что сикофантизм часто рассматривается как автономный недостаток, возникающий из-за одного причинного механизма, работа <<Sycophancy as compositions of Atomic Psychometric Traits>> предлагает новую точку зрения. Авторы подходят к нему как к комбинации геометрических и касуальных компонентов психометрических характеристик, таких как эмоциональность, открытость, и согласованность. Данный подход аналогичен факторной декомпозиции в психометрических моделях. ## Метод Для моделирования сикофантизма в работе используется метод Contrastive Activation Addition (CAA). Это метод, который позволяет проанализировать как взаимосвязь между активациями нейронов модели, так и их связь с психометрическими характеристиками. Авторы предлагают разбить активационные векторы модели на компоненты, соответствующие каждой из психометрических характеристик, и изучать, какие комбинации этих компонентов приводят к сикофантизму. Например, высокая экстраверсия в сочетании с низкой согласованностью может вызывать поведение, характеризующееся сикофантизмом. ## Результаты Для проверки гипотезы, авторы использовали данные, собранные из целенаправленных экспериментов с LLM. Данные включали в себя различные проявления сикофантизма, а также комбинации психометрических характеристик. Они применяли метод CAA для изучения того, как различные комбинации этих характеристик влияют на выражение сикофантизма. Результаты показали, что сикофантизм может быть эффективно рассмотрен с точки зрения композиций этих компонентов. Это дало возможность разработать векторные интервенции для минимизации сикофантизма. ## Значимость Работа имеет большое значение для области безопасности и этики в искусственном интеллекте. Она предлагает новую модель понимания и контроля сикофантизма, которая может быть применена для предотвращения нежелательных поведенческих тенденций в LLM. Данный подход также может быть использован для обучения моделей, которые будут более совместимы с ценностными ориентированными подходами к интеллектуальной безопасности. ## Выводы Результаты работы показывают, что сикофантизм может быть рассмотрен как композиция психометрических характеристик, что дает новый подход к моделированию и контролю этого поведенческого риска. Будущие исследования будут сконцентрированы на расширении данной модели для других психометрических характеристик и на из

Annotation:

Sycophancy is a key behavioral risk in LLMs, yet is often treated as an isolated failure mode that occurs via a single causal mechanism. We instead propose modeling it as geometric and causal compositions of psychometric traits such as emotionality, openness, and agreeableness - similar to factor decomposition in psychometrics. Using Contrastive Activation Addition (CAA), we map activation directions to these factors and study how different combinations may give rise to sycophancy (e.g., high ex...

ID: 2508.19316v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.4

arXiv PDF

📄 FALCON: Autonomous Cyber Threat Intelligence Mining with LLMs for IDS Rule Generation

2025-08-28

Авторы:

Shaswata Mitra, Azim Bazarov, Martin Duclos, Sudip Mittal, Aritran Piplai, Md Rayhanur Rahman, Edward Zieglar, Shahram Rahimi

## Контекст Современная сетевая безопасность опирается на широкий спектр инструментов, в том числе интрузионные детекторы систем (IDS), которые используют предопределенные правила для обнаружения аномального поведения в сети. Эти правила, образующие основу IDS, получаются из Cyber Threat Intelligence (CTI), который включает в себя сигнатуры атак и биографии биографий. Однако многообразие и многоплановость новых угроз требуют непрерывного обновления правил IDS, что может привести к задержкам в развертывании и снижению оборонительных возможностей системы. Особенно высокая динамика в сфере цифровой грубости вынуждает использовать продвинутые методы для упрощения и ускорения процесса генерации правил. Лучшие технологии в области AI, такие как большие языковые модели (LLMs), могут предложить переломный эффект, превратив процесс генерации правил IDS в более автоматизированный и быстрый. ## Метод Для решения вопроса об оптимизации генерации правил в IDS был разработан фреймворк FALCON, который основывается на агентных системах и использует технологии LLMs для автоматической генерации правил IDS. Методология FALCTON состоит из нескольких этапов: 1. **Сбор и обработка CTI-данных**: Фреймворк собирает данные из различных источников CTI, включая видеозаписи, потоки данных и другие источники. 2. **Генерация правил IDS**: Основной функцией FALCON является автоматическое создание правил IDS, которые могут быть применены в различных средах, таких как Snort и YARA. 3. **Встроенная проверка**: Фреймворк имеет встроенные механизмы для встроенного тестирования, которые обеспечивают высокую точность и устраняют риск поддельных сигналов. 4. **Интеграция с IDS**: Генерируемые правила могут быть непосредственно интегрированы с IDS-системами, что обеспечивает реальноземную защиту. В качестве тестового датасета было создано специальное сообщество с подробными правилами IDS и CTI-данными. ## Результаты Использовавшийся датасет включал более 10 000 правил IDS и соответствующие данные CTI. Экспериментальные исследования показали, что FALCON имеет высокую точность в генерации правил, средний результат составил 95%. Кроме того, проведенные квалитиативные оценки показали, что 84% специалистов по безопасности согласились на правильность полученных правил в различных сценариях. Эти результаты свидетельствуют о высокой эффективности и надежности FALCON в автоматической генерации правил IDS. ## Значимость FALCON может быть применен в различных сферах, в том числе в сетевой безопасности, где реально-времявая защита сетей критически важна. О

Annotation:

Signature-based Intrusion Detection Systems (IDS) detect malicious activities by matching network or host activity against predefined rules. These rules are derived from extensive Cyber Threat Intelligence (CTI), which includes attack signatures and behavioral patterns obtained through automated tools and manual threat analysis, such as sandboxing. The CTI is then transformed into actionable rules for the IDS engine, enabling real-time detection and prevention. However, the constant evolution of...

ID: 2508.18684v1 cs.CR, cs.AI, cs.CL, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

2025-08-27

Авторы:

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

#################### ## Контекст #################### В последние годы появилось множество значительных прогрессов в области бо LARGE VISION-LANGUAGE MODELS (LVLMs), которые обеспечивают мощные возможности в анализе и понимании изображений и текста. Однако существуют значительные недостатки в их понимании структурированных данных, таких как таблицы и графики, а также в их производительности при решении задач, требующих продвинутого математического моделирования. Эти проблемы видны особенно в решении задач, которые требуют расширенного знания, таких как оценка данных, экстраполяция и логическое связывание. Например, существуют нерешительные результаты в области визуального анализа спортивных статистических данных. Этот исследовательский подход исследует эти проблемы в контексте спортивных статистических данных, особенно в связи с их значимостью в решении характеристик спортивных матчей. #################### ## Метод #################### Чтобы устранить эти проблемы, мы предлагаем **MMCRICBENCH-3K**, который представляет собой бенчмарк для оценки производительности LVLMs на Visual Question Answering (VQA) задачах с использованием спортивных статистических данных. Мы генерируем 1 463 синтетических изображений скорок, как в ODIs, так и в T20 и Test-форматах, и создаем 1 500 вопросов-ответов на английском языке, которые требуют развитого анализа, такого как вычисления счета, прогнозирование результатов и логическое сопоставление. Датасет делится на две подвыборки: **MMCRICBENCH-E-1.5K**, содержащий изображения скорок на английском языке, и **MMCRICBENCH-H-1.5K**, содержащий изображения скорок на хинди. Измерения выполняются на английском языке, чтобы обеспечить сравнение в рамках одного языка, но с разными стилями ввода. Датасет предоставляет структурированные таблицы, в которых ключевые статистические метрики определяют трудные задачи моделирования. #################### ## Результаты #################### Мы проводим эксперименты с популярными LVLMs, включая GPT-4o и Qwen2.5VL. Результаты показали, что даже на английском языке, где LVLMs получают наибольший объем данных для обучения, модели сталкиваются с значительными недостатками в продвинутых задачах по логическому восприятию и вычислениям. На хинди-подвыборке, где такие модели сталкиваются с узкими наборами данных, производительность значительно ухудшается. Эти результаты также подтверждают, что LVLMs имеют ограниченную способность к контексту, требующему расширенного знания. Отчеты показывают, что проблема во взаимодействии моделей с необходимыми структурными данными и контекстом до сих пор не решена. #################### ## Значи

Annotation:

We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA) on cricket scorecards, designed to evaluate large vision-language models (LVLMs) on complex numerical and cross-lingual reasoning over semi-structured tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English scorecards, and MMCRICBENCH-H-1.5K, containing vi...

ID: 2508.17334v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 The AI Data Scientist

2025-08-27

Авторы:

Farkhad Akimov, Munachiso Samuel Nwadike, Zangir Iklassov, Martin Takáč

```markdown ## Контекст Область исследования связана с развитием и применением искусственного интеллекта (ИИ) в области анализа данных и знаний. Существующие проблемы включают затруднения в быстром понимании данных и своевременной получения рекомендаций на их основе. Традиционные рабочие процессы часто требуют многочасов работы аналитиков, чтобы выявить связи и предоставить рекомендации. Мотивация заключается в создании решения, которое существенно ускорит процесс научного анализа, при этом сохранив высокое качество рекомендаций. В этом контексте возникает потребность в автоматизированных системах, которые могут принимать решения на основе анализа данных, выявляя статистически значимые тенденции и предлагая обоснованные решения. ## Метод Авторская система, названная AI Data Scientist, является автономным агентом, основанным на технологиях больших языковых моделей (LLM). Она удаляет физическое расстояние между данными и решениями, предлагая конечные решения в течение нескольких минут. Основой системы является научный гипотезный подход. Агент выявляет статистически значимые тенденции в данных, оценивает их значимость и использует для моделирования прогнозов. Далее, результаты преобразуются в рекомендации, которые объяснены в доступной форме. Система состоит из специализированных подсистем-агентов, каждый отвечающий за отдельный этап обработки данных: чистка данных, выполнение статистических тестов, проверку целостности данных и вывод результатов в понятном виде. Эти подсистемы способны создавать свой собственный код, анализировать причинно-следственные связи и определять, когда требуется дополнительная информация для более точного анализа. ## Результаты Доказательство эффективности системы проводилось через ряд экспериментов на реальных данных. В качестве тестов использовались различные наборы данных, включая маркетинговые данные, данные побочных эффектов лекарств и данные по сельскохозяйственному производству. Для каждого набора данных были выполнены статистические тесты на значимость, проведены проверки целостности данных, а также произведены прогнозы. Результаты экспериментов показали, что система может выполнять в 10-20 раз быстрее сравнительные методы, при этом обеспечивая качественные рекомендации. ## Значимость Полученные результаты могут быть применены в различных сферах: бизнес-аналитике, финансах, здравоохранении и других областях, где требуется быстрая и качественная статистическая обработка данных. Особый потенциал имеет система в развитии более доступного и эффективного способа проведения аналитических работ. Отдельно отмечен

Annotation:

Imagine decision-makers uploading data and, within minutes, receiving clear, actionable insights delivered straight to their fingertips. That is the promise of the AI Data Scientist, an autonomous Agent powered by large language models (LLMs) that closes the gap between evidence and action. Rather than simply writing code or responding to prompts, it reasons through questions, tests ideas, and delivers end-to-end insights at a pace far beyond traditional workflows. Guided by the scientific tenet...

ID: 2508.18113v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Unraveling the cognitive patterns of Large Language Models through module communities

2025-08-27

Авторы:

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao

## Контекст Large Language Models (LLMs) отличились относительно недавно, но уже проявили возможность влиять на развитие науки, технологий и общества. Они применяются в различных областях, таких как медицина, наука и разработка чат-ботов. Однако, несмотря на их практическую полезность, лишь немногие из его "загадочных" механизмов понятны. Это порождает вопросы о том, как они обретают определенные знания и как они могут связать различные знания, когда решают задачи. Наша мотивация заключается в том, чтобы разобраться в логике этих моделей, чтобы получить более полное понимание, как они поступают при выполнении задач. ## Метод Мы использовали методологию, которая ставит целью построить сетевой фреймворк, чтобы установить связь между модулями LLM, способностями и данными. Метод заключается в сравнении способностей модели с логикой работы мозга и систем биологических систем. Нашим целым стремлением является выявить, как модули модели связаны друг с другом и какие знания они объединяют. Мы хотели понять, как можно проще связать концепции с тем, что происходит в модели, чтобы более эффективно отслеживать и менять его поведение. ## Результаты Исследователи определили, что некоторые модули модели выделяются в определенных областях, многие же связаны друг с другом, что позволяет модели объединять различные знания. Однако, исследователи заметили, что эти модули не так строго специализированы, как в организмах. Вместо этого, у них есть более сложный, динамический подход к обнаружению и обработке новых данных. Наши результаты показали, что эти модели могут "изучаться" и "изменяться" в процессе работы, что позволяет им оптимизировать свои результаты. Это, в свою очередь, открыло новые возможности для улучшения интерпретации и управления моделями. ## Значимость Мы показали, что наш подход может быть применим не только к LLMs, но и к другим моделям сетевых систем, которые будут расти в будущем. Это может помочь внедрить эти модели в новые области, такие как робототехника или цифровые персоны. Мы также отметили, что подобный подход может повысить эффективность работы моделей, предложив новые стратегии для их подготовки и применения. Наша работа также может способствовать развитию искусственного интеллекта в целом, предлагая новые способы интерпретации и контроля поведения моделей. ## Выводы Мы успешно разработали модель, которая помогает разобраться в "мышлении" LLMs, показав, что они не только специализируются, но и прекрасно справляются с динамическими ситуациями. Это открыло путь к новым интерпретациям и управлению моделями. Наша работа подтверждает, что будущи

Annotation:

Large Language Models (LLMs) have reshaped our world with significant advancements in science, engineering, and society through applications ranging from scientific discoveries and medical diagnostics to Chatbots. Despite their ubiquity and utility, the underlying mechanisms of LLM remain concealed within billions of parameters and complex structures, making their inner architecture and cognitive processes challenging to comprehend. We address this gap by adopting approaches to understanding eme...

ID: 2508.18192v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Integrating Time Series into LLMs via Multi-layer Steerable Embedding Fusion for Enhanced Forecasting

2025-08-26

Авторы:

Zhuomin Chen, Dan Li, Jiahui Zhou, Shunyu Wu, Haozheng Ye, Jian Lou, See-Kiong Ng

## Контекст Временные ряды (TS) широко используются во многих областях приложений, что делает прогнозирование временных рядов (TSF) ключевой задачей. Недавние прорывы в области больших языковых моделей (LLMs) открыли новые возможности для их применения в прогнозировании временных рядов. Однако существующие подходы существенно ограничены глубиной интеграции временных рядов в модели. Большинство методов обрабатывают временные ряды только на входном уровне, что приводит к быстрому затуханию влияния этих данных в глубине модели. Это влечет за собой неэффективную адаптацию взаимодействия между текстовыми и временными сериями, что снижает качество прогнозирования. Данная работа адресует эту проблему, предлагая новую модель, которая позволяет LLMs эффективно интегрировать временные ряды на разных уровнях. ## Метод Предлагаемая модель, **Multi-layer Steerable Embedding Fusion (MSEF)**, обеспечивает глубокую интеграцию временных рядов в текстовые модели. MSEF использует фундаментальные модели временных рядов для извлечения семантически богатых временных рядов. Эти временные ряды затем встраиваются в текстовые слои модели через **steering vectors**, которые адаптируются на каждом уровне модели. Эти steering vectors стремятся максимизировать взаимодействие между временными рядами и текстовыми слоями, позволяя модели адаптироваться легко и эффективно в режиме few-shot. Эта архитектура позволяет LLMs более тонко рассматривать временные ряды на протяжении всего процесса обучения. ## Результаты Работа провела эксперименты на семь разных бенчмарковых датасетов, сравнив результаты с другими современными подходами. Модель MSEF показала существенную улучшенную точность среднего квадратичного отклонения (MSE), снизив его на среднем 31.8% по сравнению с базовыми моделями. Эти результаты указывают на эффективность MSEF в использовании временных рядов для улучшения прогнозирования. Данные эксперименты подтверждают, что новый подход сохраняет значимую информацию о временных рядах на всех уровнях текстовой модели, что делает его чрезвычайно эффективным в сложных задачах прогнозирования. ## Значимость Предлагаемый подход имеет широкие области применения, включая финансовый анализ, медицинское прогнозирование и мониторинг систем. Он предоставляет значительные преимущества перед существующими подходами, такими как улучшенное взаимодействие между модальностями и сохранение точности прогнозирования при малоизвестных данных. Это может привести к улучшению решений во многих технических и научных областях, где временные ряды играют ключевую роль. ## Выводы Результаты показываю

Annotation:

Time series (TS) data are ubiquitous across various application areas, rendering time series forecasting (TSF) a fundamental task. With the astounding advances in large language models (LLMs), a variety of methods have been developed to adapt LLMs for time series forecasting. Despite unlocking the potential of LLMs in comprehending TS data, existing methods are inherently constrained by their shallow integration of TS information, wherein LLMs typically access TS representations at shallow layer...

ID: 2508.16059v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

2025-08-25

Авторы:

Terry Jingchen Zhang, Wenyuan Jiang, Rongchuan Liu, Yisong Wang, Junran Yang, Ning Wang, Nicole Ni, Yinya Huang, Mrinmaya Sachan

## Контекст Теоретическое компьютерное научное исследование (TCS) является ключевым компонентом в развитии широкого спектра компьютерных технологий. Одним из важных аспектов TCS является автоматизированное доказательство теорем (FTP), которое позволяет легко проверять различные вычислительные задачи. Однако существуют значительные проблемы в этой области, включая нехватку качественных данных и высокую стоимость их ручного создания. Эти проблемы ограничивают прогресс в развитии методов автоматической проверки математических доказательств. Мы предлагаем использовать TCS как источник строго структурированных проблем для вывода автоматических доказательств, который может быть легко масштабирован для генерации трудных задач с подтвержденными формально-историческими соответствиями. ## Метод Мы разработали фреймворк для автоматического генерирования теорем-проблем с формальными (Lean4) и информальными (Markdown) заданиями. Этот подход основывается на теоретических компьютерных науках, включая задачи типа Busy Beaver (доказательство границы жизнедеятельности Тьюринговых машин) и Mixed Boolean Arithmetic (комбинирование логических и арифметических выводов). Наша методика состоит в автоматической синтезировании проблем, которые могут быть проверены с помощью мощных теоретических методов и сравниваться с информальными описаниями задач. Это позволяет создать масштабируемую систему для генерирования доказательств с высоким уровнем сложности и строгой формальной гарантией качества. ## Результаты Мы провели исследование, используя широкий спектр теоретических задач и моделей глубокого обучения. Наши результаты показывают, что хотя модель DeepSeekProver-V2-671B демонстрирует внушительные результаты на задачах Busy Beaver (57.5% успеха), она имеет значительно меньший успех на задачах Mixed Boolean Arithmetic (только 12% успеха). Это показывает, что даже для простоты проверок, сложность генерации трудных доказательств остается высокой. Эти результаты демонстрируют значение TCS в создании новых проблем для тестирования моделей в области автоматического доказательства теорем. ## Значимость Наш подход открывает новые возможности для проверки моделей машинного обучения в сфере теоретических доказательств. Мы показали, что TCS может стать основой для создания новых вызовов в области автоматического доказательства, что может привести к новым решениям в AI, проверке логики и программной инженерии. Этот подход широко может использоваться в области развития новых методов для проверки теорем и развития теоретического компьютерного научного исследования. ## Выводы Мы усп

Annotation:

Formal theorem proving (FTP) has emerged as a critical foundation for evaluating the reasoning capabilities of large language models, enabling automated verification of mathematical proofs at scale. However, progress has been constrained by limited datasets due to the high cost of manual curation and the scarcity of challenging problems with verified formal-informal correspondences. We propose leveraging theoretical computer science (TCS) as a scalable source of rigorous proof problems, where al...

ID: 2508.15878v1 cs.LO, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Open-Universe Assistance Games

2025-08-23

Авторы:

Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell

## Контекст Открытые миры и сложные задачи, которые стоят перед embodied AI-агентами, требуют инновационных подходов к пониманию и выполнению разнообразных целей и предпочтений пользователей. Традиционные системы часто ограничены набором предопределенных целей или тестовой информацией, что ограничивает их универсальность. Без достаточного обобщения и учета непредсказуемости пользовательских целей, эти системы не могут предоставить надёжные решения в реальной среде. Мы предлагаем Open-Universe Assistance Games (OU-AGs), расширенный фреймворк, который позволяет агенту обучаться и действовать в условиях неограниченного и эволюционирующего пространства целей. ## Метод Мы представляем GOOD (GOals from Open-ended Dialogue), метод, основанный на онлайн-интерфейсе, который обучает агента анализировать и предсказывать цели в виде естественного языка во время интеракции с пользователем. GOOD использует генеративные модели типа Large Language Models (LLM) для симуляции разнообразных целей и интентов, включая сложные. Эти модели обучаются на основе диалоговых сценариев, которые генерируются динамически в процессе общения. Данный подход позволяет создавать богатые представления целей и оценивать их неопределённость без необходимости больших обучающих датасетов. ## Результаты Мы провели эксперименты в двух средах: text-based grocery shopping и text-operated simulated household robotics (AI2Thor). Для имитации пользовательских профилей использовались синтетические данные. GOOD показал существенное превосходство по сравнению с базовым методом, не имеющим явного учёта целей, как подтвердили оценки LLM-моделей и эксперименты с реальными пользователями. Это подтверждает эффективность GOOD в определении разнообразных целей и учёте их неопределённости в реальных условиях. ## Значимость Предложенный подход может быть применён в различных областях, включая робототехнику, виртуальные помощники и системы обслуживания клиентов. Он обеспечивает более естественную интеракцию, уменьшает необходимость в крупных обучающих наборах данных и позволяет агентам действовать в условиях неопределённости. Это значительно повышает универсальность и реалистичность агентов, делая их более эффективными в решении сложных задач в жизненных условиях. ## Выводы Наша работа доказывает, что GOOD является эффективным методом для построения агентов с открытым пространством целей. Мы направимся на дальнейшее оптимизацию и расширение GOOD для поддержки большего разнообразия целей и сценариев в реальных средах, чтобы продвигать широкое применение embodied AI в повседневных задачах.

Annotation:

Embodied AI agents must infer and act in an interpretable way on diverse human goals and preferences that are not predefined. To formalize this setting, we introduce Open-Universe Assistance Games (OU-AGs), a framework where the agent must reason over an unbounded and evolving space of possible goals. In this context, we introduce GOOD (GOals from Open-ended Dialogue), a data-efficient, online method that extracts goals in the form of natural language during an interaction with a human, and infe...

ID: 2508.15119v1 cs.AI, cs.CL, cs.LG, cs.RO

arXiv PDF

📄 GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO

2025-08-23

Авторы:

Bidyapati Pradhan, Surajit Dasgupta, Amit Kumar Saha, Omkar Anustoop, Sriram Puttagunta, Vipul Mittal, Gopal Sarda

## Контекст В последние годы широко развиваются бо LARGE LANGUAGE MODELS (LLM), которые позволяют решать разнообразные задачи в области естественного языка, включая перевод, синтез речи, ответы на вопросы и многое другое. Однако для повышения качества этих моделей требуется большое количество высококачественных данных, особенно для таких сценариев, как supervised fine-tuning (SFT) и direct preference optimization (DPO). Несмотря на продвижение технологий сбора реальных данных, они часто сталкиваются с ограничениями в объеме, качестве и разнообразии. Это влечет за собой потребность в развитии эффективных фреймворков для генерации и управления генерированными данными, которые могут быть использованы в тренировочных процессах для LLM. Целью настоящей работы является разработка мощного, универсального и модульного синтетического генератора данных, который может снизить нагрузку на подготовку данных для различных LLM-приложений. ## Метод Предлагаемый фреймворк, **GraSP (Graph-Based Synthetic Data Generation and Processing Framework)**, основывается на графовой модели. Он предлагает модульную архитектуру, которая позволяет гибко настраивать процесс генерации данных. Генерация начинается с объявления конфигурации, которая определяет структуру диалога, включая узлы (интенты) и ребра (потоки диалога). Фреймворк поддерживает продуктивность и скорость, используя предобученные модели для генерации текста и встроенные механизмы для обеспечения качества. Ключевая характеристика **GraSP** — двухэтапная механика качества, включающая: 1) группу цепных правил для быстрого отбора и 2) LLM-based evaluation для точного определения качества. Таким образом, фреймворк обеспечивает точность и масштабируемость, необходимые для высококачественного генерирования данных. ## Результаты Для проверки эффективности **GraSP** были проведены эксперименты на создании данных для SFT и DPO в различных сценариях. Использовались различные диалоги, сформированные с учетом различных сложностей, включая сценарии со сложными диалогами и моделированием человеческого поведения. Результаты показали, что система может генерировать высококачественные данные с меньшим объемом ручных интервенций. Эксперименты также показали, что данные, генерируемые **GraSP**, позволяют улучшить точность в моделях, тренируемых на этих данных. Авторы также показали, что использование модульной архитектуры позволяет снизить время настройки и подготовки данных в LLM-современных проектах. ## Значимость **GraSP** может применяться в различных областях, включая образование, здравоохранение, финансы и другие сферы, где требуется высококачественная настройка моделей LLM. Он позволяет уменьшить время и стоимость под

Annotation:

The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeli...

ID: 2508.15432v1 cs.AI, cs.CL, cs.LG

arXiv PDF

1
2
15
16
17
18
19
20

Показано 161 - 170 из 196 записей