📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

2025-08-13

Авторы:

Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh

## Контекст Emotional Voice Conversion (EVC) является важной задачей в области речевых технологий, способствующей созданию эмоционально окрашенного голоса, сохраняющего языковой контент. Известно, что в ситуациях, где требуется контролируемое изменение эмоционального содержания речи, важно моделировать не только отдельные эмоциональные выражения, но и передавать их динамику во времени. Существующие методы часто сталкиваются с проблемами несовершенного разделения спикерской идентичности и эмоционального стиля, а также недостаточной моделирования динамики эмоционального выражения. Целью данной работы является разработка метода, который обеспечит контроль над контентом, спикерской идентичностью и эмоциональным стилем, а также улучшит передачу временных динамических особенностей эмоции в случае несоответствия просодических характеристик. ## Метод Мы предлагаем Maestro-EVC — многозадачный фреймворк для контролируемой эмоциональной голосовой конверсии. Он основывается на моделировании независимого разделения контента, спикерской идентичности и эмоции с помощью различных четко отделенных референсов. Для лучшего передачи динамики эмоции во времени мы предлагаем новую темпоральную представление эмоции, а также вводим эксплититный просодический моделирование с помощью усиления просодии. Мы используем архитектуру, основанную на transformer, для эффективного извлечения и контроля этих атрибутов. Эта модель обеспечивает высококачественные эмоциональные изменения речи, даже при несоответствии просодических особенностей. ## Результаты Мы проводили эксперименты с различными данными, включая синтезированные и реальные речевые выражения с разными эмоциональными стилями. В результате показаны высокие показатели улучшения дисентеграции атрибутов речи, как по спикерской идентичности, так и по эмоциональному стилю. Мы также провели сравнение с другими подходами, демонстрируя преимущества Maestro-EVC в том, что он обеспечивает более точный контроль над эмоциональными изменениями. Особенно выдающимися результатами показался Maestro-EVC в задаче сегментации временных эмоциональных динамик, даже при просодически несовпадающих условиях. ## Значимость Maestro-EVC может быть применен в различных областях, включая создание эмоционально окрашенных голосовых помощников, лингвистических исследований, а также в сфере интерактивных технологий. Он предоставляет значительные преимущества в сравнении с традиционными методами, такими как улучшенная точность контроля и лучшая моделирование динамики эмоциональных звуков. Этот подход может оказаться важным для развития новых возможностей в области разговорных интерфейсов, где эмоции и

Annotation:

Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enab...

ID: 2508.06890v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery

2025-08-13

Авторы:

Keyu Li, Mohan Jiang, Dayuan Fu, Yunze Wu, Xiangkun Hu, Dequan Wang, Pengfei Liu

## Контекст В последние годы, большие языковые модели полностью изменили ландшафт искусственного интеллекта, переиграв ранее ограничивающие его факторы, такие как вычислительная мощность, в ограничение, связанное с доступностью данных. Несмотря на то, что сегодня доступны многочисленные ценные данные в различных знаний-интенсивных и логика-интенсивных зонах, многие из них остаются скрытыми в специализированных репозиториях, исследовательских приложениях и доменных платформах. Это приводит к вопросу: могут ли системы на основе искусственного интеллекта преодолеть традиционные поисковые приёмы, чтобы автоматически выявлять и синтезировать данные, соответствующие конкретным пользовательским требованиям? Эта идея лежит в основе разработки системы DatasetResearch, первого комплексного бенчмарка, оценивающего возможности систем для точного выявления данных по спецификации пользователя. ## Метод DatasetResearch представляет собой трёхмерную методологию, позволяющую оценивать роботов-исследователей на основе 208 реальных спецификаций, разделенных по сложности и типу. Основная архитектура подразумевает два основных типа агентов: роботы-поисковики и роботы-синтезаторы. Роботы-поисковики оперируют богатым индексом данных, обеспечивая большую полноту результатов. Роботы-синтезаторы, в свою очередь, строят данные с нуля, генерируя их по запросу. Такая структура позволяет бинаризовать ситуации, в которых каждый тип агента справляется с определёнными задачами лучше другого, но ни один из них не может полностью справиться с "корневыми" случаями, которые выходят за пределы распределения текущих данных. ## Результаты Комплексный анализ, проведённый в рамках DatasetResearch, показал, что даже самые продвинутые системы достигают лишь 22% от возможностей базовых критериев на оценочном подмножестве DatasetResearch-pro. Это свидетельствует о большом расхождении между текущими моделями и идеалом автоматической обнаружения и синтеза данных. Особенно важными оказались результаты, показавшие, что системы поиска сильнее в ситуациях, где нужно полномочие и база знаний, но часто провалятся в случаях, требующих нестандартных и крайних решений. Обратно, синтезаторы сильнее в ситуациях, требующих глубокой интеллектуальной логики, но они не справляются с широкой подборкой данных. ## Значимость Результаты DatasetResearch устанавливают первый рабочий базис для оценки систем автоматического выявления данных. Это открывает возможности для создания систем, которые могут автоматически находить и синтезировать данные в л

Annotation:

The rapid advancement of large language models has fundamentally shifted the bottleneck in AI development from computational power to data availability-with countless valuable datasets remaining hidden across specialized repositories, research appendices, and domain platforms. As reasoning capabilities and deep research methodologies continue to evolve, a critical question emerges: can AI agents transcend conventional search to systematically discover any dataset that meets specific user require...

ID: 2508.06960v1 cs.AI, cs.CL

arXiv PDF

📄 TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree

2025-08-13

Авторы:

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Внедрение контекстной биазированной транскрибации звуков (ASR) становится все более важной задачей в статистических распознавателях речи. Она позволяет улучшить точность распознавания, оптимизировав сеть для распознавания конкретных фраз, важных для контекста. Существующие подходы сталкиваются с такими проблемами, как необходимость дополнительной модели, высокое влияние на производительность системы при работе с большим количеством фраз, и ограничения системы распознавания звука. Эти ограничения налагают серьезные ограничения на универсальность и поддерживаемую скорость обработки. ## Метод Мы предлагаем TurboBias, новую модель ASR с биазированием контекста, которая работает на GPU-акселераторе с деревом ускорения фраз. Метод работает в рамках трех основных типов распознавания речи на основе CTC, Transducers и сетей Attention Encoder-Decoder. Метод имеет высокую скорость обработки, независимо от количества фраз в словаре, благодаря объединению фраз в бинарное дерево. Благодаря этому, TurboBias может обрабатывать до 20 000 фраз с минимальным влиянием на производительность. ## Результаты Мы проверили TurboBias на стандартных датасетах ASR. Система показала высокую точность распознавания слов, а также быстродействие, которое не снижается даже при большом количестве фраз в словаре. Наши результаты показывают, что TurboBias обеспечивает улучшение точности и скорости в сравнении с другими методами ASR, особенно при работе с большим количеством целевых фраз. ## Значимость TurboBias может использоваться для различных задач, таких как распознавание речи на лету, улучшение систем распознавания речи для специальных языковых контекстов, и для любых систем, требующих быстрого и точного распознавания фраз. Метод открывает новые возможности для развития систем ASR, особенно для приложений, требующих высокого быстродействия и уменьшения ошибок распознавания. ## Выводы Мы представили TurboBias, мощную универсальную модель ASR с биазированием контекста. Метод обеспечивает не только высокую точность распознавания, но и высокую скорость даже при обработке больших наборов фраз. Мы видим будущие развитие TurboBias в области улучшения систем распознавания звука для разных языков и специальных задач.

Annotation:

Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is base...

ID: 2508.07014v2 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Generative Artificial Intelligence Extracts Structure-Function Relationships from Plants for New Materials

2025-08-13

Авторы:

Rachel K. Luu, Jingyu Deng, Mohammed Shahrudin Ibrahim, Nam-Joon Cho, Ming Dao, Subra Suresh, Markus J. Buehler

## Контекст Последние годы становится все очевиднее, что генерируемая искусственным интеллектом (Generative AI) способна преодолевать границы традиционных областей исследований и объединять различные научные дисциплины. В частности, в области материаловедения, где необходимо комбинировать знания о биологии, химии, физике и материальной инженерии, Генерируемый AI может значительно ускорить процесс изобретения и проектирования материалов. Однако, несмотря на всю потенциальную мощь, его применение в научной практике, особенно в сложных, многодисциплинарных областях, остается редким. Например, почти не используется для изучения интересных биологических систем, таких как растения, которые могут быть источником новых материалов. Мы предлагаем новый подход, который использует Генерируемый AI для извлечения отношений формы и функции (structure-function relationships) из растительных систем, а также для создания новых биоинспирированных материалов. Особенно важной является модель BioinspiredLLM, которая выступает в качестве главного инструмента для изучения таких систем, как поленовые материалы и латифиллистные листья пальмы Rhapis excelsa, известных своим самодействием и адаптивным поведением. ## Метод Мы разрабатываем фреймворк, который сочетает Generative AI с широким диапазоном технических инструментов, включая литературный поиск, взаимодействие с пользователем и многоуровневые стратегии вывода. Использована модель BioinspiredLLM, которая была прикладной и адаптирована для изучения биологических систем. Мы использовали технологию Retrieval-Augmented Generation (RAG), которая позволяет связать запросы с подходящей биологической литературой, и агентные системы, способные автоматически строить и тестировать гипотезы. Кроме того, мы применяем Hierarchical Sampling, чтобы генерировать и оценивать множество гипотез от одного запроса. Таким образом, мы можем сформировать вопросы и исследовать ответы, которые не только теоретически интересны, но и экспериментально проверяются. ## Результаты Мы проводили ряд экспериментов для проверки нашего подхода. Например, мы использовали BioinspiredLLM для изучения морфологии лепестков латифиллистных листьев пальмы Rhapis excelsa. Эти модели позволяли получить новые идеи по материалам, которые могут применяться в самодействующих системах. Мы также проверяли наш фреймворк на материалах на основе полена, которые могут изменять свои характеристики в зависимости от влажности. Мы провели лабораторные испытания с полученными материалами, включая формирование клея на основе полена, и измерили его силу прижима. Эти результаты позволили нам проверить гипотезы, полученные

Annotation:

Large language models (LLMs) have reshaped the research landscape by enabling new approaches to knowledge retrieval and creative ideation. Yet their application in discipline-specific experimental science, particularly in highly multi-disciplinary domains like materials science, remains limited. We present a first-of-its-kind framework that integrates generative AI with literature from hitherto-unconnected fields such as plant science, biomimetics, and materials engineering to extract insights a...

ID: 2508.06591v1 cs.LG, cond-mat.dis-nn, cond-mat.mtrl-sci, cond-mat.other, cs.AI, cs.CL

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

2025-08-13

Авторы:

Lixuan He, Jie Feng, Yong Li

## Контекст В последние годы Large Language Models (LLMs) стали неотъемлемой частью различных интеллектуальных задач, таких как математическое моделирование, визуальное рассуждение и взаимодействие с визуальными средами. Однако достижение высокого уровня производительности в этих областях часто требует сложной подготовки моделей, включающей в себя и супервизированную оптимизацию (SFT), и реинфорсмент (RL). Несмотря на выгоды от удовлетворения параллельных потребностей моделей, существуют затруднения в достижении гармоничного баланса, что приводит к таким проблемам, как катастрофическое забывание, неоптимальный баланс между имитацией и экспериментом, а также сложности в выборе правильной стратегии для конкретных задач. Эти трудности приводят к увеличению времени обучения и снижению стабильности результатов. В этой работе мы применяем теоретическое осмысление гибкого имплицитного механизма регулирования взаимодействия SFT и RL для лучшего достижения баланса. ## Метод Мы предлагаем новую модель **Adaptive Meta Fine-Tuning (AMFT)**, которая представляет собой уникальную методологию для улучшения баланса между SFT и RL. Центральная идея заключается в том, чтобы трактовать SFT и RL не как независимые технологии, а как взаимосвязанные регуляторы, зависящие от задачи. AMFT вводит **мета-градиентный адаптивный контроллер**, который анализирует и динамически создает веса для SFT и RL, максимизируя не только производительность, но и стабильность. Особенностью метода является ввод **политии энтропии** для повышения стабильности тренировочного процесса, что позволяет модели автоматически выбирать наиболее подходящую стратегию в зависимости от специфических входных данных. Данная архитектура гарантирует оптимальный режим тренировки и сохраняет достаточную гибкость для решения OOD-задач. ## Результаты Мы проводим эксперименты на трех основных типах задач: математическом рассуждении, визуальном рассуждении (в том числе General Points) и взаимодействии с визуальными средами (V-IRL). В результате, AMFT демонстрирует значительные улучшения по сравнению с другими существующими методами. Мы исследуем эффективность мета-контроллера и производительность модели в многостадийных ситуациях. Эксперименты показывают, что AMFT не только повышает общую производительность, но и демонстрирует более стабильные результаты в нестандартных ситуациях. Анализ динамики обучения подтверждает, что мета-контроллер не только улучшает скорость обучения, но и помогает модели избегать потерь связанных с катастрофическим забыванием. ## Значимость AMFT демонстрирует потенциал для использования в широком

Annotation:

Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical ...

ID: 2508.06944v2 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 MultiMedEdit: A Scenario-Aware Benchmark for Evaluating Knowledge Editing in Medical VQA

2025-08-13

Авторы:

Shengtao Wen, Haodong Chen, Yadong Wang, Zhongying Pan, Xiang Chen, Yu Tian, Bo Qian, Dong Liang, Sheng-Jun Huang

#### Контекст Knowledge editing (KE) является эффективным способом обновления фактического знания в больших языковых моделях без полной переучетов. Изучены текстовые и медицинские задачи QA, но решения для multimodal medical KE остаются недооцененными. В отличие от текстовых моделей, multimodal KE требует интеграции знаний с визуальным разумом для безопасного и интерпретируемого клинического принятия решений. Несмотря на важность этой области, существуют недостатки в методах и бенчмарках для ее оценки. Мы предлагаем MultiMedEdit — первую библиотеку, ориентированную на KE в multimodal medical tasks, позволяющую провести cross-paradigm evaluation и определить критерии для клинической надежности, генеральности и локальности. #### Метод MultiMedEdit состоит из сценарио-ориентированных задач, охватывающих как простые вопросы с ответами (SQuAD-like), так и рассуждения с глубоким визуальным разумом (Visual QA). Определяется многомерный трехмерный метрический подход (reliability, generality, locality) для сравнения KE моделей в различных сценариях. Метод предлагает разделение на two-stage KE и lifelong KE, позволяющий оценить их качество в различных политиках редактирования. Библиотека поддерживает не только обучение моделей, но и поддерживает перенос знаний при повторном редактировании. Использованы большие данные медицинских сценариев, включая как текстовые, так и визуальные, с целью провести широкую экспериментальную оценку. #### Результаты Выполнены эксперименты под различными условиями редактирования знаний (single-editing и lifelong-editing). Методы KE показали слабую generalization и неэффективность в решении задач с long-tail разделениями. Библиотека MultiMedEdit позволяет четко выявить эти проблемы и сравнивать performance в разных сценариях, включая те, когда необходимо корректировать клинически важные знания. Была проведена эффективность работы KE-парадигм с разными trade-offs между вычислительными ресурсами и скоростью редактирования. #### Значимость MultiMedEdit предоставляет широкие возможности для клинических приложений, включая обновление моделей в здравоохранении, клинические визуальные задачи и поддержку принятия решений. Библиотека предоставляет уникальный подход к KE, пригодному для решения сложных клинических задач. Результаты показали, что существуют значительные проблемы в предыдущих моделях, относящиеся к generalization и long-tail reasoning. Это позволяет значительно улучшить будущие модели и сделать их более надежными для клинических приложений. #### Выводы MultiMedEdit раскрывает недостатки и ограничения существующих KE-методов в multimodal medical tasks. Библиотека поддерживает развитие клинически надежных моделей KE, используя сценарио-ориентированные бенчмарки. Будущие исследования должны сосредоточиться на улучшении generalization и разви

Annotation:

Knowledge editing (KE) provides a scalable approach for updating factual knowledge in large language models without full retraining. While previous studies have demonstrated effectiveness in general domains and medical QA tasks, little attention has been paid to KE in multimodal medical scenarios. Unlike text-only settings, medical KE demands integrating updated knowledge with visual reasoning to support safe and interpretable clinical decisions. To address this gap, we propose MultiMedEdit, the...

ID: 2508.07022v1 cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

2025-08-13

Авторы:

Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou

## Контекст Поиск и сортировка актуальной информации является важной задачей в различных областях, от поисковых систем до рекомендательных систем. Несмотря на успех глубоко обученных моделей, проблемы с недостаточной силой логического моделирования и ограниченным доступом к качественному обучающему данным существуют. Эти проблемы сказываются на качестве результатов поиска, особенно при работе с сложными запросами. Обеспечение сильной логической модели и создание методологии, позволяющей улучшить качество рейтинга, являются целями этого исследования. ## Метод Разработана модель ReasonRank, которая использует широкомасштабное моделирование слов с помощью Large Language Models (LLM) для выполнения рейтинга. Для повышения модели силами логического моделирования, разработана методика автоматического синтеза тренировочных данных на основе DeepSeek-R. Данные подвергаются фильтрации с помощью системы самоконсистентности, чтобы обеспечить их качество. Далее, применена последовательная постобучениевая методика. В первой стадии используется супервизированное тренирование для выделения шаблонов успешного логического моделирования. Во второй стадии применяется развитие модели через глубокое обучение с подкреплением (RL), где используется многообзорная оценка результатов для повышения рейтинга. ## Результаты Реализованная модель протестирована на нескольких наборах данных, в том числе BRIGHT. Эксперименты показали, что ReasonRank превосходит существующие модели по метрикам качества рейтинга. На BRIGHT leaderboard ReasonRank достиг рекордного результата 40.6, показав значительное превосходство по сравнению с другими решениями. Благодаря использованию многообзорной оценки, модель достигла лучшего баланса между точностью и скоростью работы. ## Значимость Предложенная модель ReasonRank устанавливает новый стандарт в области развития логического моделирования в пассаж-рейтинге. Она применима не только в поисковых системах, но и в рекомендательных системах, во временной динамике. Модель отличается низкой задержкой, что делает её привлекательной для реального времени. Будущие исследования будут фокусированы на расширении модели для более сложных сценариев и улучшении её универсальности для различных приложений.

Annotation:

Large Language Model (LLM) based listwise ranking has shown superior performance in many passage ranking tasks. With the development of Large Reasoning Models, many studies have demonstrated that step-by-step reasoning during test-time helps improve listwise ranking performance. However, due to the scarcity of reasoning-intensive training data, existing rerankers perform poorly in many complex ranking scenarios and the ranking ability of reasoning-intensive rerankers remains largely underdevelop...

ID: 2508.07050v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SQL-Exchange: Transforming SQL Queries Across Domains

2025-08-13

Авторы:

Mohammadreza Daviran, Brian Lin, Davood Rafiei

#### Контекст Текст-to-SQL системы предназначены для перевода запросов, написанных на естественном языке, в SQL-запросы для выполнения на базах данных. Однако существуют проблемы с адаптацией этих систем к новым базам данных с разными схемами. Допускаются ошибки в структуре и семантике запросов, что снижает удобство использования систем. `SQL-Exchange` — это инновационный подход, который предлагает новую модель для трансформации SQL-запросов между разными базами данных, сохраняя исходную структуру запросов и адаптируя их к новой схеме. Он исследует условия, при которых такие трансформации возможны и полезны, а также показывает, как эта технология может улучшить "in-context learning" для текст-to-SQL систем. #### Метод `SQL-Exchange` основывается на двух основных этапах: **стадию модификации** и **стадию адаптации**. В первой стадии идентифицируются и анализируются различия между исходной и целевой схемами, а затем исходный запрос адаптируется для соответствия новой схеме. Это достигается с помощью `schema mapping`, который сопоставляет элементы исходной схемы с элементами целевой схемы. Технический подход включает в себя графы схем, автоматическое сопоставление и корректировку структуры запросов. Таким образом, `SQL-Exchange` обеспечивает точное преобразование запросов, сохраняя семантику и функциональность. #### Результаты Исследователи провести эксперименты на множестве баз данных, схем, и запросов, чтобы проверить точность и эффективность `SQL-Exchange`. Данные в экспериментах включали различные типы запросов, сложные структуры схем, и разные базы данных. Результаты показали, что `SQL-Exchange` эффективно преобразует запросы, сохраняя их структуру и семантику. Он также показал, что использование трансформированных запросов в качестве вводных примеров для "in-context learning" улучшает производительность текст-to-SQL систем по сравнению с использованием запросов из исходной схемы. #### Значимость `SQL-Exchange` может применяться в различных областях, где необходимо переводить SQL-запросы между разными базами данных, таких как бизнес-аналитика, мобильные приложения, и системы управления базами данных. Он обеспечивает более точное и надежное преобразование запросов, снижая риск ошибок и улучшая пользовательское взаимодействие с системами текст-to-SQL. Этот подход также может ускорить развитие технологий, связанных с адаптацией баз данных и систем текстового поиска. #### Выводы `SQL-Exchange` достигает успешного преобразования SQL-запросов между разными схемами, сохраняя их семантику и структуру. Он показал свою эффективность в различных контекстах и может

Annotation:

We introduce SQL-Exchange, a framework for mapping SQL queries across different database schemas by preserving the source query structure while adapting domain-specific elements to align with the target schema. We investigate the conditions under which such mappings are feasible and beneficial, and examine their impact on enhancing the in-context learning performance of text-to-SQL systems as a downstream task. Our comprehensive evaluation across multiple model families and benchmark datasets--a...

ID: 2508.07087v1 cs.DB, cs.AI, cs.CL

arXiv PDF

📄 Propagation Tree Is Not Deep: Adaptive Graph Contrastive Learning Approach for Rumor Detection

2025-08-13

Авторы:

Chaoqun Cui, Caiyan Jia

## Контекст Современные социальные сети являются важной источником информации, но при этом являются местом распространения слухов и неточной информации. Детекция слухов (rumor detection) является важной задачей для обеспечения надежности информации и защиты общества от вредоносных влияний. Несмотря на то, что существуют ряд моделей, основанных на графах, для решения этой задачи, они часто исходят из предположения, что деревья распространения лжи (rumor propagation trees, RPTs) имеют глубокие структуры. Однако статистический анализ данных реальных социальных сетей показывает, что большинство узлов RPT имеют очень глубины 1 или 2, что отличается от предположений этих моделей. Эта несоответствие моделей к реальным данным создает мотивацию для развития более эффективных подходов к обучению. ## Метод Мы предлагаем метод Rumor Adaptive Graph Contrastive Learning (RAGCL), который адаптивно увеличивает подграфы с помощью сгенерированных видов (views), опираясь на центральность узлов. Этот подход нацелен на то, чтобы сосредоточить обучение на ключевых подграфах, характеризующихся более высокой структурной интенсивностью. Мы определили три принципа для адаптивного увеличения подграфов: 1. Исключение корневых узлов из аугментации. 2. Удержание узлов с глубиной 1 или выше. 3. Отбор узлов из глубин, где их порядок не слишком сильно отличается от корня. Для генерирования видов мы применяем методы случайного удаления узлов, маскирования атрибутов и удаления ребер, при этом веса удаления определяются прототипов центральности. Это позволяет создавать разные виды для обучения модели, что улучшает ее устойчивость и точность. ## Результаты Мы проводили эксперименты на четырьмя бенчмарковыми наборами данных, которые широко используются для задачи детекции слухов. Модель RAGCL демонстрирует превосходство по метрикам F1-score и AUC в сравнении с текущими лидерами, такими как GCN, GAT и GraphSAGE. Эти результаты подтверждают то, что RAGCL эффективно учитывает широкую структуру RPTs и устойчив к изменениям в структуре данных. ## Значимость Результаты RAGCL имеют значительное влияние на область детекции слухов в социальных сетях. Они позволяют улучшить точность и стабильность моделей, опираясь на более точное понимание структуры данных. Более того, адаптивные техники аугментации, предложенные в рамках этой модели, могут быть применены в других задачах, включая обработку данных с деревовой структурой, например, в моделях для логического семантического понимания текста или биоинформатики. ## Выводы В результате нашего исследования мы показали, что RPTs в реальных дан

Annotation:

Rumor detection on social media has become increasingly important. Most existing graph-based models presume rumor propagation trees (RPTs) have deep structures and learn sequential stance features along branches. However, through statistical analysis on real-world datasets, we find RPTs exhibit wide structures, with most nodes being shallow 1-level replies. To focus learning on intensive substructures, we propose Rumor Adaptive Graph Contrastive Learning (RAGCL) method with adaptive view augment...

ID: 2508.07201v1 cs.SI, cs.AI, cs.CL

arXiv PDF

1
2
119
120
121
122
123
129
130

Показано 1201 - 1210 из 1292 записей