📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection

2025-08-20

Авторы:

Seonglae Cho, Zekun Wu, Adriano Koshiyama

################################## ## Контекст ################################## Существуют большие языковые модели (LLMs), которые используются для обработки текстов в различных задачах, но их эффективность часто ограничивается необходимостью в специально подобранных данных для обучения или дополнительных ресурсах для мониторинга и корректировки их поведения. Одним из таких задач применения является управление поведением модели (steering), которое предназначено для влияния на результаты модели, чтобы сделать их более точными, безопасными или нейтральными. Большинство существующих подходов к steering в LLMs требуют дополнительного обучения, тестовых данных или сложных методов выделения функций, что снижает их эффективность и гибкость. Поэтому, в статье предлагается подход, позволяющий эффективно и автоматически выделять функции из спарсинговых автокодировщиков (Sparse Autoencoders, SAEs) для управления поведением модели. Этот подход основывается на выборе функций, соотносящих правильность ответов модели с активациями SAE при инференсе, что позволяет избежать нежелательных корреляций и улучшить точность решения задач. Этот подход может быть применен для различных задач, таких как моделирование ответов в виде вопросов-ответов (QA), снижение биаса, предотвращение жалобного поведения (jailbreaking) и развитие рационального мышления в моделях. ################################## ## Метод ################################## В ходе исследования предложен подход CorrSteer, который использует спарсинговые автокодировщики для выделения функций с учетом корреляции с правильностью ответов модели. В статье используется метод выбора функций, основанный на корреляции между ответом модели и активациями SAE, сгенерированными в момент инференса. Преимущество этого подхода заключается в том, что он использует только активации, полученные во время инференса, и не требует дополнительных данных для обучения или хранения. Это позволяет избежать спуфингов корреляций и улучшить качество решения задач. Кроме того, CorrSteer автоматизирует процесс выделения функций, получая коэффициенты управления (steering coefficients) на основе средних активаций SAE, что делает весь процесс более простым и эффективным. Метод протестирован на различных моделях, таких как Gemma 2 2B и LLaMA 3.1 8B, на таких задачах, как вопросы-ответы (QA), снижение биаса, предотвращение жалобного поведения и рациональное мышление. Это позволило продемонстрировать эффективность подхода в улучшении задач, в том числе повышении производительности модели на MMLU на +4.1% и улучшении исправления биаса на +22.9% с использованием только 4000 выборочных данных. ################################## ## Результаты ################################## Исследование показало, что CorrSteer эффективно улучшает задачи в области управления поведением моделей. Например, на

Annotation:

Sparse Autoencoders (SAEs) can extract interpretable features from large language models (LLMs) without supervision. However, their effectiveness in downstream steering tasks is limited by the requirement for contrastive datasets or large activation storage. To address these limitations, we propose CorrSteer, which selects features by correlating sample correctness with SAE activations from generated tokens at inference time. This approach uses only inference-time activations to extract more rel...

ID: 2508.12535v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data

2025-08-20

Авторы:

Ming Li, Zihuai He, Min Zhang, Xiaowei Zhan, Changshuai Wei, Robert C Elston, Qing Lu

## Контекст В последние годы высокопроизводительные технологии последовательного секвенирования (high-throughput sequencing) стали доступными для изучения влияния широкого спектра последовательных вариаций на развитие сложных гуманных заболеваний. Современные аналитические методы для работы с высокомерной последовательной данной остаются трудными, но необходимы для раскрытия новых генетических вариантов, включая редкие, которые могут привести к заболеваниям. Одним из основных вызовов является статистический анализ высокомерных данных, в том числе генетических, для обнаружения таких вариантов. ## Метод Мы предлагаем новую модель генетического случайного поля (GGRF) для анализа генетических суспертиров в последовательных данных. Метод основывается на фреймворке статистики регрессии (generalized estimating equations) и позволяет анализировать различные типы последовательных вариантов, включая редкие. Метод не требует предварительного установления порогов для редких вариантов и может обрабатывать различные типы характеров заболеваний (например, квантитативные и бинарные показатели). Основное преимущество GGRF заключается в его гибкости и точности при работе с редкими вариантами, которые могут иметь разные эффекты на заболевание. Также GGRF имеет хорошую асимптотическую свойству, что делает его удобным для использования даже на небольших объемах данных. ## Результаты Мы проводили симуляционные испытания для сравнения GGRF с одной из самых популярных моделей — SKAT (Sequence Kernel Association Test). Результаты показали, что GGRF обеспечивает значительно более высокую силу обнаружения вариантов, особенно когда редкие варианты играют ключевую роль в генетической этиологии заболевания. Мы также применили GGRF к реальным данным из исследования Dallas Heart Study. Эти данные позволили нам выявить ассоциации двух генов (ANGPTL3 и ANGPTL4) с растворимыми триглицеридами в крови, что подтвердило эффективность метода в практических применениях. ## Значимость Метод GGRF может быть применен в различных областях генетического исследования, включая работу с редкими генетическими вариантами, которые могут привести к развитию гуманных заболеваний. Он имеет значительные преимущества в том, что не требует предварительной настройки порогов для редких вариантов и может обрабатывать разнообразные типы данных. Этот подход может способствовать раскрытию новых генетических механизмов, способствующих развитию заболеваний, и помочь в разработке новых терапевтических методов. ## Выводы Мы предложили GGRF — новую модель для анализа генетических вариантов в последовательных данных, которая показала свою эффективность в сравнении с одной из лучших

Annotation:

With the advance of high-throughput sequencing technologies, it has become feasible to investigate the influence of the entire spectrum of sequencing variations on complex human diseases. Although association studies utilizing the new sequencing technologies hold great promise to unravel novel genetic variants, especially rare genetic variants that contribute to human diseases, the statistical analysis of high-dimensional sequencing data remains a challenge. Advanced analytical methods are in gr...

ID: 2508.12617v1 stat.ME, cs.AI, cs.LG

arXiv PDF

📄 ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction

2025-08-20

Авторы:

Xingshan Zeng, Weiwen Liu, Lingzhi Wang, Liangyou Li, Fei Mi, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu

## Контекст Одним из ключевых направлений развития ИИ является создание систем, способных эффективно взаимодействовать с пользователями в рамках сложных задач. Это включает в себя взаимодействия с несколькими шагами, вовлечение различных инструментов и динамические обмены. Но в существующих моделях нередко обнаруживаются проблемы с обеспечением точности, структуры и динамичности в таких сценариях. Это приводит к необходимости разработки методов, которые могут генерировать более качественные данные для обучения и оценки таких систем. ## Метод Предлагаемый подход, ToolACE-MT, основывается на неавторегрессионной генерировании диалогов, разделяющий процесс на три этапа. **Инициализация** формирует структурно полные, но семантически грубые диалоговые выводы. **Итеративное уточнение** вводит реалистичные сложности, расширяет диалог и добавляет контекстов. **Оффлайн-проверка** гарантирует качество и логичность результатов с помощью правил и моделей. Этот подход стремится создавать данные, которые не только содержат всю необходимую структуру, но и динамичны в своем смысле, чтобы отразить реальные сценарии интеракций. ## Результаты Используя этот подход, были проведены эксперименты, в которых генерировались диалоги с несколькими шагами, включая задачи с использованием инструментов. Обучающиеся данные были получены с помощью многих выборок, а результаты показали, что ToolACE-MT удалось увеличить качество данных, сократить время генерации и обеспечить более гибкий процесс сравнения многих моделей. Эти результаты опровергают необходимость в дорогостоящих многошаговых авторегрессионных процессах, предлагая более эффективную альтернативу. ## Значимость Модель ToolACE-MT может быть применима в различных сферах, таких как генерация диалогов для систем помощников, систем технической поддержки и интерактивных приложений. Одним из основных преимуществ является ее эффективность и универсальность, что позволяет улучшить качество данных в средах с несколькими шагами. Это может привести к повышению качества работы генерируемых моделей и к более естественным взаимодействиям с пользователями. ## Выводы Это исследование предлагает новую модель для генерирования данных для многошаговых сценариев с использованием инструментов. Достижения ToolACE-MT указывают на возможность создания улучшенных систем, которые будут более эффективными и реалистичными в своих взаимодействиях. Будущие исследования будут сконцентрированы на расширении модели для более сложных задач и интеграции дополнительных инструментальных функций.

Annotation:

Agentic task-solving with Large Language Models (LLMs) requires multi-turn, multi-step interactions, often involving complex function calls and dynamic user-agent exchanges. Existing simulation-based data generation methods for such scenarios rely heavily on costly autoregressive interactions between multiple LLM agents, thereby limiting real-world performance of agentic tasks. In this paper, we propose a novel Non-Autoregressive Iterative Generation framework, called ToolACE-MT, for constructin...

ID: 2508.12685v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 TTA-DAME: Test-Time Adaptation with Domain Augmentation and Model Ensemble for Dynamic Driving Conditions

2025-08-20

Авторы:

Dongjae Jeon, Taeheon Kim, Seongwon Cho, Minhyuk Seo, Jonghyun Choi

## Контекст Тест-тайм адаптация (TTA) является сложной задачей, требующей моделей динамически адаптироваться и действовать оптимально в условиях меняющегося целевого домена. Это особенно актуально в реальных сценариях динамического вождения, где часто встречаются смены погодных условий. Такие переходы могут значительно снижать производительность моделей, особенно в переходе с дневных в ночные условия. Наше исследование, TTA-DAME, адресует эту проблему, используя источниковую доменную аугментацию для целевого домена. Мы предлагаем дополнительные методы, такие как добавление дискриминатора домена и специального детектора, для снижения вызванных внезапными переходами между дневным и ночным временем. Множественные детекторы объединяются с помощью Non-Maximum Suppression (NMS) для повышения точности. Наши эксперименты показали, что TTA-DAME позволяет значительно повысить производительность в SHIFT Benchmark. ## Метод TTA-DAME основывается на следующих ключевых компонентах: 1. **Источниковая аугментация**: Мы улучшаем целевой домен, занося в него данные источника. 2. **Дискриминатор домена**: Он включает сеть в процесс обучения, позволяя ей принимать решения о принадлежности к домену. 3. **Детектор домена**: Определяет тип домена в реальном времени, необходимый для целевой модели. 4. **NMS**: Объединяет результаты нескольких детекторов, повышая достоверность. Мы тренируем несколько моделей, объединяем их предсказания и применяем NMS для уточнения результатов. Это сочетание методов позволяет существенно повысить устойчивость и точность модели в реальных условиях. ## Результаты Мы проверили TTA-DAME на SHIFT Benchmark, который представляет собой набор данных для анализа переходов между различными погодными условиями. В результате наши тесты показали, что TTA-DAME улучшила показатели на 15% по сравнению с базовыми моделями. Мы также провели эксперименты с другими моделями, в том числе с традиционными методами адаптации, и показали, что TTA-DAME обеспечивает значительный прирост в устойчивости и точности определения объектов в ночных условиях. ## Значимость Наш метод может применяться в различных сценариях, где необходима адаптация моделей в реальном времени, например, в системах распознавания объектов, водительских помощных системах и других приложениях м MLOps. Особый потенциал TTA-DAME заключается в снижении риска ошибок в ходе адаптации моделей в условиях меняющихся доменов. Это может существенно повысить надежность и безопасность систем в работах компаний, ориентированных на технологии AI. ## Выводы Наши результаты показывают, что TTA-DAME значительно повышает устойчивость моделей в условиях ча

Annotation:

Test-time Adaptation (TTA) poses a challenge, requiring models to dynamically adapt and perform optimally on shifting target domains. This task is particularly emphasized in real-world driving scenes, where weather domain shifts occur frequently. To address such dynamic changes, our proposed method, TTA-DAME, leverages source domain data augmentation into target domains. Additionally, we introduce a domain discriminator and a specialized domain detector to mitigate drastic domain shifts, especia...

ID: 2508.12690v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Multi-Level Knowledge Distillation and Dynamic Self-Supervised Learning for Continual Learning

2025-08-20

Авторы:

Taeheon Kim, San Kim, Minhyuk Seo, Dongjae Jeon, Wonje Jeong, Jonghyun Choi

## Контекст Class-incremental with repetition (CIR) — это топорстильный подход, где ранее обученные классы повторно вводятся в последующие задачи. Это сценарий более реалистичен, чем традиционный класс-инкрементальный подход, который предполагает, что каждая задача включает невиденные классы. CIR предполагает, что доступно обширное количество необъявленных данных из внешних источников, таких как Интернет. Однако преуспеть в CIR требуется сбалансированная модель, которая обладает стабильностью (не забывает уже известные классы) и гибкостью (быстро осваивает новые классы). Наша работа стремится улучшить эти аспекты, обеспечив новый подход к класс-инкрементальному обучению. ## Метод Мы предлагаем два ключевых компонента для решения проблем CIR: **multi-level knowledge distillation (MLKD)** и **dynamic self-supervised learning (SSL)**. **MLKD** использует несколько предыдущих моделей для передачи знаний по нескольким уровням, включая формат фичей и выходных данных. Это позволяет модели сохранять широкий спектр прошлых знаний. **Dynamic SSL** использует необъявленные данные для ускорения обучения новых классов, при этом динамическое взвешивание SSL сохраняет концентрацию на основной задаче. Таким образом, наши компоненты выступают в сочетании, обеспечивая лучшую стабильность и гибкость в CIR. ## Результаты Проведенные эксперименты показали эффективность наших решений в CIR setup. Мы проверили их на различных датасетах, включая CIFAR-100 и ImageNet. Модель, в которой использовались наши компоненты, показала существенное улучшение в сравнении с другими подходами в CIR. Она достигла **2-го места в 5-м CVPR 5th CLVISION Challenge**, подтвердив свою эффективность. Эти результаты доказывают, что наш подход эффективно справляется с проблемами стабильности и гибкости в класс-инкрементальном обучении. ## Значимость Наше решение может быть применено в различных сценариях, где требуется грамотная обработка данных при непостоянном доступе к классам. Это могут быть области, такие как обнаружение объектов, распознавание звука, и даже адаптация моделей в реальном времени. Основные преимущества — улучшенная стабильность модели при повторном обучении и ускоренное обучение новых классов. Потенциальный вклад в область глубокого обучения заключается в расширение возможностей класс-инкрементальных моделей, позволяя им быть более эффективными и реалистичными в реальной жизни. ## Выводы Мы предложили два важных компонента — **multi-level knowledge distillation** и **dynamic self-supervised learning** — для усовершенствования класс-инкрементальных моделей в CIR setup. Эти компоненты демонстрируют сильное улучшение в стабильности и гибкости моделей. Наша работа подтвер

Annotation:

Class-incremental with repetition (CIR), where previously trained classes repeatedly introduced in future tasks, is a more realistic scenario than the traditional class incremental setup, which assumes that each task contains unseen classes. CIR assumes that we can easily access abundant unlabeled data from external sources, such as the Internet. Therefore, we propose two components that efficiently use the unlabeled data to ensure the high stability and the plasticity of models trained in CIR s...

ID: 2508.12692v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Next Visual Granularity Generation

2025-08-20

Авторы:

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

#################### ## Контекст #################### Современные технологии в области изображений стремятся преодолеть пределы реалистичности и точности, предлагая новые подходы к генерации изображений. Одна из самых вызовов в этой области — поддерживать тонкую контрольность над процессом генерации при сохранении высокого качества изображений. Одним из важных аспектов этой задачи является управление "гранулярностью" изображений, то есть способностью генерировать изображения на разных уровнях детализации. Настоящая статья предлагает новый подход, который структурирует пространство гранулярности в целях более точного и эффективного управления процессом генерации. #################### ## Метод #################### Авторы предлагают метод, основанный на декомпозиции изображений в последовательность структурированных элементов, где каждый элемент имеет одинаковую разрешающую способность, но отличается количеством уникальных токенов. Это позволяет представить изображение в разных уровнях детализации — от общей структуры до мелких деталей. Новый подход, названный Next Visual Granularity (NVG), генерирует изображения последовательно, начиная с пустого изображения и постепенно улучшая его, добавляя детали в порядке возрастающей гранулярности. Этот процесс кодирует иерархическую представление, которая обеспечивает тонкую контрольность над каждым этапем генерации. #################### ## Результаты #################### Чтобы проверить эффективность NVG, авторы провели ряд экспериментов на датасете ImageNet. Они обучили серию моделей NVG для класс-условной генерации изображений и сравнили результаты с существующими методами, такими как VAR. Результаты показали, что NVG не только повышает FID-скоры (например, от 3.30 до 3.03 для одного эксперимента), но также демонстрирует более высокую точность и детализацию в генерировании изображений. Это демонстрирует преимущество NVG в обеспечении тонкого контроля над гранулярностью изображений. #################### ## Значимость #################### Предложенный подход имеет широкое применение в сферах, требующих точного контроля над процессом генерации изображений, таких как графические искусства, виртуальная реальность и машинное зрение. Его преимущества включают в себя точность генерации, эффективность в ресурсопотреблении и гибкость в регулировании детализации изображений. Этот подход может иметь потенциал для расширения границ возможностей в искусственном интеллекте и графическом дизайне. #################### ## Выводы #################### Next Visual Granularity (NVG) представляет собой новый подход к генерации изображений, который достигает высокого качества изображений и тонкого контро

Annotation:

We propose a novel approach to image generation by decomposing an image into a structured sequence, where each element in the sequence shares the same spatial resolution but differs in the number of unique tokens used, capturing different level of visual granularity. Image generation is carried out through our newly introduced Next Visual Granularity (NVG) generation framework, which generates a visual granularity sequence beginning from an empty image and progressively refines it, from global l...

ID: 2508.12811v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CAMAR: Continuous Actions Multi-Agent Routing

2025-08-20

Авторы:

Artem Pshenitsyn, Aleksandr Panov, Alexey Skrynnik

## Контекст Многоагентное управление (Multi-Agent Reinforcement Learning, MARL) широко применяется в решении задач кооперативного и конкурентного решения задач, включая планирование маршрутов, управление роботами и игровые решения. Однако существующие MARL-benchmarks, как rule-based, так и learning-based, часто ограничиваются средами с дискретными состояниями и действиями, что не позволяет эффективно имитировать реальные комплексные ситуации. Кроме того, нет готовых средств для тестирования алгоритмов на сложных задачах планирования путей в пространствах действий, где действия непрерывны. Наша мотивация заключается в развитии продвинутого MARL-benchmark для решения таких задач, обеспечивающий высокую эффективность, реалистичность и возможность интеграции классических методов планирования. ## Метод Концепция CAMAR (Continuous Actions Multi-Agent Routing) основывается на создании среды с динамическими, непрерывными состояниями и действиями, представляющих собой пространство маршрутов в пространстве. Мы внедрили несколько уровней сложности и возможности интеграции методов типа RRT и RRT* в MARL-процесс. Архитектура CAMAR поддерживает эффективную синхронизацию множества агентов в реальном времени и позволяет управлять ими в рамках разных сценариев, включая кооперативные и конкурентные. Метод реализован на основе опен-сурс-фреймворков MARL и интегрирован с наиболее распространенными методами планирования путей. ## Результаты Мы провели эксперименты на множестве сценариев с различными уровнями сложности, включая ситуации с несколькими кооперативными агентами и конкурентными сценариями с целью оптимального маршрутизации. Использовались такие данные, как сетки, представляющие физические пространства, и симуляторы для эмуляции действий агентов. Результаты показали, что CAMAR эффективно поддерживает большие масштабы и позволяет проводить эксперименты на уровне 100,000 environment steps per second, что значительно превышает достижения существующих методов. Также мы продемонстрировали, как интеграция RRT* с MARL-алгоритмами позволяет повысить точность планирования. ## Значимость CAMAR представляет собой реалистичный и производительный MARL-benchmark, который может применяться в различных областях, включая робототехнику, игровые решения и системы координации в реальном времени. Он обеспечивает глубокий анализ ролей непрерывных действий в многоагентных системах и позволяет сравнивать различные алгоритмы на одной платформе. Мы считаем, что CAMAR может стать ключевым инструментом для развития новых методов и вкладываться в райд между разработчиками MARL-систем. ## Выводы CAMAR — это первый MARL-benchmark, который сочетает не

Annotation:

Multi-agent reinforcement learning (MARL) is a powerful paradigm for solving cooperative and competitive decision-making problems. While many MARL benchmarks have been proposed, few combine continuous state and action spaces with challenging coordination and planning tasks. We introduce CAMAR, a new MARL benchmark designed explicitly for multi-agent pathfinding in environments with continuous actions. CAMAR supports cooperative and competitive interactions between agents and runs efficiently at ...

ID: 2508.12845v1 cs.AI, cs.LG, cs.MA

arXiv PDF

📄 The Yokai Learning Environment: Tracking Beliefs Over Space and Time

2025-08-19

Авторы:

Constantin Ruhdorfer, Matteo Bortoletto, Andreas Bulling

## Контекст The Yokai Learning Environment (YLE) — это инновационная многоагентная среда на основе игры Yokai, которая расширяет теорию Теории Ума (ToM). ToM является ключевым компонентом развития коллаборативного Искусственного Интеллекта (AI), поскольку оно включает в себя моделирование и реагирование на убеждения других участников для обеспечения общего понимания. Однако существующие методы Теории Ума имеют ограничения — они ограничиваются ситуациями, в которых агенты просто наблюдают действия других, или не учитывают процессы установления и поддержания общей значимости в течение длительного времени. Объектом изучения в работе является развитие методов, позволяющих агентам эффективно устанавливать и поддерживать общее понимание в ходе динамических многоагентных ситуаций. ## Метод YLE — это кооперативная игра, в которой участники должны объединять карты в кластеры по цвету. Игра представляет собой окружение с многоагентным реинфорсментным обучением (Multi-Agent Reinforcement Learning, MARL), где агенты должны отслеживать эволюцию убеждений, запоминать предыдущие наблюдения и использовать подсказки как канал выражения целей. Одним из основных аспектов геймплея является то, что агенты должны следить за эволюцией скрытых ситуаций на доске и интерпретировать подсказки других игроков. Эта среда является вызовом для теории ТоМ, поскольку агенты должны совместно строить контекст в ходе развивающихся игр. Основные элементы методологии включают: агентские модели, ориентированные на моделирование убеждений, а также анализ их эффективности в условиях развивающихся и непредсказуемых условий. ## Результаты В ходе экспериментов были проанализированы поведения агентов в различных условиях. Несмотря на то, что агенты имели доступ к идеальной памяти, они столкнулись с трудностями в решении сложных задач в YLE. Было замечено, что моделирование убеждений увеличивало эффективность, но не решало проблемы поддержания взаимопонимания в ходе длительных игр. Агенты часто полагались на локальные конвенции вместо устойчивого моделирования убеждений. Эти результаты подтверждают, что существующие методы ТоМ не достаточно сильны для решения более сложных задач, которые требуют более высокого уровня общего понимания. ## Значимость YLE открывает новые возможности для исследований в области Теории Ума, в том числе моделирования убеждений, моделирования памяти и поддержки общего понимания в динамических многоагентных ситуациях. Он может быть применен в разработке новых методов для создания AI, способных эффективно командовать и кооператив

Annotation:

Developing collaborative AI hinges on Theory of Mind (ToM) - the ability to reason about the beliefs of others to build and maintain common ground. Existing ToM benchmarks, however, are restricted to passive observer settings or lack an assessment of how agents establish and maintain common ground over time. To address these gaps, we introduce the Yokai Learning Environment (YLE) - a multi-agent reinforcement learning (RL) environment based on the cooperative card game Yokai. In the YLE, agents ...

ID: 2508.12480v1 cs.AI, cs.LG, cs.MA

arXiv PDF

📄 Mitigating Hallucinations in Large Language Models via Causal Reasoning

2025-08-19

Авторы:

Yuangang Li, Yiqing Shen, Yi Nian, Jiechao Gao, Ziyi Wang, Chenxiao Yu, Shawn Li, Jie Wang, Xiyang Hu, Yue Zhao

## Контекст Современные большие языковые модели (LLMs) сталкиваются с проблемой **hallucinations** — выводов, показательно соответствующих языку, но несоответствующих логике или рациональным принципам. Эти эффекты могут привести к нежелательным последствиям в задачах, требующих высокого качества выводов. Несколько исследований указали на то, что **causal reasoning** способствует уменьшению таких несоответствий. Однако, существующие подходы, такие как Chain-of-Thought (CoT) и его варианты на основе графов, оперируют на уровне токенов и не могут представлять сущности в виде структурных зависимостей. Это ограничивает их эффективность в моделировании сложных ситуаций, где необходимо учитывать условные зависимости. Опытные пользователи моделей знают, что на практике LLM может давать неточные ответы, даже в базовых ситуациях, что подтверждает необходимость развития новых методов для уменьшения такого поведения. ## Метод Мы предлагаем **causal-DAG construction and reasoning (CDCR-SFT)** — систему, которая позволяет модели LLM явно отображать логическое представление зависимостей между переменными в виде **directed acyclic graph (DAG)**. Этот подход включает в себя: 1. **Causal-DAG construction**: модель выводит граф, представляющий структуру сущностей и их взаимосвязей. 2. **Reasoning over DAG**: модель применяет рациональный анализ к полученному графу, выполняя вывод на основе условных зависимостей. Для обучения и экспериментов мы создали **CausalDR** — новую базу данных включающую 25 368 примеров, каждый содержащий вопрос, пример графа, рассуждения и корректный ответ. Мы применяем этот подход к нескольким LLMs, тестируя их на различных задачах. ## Результаты Наши эксперименты показали, что **CDCR-SFT** выдает следующие результаты: - **На тестовой выборке CLADDER** — **95.33% точность**, превышая человеческую производительность (94.8%, впервые достигнутая). - **На HaluEval** — повышение точности на 10%, что уменьшило степень логических несоответствий в выводах. - Эти результаты подтверждают, что модель, использующая структуру DAG, эффективно устраняет логические несоответствия в выводах больших языковых моделей. ## Значимость **Применение**: Метод **CDCR-SFT** может применяться в различных областях, где требуется высококачественный вывод, например в журналистике, медицине, юриспруденции и других критически важных сферах. **Преимущества**: Этот подход уменьшает уровень логических ошибок и повышает доверие к выводам моделей, что определяет его перспективность в области супервизорного обучения. **Влияние**: Этот подход может иметь решающий вклад в развитие

Annotation:

Large language models (LLMs) exhibit logically inconsistent hallucinations that appear coherent yet violate reasoning principles, with recent research suggesting an inverse relationship between causal reasoning capabilities and such hallucinations. However, existing reasoning approaches in LLMs, such as Chain-of-Thought (CoT) and its graph-based variants, operate at the linguistic token level rather than modeling the underlying causal relationships between variables, lacking the ability to repre...

ID: 2508.12495v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Root Cause Analysis of Hydrogen Bond Separation in Spatio-Temporal Molecular Dynamics using Causal Models

2025-08-19

Авторы:

Rahmat K. Adesunkanmi, Ashfaq Khokhar, Goce Trajcevski, Sohail Murad

#### Контекст Молекулярные динамические симуляции (MDS) играют ключевую роль в изучении физических и химических систем, но при этом имеют значительные ограничения. Одним из основных недостатков является необходимость многочисленных вычислений для моделирования сложных систем, а также ручное сканирование результатов для выявления "интересных событий", таких как образование и распад гидрогенных связей. Эти события являются важными для понимания структуры и поведения молекулярных систем. Несмотря на развитие аналитических методов, существует значительный теоретический лаг в понимании факторов, вызывающих образование и разрушение гидрогенных связей, а также в их механизмах. Наша мотивация заключается в разработке методов, которые позволят автоматизировать обнаружение этих феноменов и дают понимание основных причин их возникновения. #### Метод Мы предлагаем использовать методы спектральной аналитики и машинного обучения для выявления глубинных причин возникновения и распада гидрогенных связей. Наша методология основывается на концепциях казуальных моделей, где мы визуализируем гидрогенные связи как результат взаимодействий различных межмолекулярных сил. Мы используем **variational autoencoder (VAE)**-inspired architecture для построения графов влияний в динамических системах. Этот подход позволяет интерпретировать взаимосвязи между различными молекулами и идентифицировать переменные, которые способствовали появлению гидрогенных связей или их разрушению. Ключевым элементом является модель, которая моделирует изменения в локальных полях взаимодействий и их динамические изменения в процессе развития системы. #### Результаты Мы проводили эксперименты с использованием MDS для моделирования системы с chiral separation. Наша модель способна предсказать изменения в системе за несколько шагов вперед и выявить важные факторы, влияющие на развитие системы. В частности, мы выявили, что изменения в локальных полях взаимодействий и энергии имеют существенное влияние на образование и распад гидрогенных связей. Эти результаты показывают, что наш метод эффективен в обнаружении основных причин изменения структуры молекулярных систем. #### Значимость Разработанный подход имеет широкие возможности для применения в различных областях, включая молекулярную динамику, биологию, фармацевтику и даже некоторые сферы искусственного интеллекта. Он позволяет улучшить понимание феноменов в молекулярных системах, а также повысить точность и эффективность моделирования. Этот подход также может быть применен для решения проблем в других областях, где используется графовая аналитика и динамическое моделиро

Annotation:

Molecular dynamics simulations (MDS) face challenges, including resource-heavy computations and the need to manually scan outputs to detect "interesting events," such as the formation and persistence of hydrogen bonds between atoms of different molecules. A critical research gap lies in identifying the underlying causes of hydrogen bond formation and separation -understanding which interactions or prior events contribute to their emergence over time. With this challenge in mind, we propose lever...

ID: 2508.12500v1 cs.AI, cs.LG, q-bio.QM

arXiv PDF

1
2
149
150
151
152
153
168
169

Показано 1501 - 1510 из 1687 записей