📚 Саммари научных статей из arXiv

Найдено 13936 результатов по запросу 'cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 TrajEvo: Trajectory Prediction Heuristics Design via LLM-driven Evolution

2025-08-08

Авторы:

Zhikai Zhao, Chuanbo Hua, Federico Berto, Kanghoon Lee, Zihan Ma, Jiachen Li, Jinkyoo Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА Прогнозирование траекторий движения объектов является фундаментальной задачей в области моделирования поведения человека, имеющей критическое значение для безопасности в таких приложениях, как социальная робототехника и навигация автономных транспортных средств. Современные подходы к решению этой задачи можно условно разделить на два класса: традиционные эвристические методы, основанные на заранее заданных правилах, и современные методы глубокого обучения. Первая категория методов, несмотря на свою вычислительную эффективность и интерпретируемость, страдает от низкой точности и плохой обобщающей способности. Эвристики, созданные экспертами, часто не способны адекватно описать сложные социальные взаимодействия и динамические сценарии, возникающие в реальных условиях. Например, заранее заданные правила движения в толпе могут не учитывать неожиданные изменения в поведении пешеходов или нестандартные ситуации на дороге. Вторая категория, методы глубокого обучения, демонстрируют значительно более высокую точность предсказаний, но имеют ряд критических недостатков. Во-первых, они требуют значительных вычислительных ресурсов, что ограничивает их применение в реальных системах, особенно на борту автономных роботов. Во-вторых, "черные ящики" нейронных сетей обеспечивают минимальную интерпретируемость результатов, что критично для безопасных систем. В-третьих, и самое важное, методы глубокого обучения демонстрируют плохую обобщающую способность на выборках, отличающихся от обучающих (out-of-distribution, OOD), что делает их непригодными для работы в нестандартных или аварийных ситуациях. Существующий разрыв между эффективностью традиционных методов и качеством методов глубокого обучения создает необходимость в новых подходах, которые бы сочетали вычислительную эффективность и интерпретируемость эвристик с обобщающей способностью современных методов. Это и является основной мотивацией для разработки представленного в статье фреймворка TrajEvo, который использует большие языковые модели для автоматического создания эвристик прогнозирования траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Фреймворк TrajEvo представляет собой инновационный подход к автоматизированному созданию эвристик для прогнозирования траекторий, который использует сочетание эволюционных алгоритмов и больших языковых моделей. Основная идея заключается в том, чтобы использовать морфологические и семантические возможности LLM для генерации и последующего улучшения эвристик на основе исторических данных о траекториях. Архитектура системы состоит из нескольких ключевых компонентов. Первым является генератор эвристик на основе LLM, который создает начальные эвристики в виде читаемых правил на естественном языке. Эти эвристики затем преобразуются в исполняемый код и оцениваются на наборе траекторий. Вторым важным компонентом является эволюционный алгоритм, который управляет процессом оптимизации эвристик через поколения. В рамках эволюционного процесса предложены две ключевые инновации. Первая - это Cross-Generation Elite Sampling (CGES), механизм отбора элитных решений, который обеспечивает сохранение диверсификации популяции между поколениями. В отличие от традиционных методов, которые могут терять разнообразие решений, CGES специально сохраняет не только лучшие, но и разнообразные эвристики из предыдущих поколений, что помогает избежать преждевременной сходимости и улучшает качество окончательных решений. Вторая инновация - Statistics Feedback Loop (SFL) - представляет собой механизм обратной связи, который позволяет LLM анализировать статистику работы альтернативных предсказаний. SFL собирает статистические метрики о производительности различных эвристик и предоставляет LLM краткие, но информативные отчеты. Это позволяет LLM делать обоснованные выводы о том, какие аспекты эвристик работают хорошо, а какие требуют улучшения, и соответственно модифицировать следующее поколение эвристик. Процесс оптимизации работает следующим образом: LLM генерирует начальную популяцию эвристик, каждая из которых представляет собой набор правил для прогнозирования траекторий. Затем эти эвристики оцениваются на исторических данных, после чего лучшие решения отбираются для создания следующего поколения с помощью CGES. Результаты

Annotation:

Trajectory prediction is a critical task in modeling human behavior, especially in safety-critical domains such as social robotics and autonomous vehicle navigation. Traditional heuristics based on handcrafted rules often lack accuracy and generalizability. Although deep learning approaches offer improved performance, they typically suffer from high computational cost, limited explainability, and, importantly, poor generalization to out-of-distribution (OOD) scenarios. In this paper, we introduc...

ID: 2508.05616v1 cs.LG, cs.AI, cs.NE, cs.RO

arXiv PDF

📄 How Do LLMs Persuade? Linear Probes Can Uncover Persuasion Dynamics in Multi-Turn Conversations

2025-08-08

Авторы:

Brandon Jaipersaud, David Krueger, Ekdeep Singh Lubana

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено феномену убеждения человека крупными языковыми моделями (LLM), которое стало особенно актуальным с появлением моделей нового поколения, демонстрирующих репликуемую способность формировать мнения и влиять на поведение пользователей. Несмотря на рост практического применения таких систем в маркетинге, образовании, политике и психологии, научное сообщество до сих пор не обладает инструментами, позволяющими объективно оценить и детально объяснить механизмы, с помощью которых LLM добиваются убеждения. Традиционные подходы, опирающиеся на дорогостоящие методы с опросами пользователей или затратные промпт-эксперименты, не масштабируются и не дают динамической картины изменений в процессе многоходовых диалогов. Ключевой проблемой является отсутствие методов сплошного мониторинга внутренних представлений модели в ходе диалога, что делает невозможным определить момент перелома — мгновение, когда адресат фактически соглашается с аргументами LLM. Также неизвестно, насколько типология личности собеседника и выбор тактики убеждения отражаются в активациях нейросети в реальном времени. Отсутствие прозрачности не позволяет ни предотвращать вредоносное применение технологии, ни улучшать полезные сценарии, требующие этичного убеждения. Работа ставит целью заполнить этот пробел, предложив легковесный, но информативный способ изучения динамики убеждения в естественных многоходовых разговорах, где каждый ход может менять вероятность успеха и требует точечной диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы адаптировали линейные зонды (linear probes) — простейшие логистические регрессоры, обучаемые на замороженных активациях скрытых слоёв LLM — для количественной оценки трёх когнитивных компонентов убеждения: успешности убеждения (success), личностных характеристик собеседника (personality) и тактики убеждения (strategy). Идея состоит в том, что активации на любом слое содержат сжатую информацию, достаточную для линейного классификатора, чтобы предсказать целевую переменную. Процедура обучения включает два этапа. Сначала на фиксированном наборе диалогов вычисляются активации на промежуточных слоях модели (обычно на уровнях, близких к последнему слою энкодера или первому слою декодера). Затем для каждого слоя обучается отдельный зонд, минимизирующий кросс-энтропию между предсказанной меткой и истинной (например, «успех»/«неуспех»). Для надёжности авторы использовали k-fold кросс-валидацию и контролировали переобучение регуляризацией L2. Для задачи «success» метка формировалась на основе явного согласия пользователя или изменения его позиции в анкете до и после диалога. В задаче «personality» использовались психометрические шкалы Большой пятёрки (OCEAN), полученные из предварительного опроса участников. Метки «strategy» кодировались экспертами по 12-ти предопределённым категориям, включая апелляции к авторитету, эмоциональные ловушки, социальное доказательство и т. д. Особенность метода — возможность применять зонд к каждому токену или к усреднённым активациям целого хода, что позволяет отслеживать, в какой именно момент модель «осознаёт» успех убеждения или меняет тактику. В отличие от промптинга, зонды не требуют генерации новых текстов и работают на порядки быстрее, что критично для анализа крупных корпусов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: 1) 12 000 англоязычных диалогов, собранных на Amazon Mechanical Turk, где модель GPT-3.5-turbo убеждала людей поддержать конкретную политическую позицию; 2) 4 500 диалогов по продуктовому маркетингу в сети Reddit, где целью было склонить пользователя к покупке. Для каждого диалога был доступен полный лог реплик, временные метки и метаданные собеседника. Базовым сравнением служил zero-shot промптинг с инструкцией «Определи, было ли достигнуто согласие» и few-shot цепочка мыслей с 5 примерами. Зонды обучались на

Annotation:

Large Language Models (LLMs) have started to demonstrate the ability to persuade humans, yet our understanding of how this dynamic transpires is limited. Recent work has used linear probes, lightweight tools for analyzing model representations, to study various LLM skills such as the ability to model user sentiment and political perspective. Motivated by this, we apply probes to study persuasion dynamics in natural, multi-turn conversations. We leverage insights from cognitive science to train p...

ID: 2508.05625v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling

2025-08-08

Авторы:

Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область автономной навигации мобильных роботов в густонаселенных средах является одной из наиболее критически важных и сложных задач современной робототехники. Роботы, обученные с использованием методов обучения с подкреплением (RL), демонстрируют впечатляющие результаты в контролируемых условиях, однако сталкиваются с серьезными проблемами при выходе за пределы обучающего распределения. Это явление, известное как проблема распределения (distribution shift), становится особенно критичным в динамических сценариях с пешеходами, где даже небольшие изменения в поведении людей могут привести к катастрофическим последствиям. Существующие подходы к обеспечению безопасности в навигации часто полагаются на предопределенные правила или консервативные стратегии, которые ограничивают маневренность робота и снижают эффективность в типовых ситуациях. Более того, традиционные методы не учитывают неопределенность в прогнозировании поведения пешеходов, что становится решающим фактором при столкновении с нестандартными паттернами движения. Например, внезапное изменение скорости группы пешеходов, появление агрессивно настроенных индивидов или переход от индивидуального к групповому поведению может привести к систематическим провалам в безопасности. Авторы статьи акцентируют внимание на фундаментальном недостатке современных RL-систем: они оптимизируются только для ожидаемого распределения данных, игнорируя хвостовые сценарии, которые могут быть редкими, но критически важными для безопасности. Это создает ложное чувство надежности и делает таких роботов непригодными для реального применения в неструктурированных человеческих средах. Необходим новый подход, который бы интегрировал оценку неопределенности напрямую в процесс принятия решений, позволяя роботу адаптивно реагировать на непредвиденные обстоятельства без компромисса в эффективности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный метод, который решает проблему устойчивости к распределениям через интеграцию адаптивного конформного вывода (adaptive conformal inference) в процесс обучения с подкреплением. Система работает по принципу двухуровневой архитектуры: на первом уровне модель прогнозирует будущие траектории пешеходов с оценкой неопределенности, а на втором - использует эти оценки для принятия безопасных решений. Ключевым инновационным элементом является использование конформного предиктора, который генерирует калиброванные доверительные интервалы для предсказаний движения пешеходов. В отличие от традиционных вероятностных методов, конформный вывод обеспечует гарантированный уровень покрытия независимо от базового распределения данных. Система динамически адаптирует эти интервалы на основе текущей сцены, учитывая такие факторы как плотность толпы, скорость движения и исторические паттерны поведения. Внедрение неопределенностей в пространство наблюдений агента осуществляется через специально разработанное представление, включающее как предсказанные траектории, так и соответствующие им доверительные области. Это позволяет агенту не просто реагировать на предсказанное поведение, но и учитывать вероятность отклонения от этих предсказаний. Обучение проводится с использованием метода ограниченного обучения с подкреплением (constrained RL), где ограничения формулируются в терминах максимально допустимого уровня неопределенности при взаимодействии с человеком. Архитектура системы включает три основных компонента: модуль прогнозирования траекторий на основе LSTM-сети с вниманием, модуль конформного предиктора для генерации доверительных регионов, и политику агента, обученную через алгоритм Proximal Policy Optimization (PPO) с safety constraints. Уникальность подхода заключается в том, что границы безопасности адаптируются онлайн, реагируя на текущий уровень неопределенности в среде. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось в трех основных направлениях: оценка производительности в in-distribution сценариях, тестирование robustness при различных видах distribution shift, и валидация на реальном роботе. Для in-distribution оценки использовался симуляционный датасет, включающий 10,000 с

Annotation:

Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performance degradation when faced with out-of-distribution scenarios. We propose that by properly accounting for the uncertainties of pedestrians, a robot can learn safe navigation policies that are robust to distribution shifts. Our method augments agent observations with prediction uncertainty estimates generated by adaptive conformal inference, and it uses these estimates to guide the agent's behavior...

ID: 2508.05634v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 A Comprehensive Framework for Uncertainty Quantification of Voxel-wise Supervised Models in IVIM MRI

2025-08-08

Авторы:

Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluigi Forloni, Riaz Hussein, Giovanna Rizzo, Alfonso Mastropietro

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Оценка параметров интравоксельного некогерентного движения (IVIM) из диффузионно-взвешенного МРТ является сложной задачей из-за некорректно ставимой обратной задачи и высокой чувствительности к шумам, особенно в перфузионной компоненте. Традиционные методы, такие как нейронные сети, борются с неопределенностью в оценках, что может привести к недостоверным результатам. Дополнительная сложность заключается в том, что нейронные сети, как правило, не предоставляют информацию о неопределенности их прогнозов. Это может приводить к недостаткам в клинической практике, где точность и надежность оценок критичны. Таким образом, необходимо разработать метод, который не только обеспечивает точную оценку параметров IVIM, но также квантифицирует неопределенность, позволяя идентифицировать недостоверные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается проблематический фреймворк на основе глубоких ансамблей (Deep Ensembles, DE) и смешанных сетей плотностей (Mixture Density Networks, MDNs) для квантифицирования неопределенности в оценках параметров IVIM. Метод комбинирует силу нейронных сетей с проблематическим подходом, чтобы разделить неопределенность на два компонента: алеаторическую неопределенность (Aleatoric Uncertainty, AU) и эпистемическую неопределенность (Epistemic Uncertainty, EU). MDNs позволяют моделировать плотность вероятности параметров IVIM, что дает возможность получать не только точечные оценки, но и распределения вероятностей. Архитектура MDN обучается на синтезированных данных и оценивается на симулируемых и реальных данных. Разделение AU и EU позволяет лучше понять источники неопределенности, что важно для клинического применения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки метода проведены эксперименты на данных, синтезированных с использованием симуляции, и на двух реальных наборах данных. Результаты показали, что MDNs производят более калиброванные и острые предсказательные распределения для параметров D и f, хотя небольшое преувеличение было замечено для параметра D*. Индекс Robust Coefficient of Variation (RCV) показал, что оценки параметра D* стали более плавными при использовании MDNs по сравнению с традиционными гауссовыми моделями. Однако, наблюдалась повышенная EU на реальных данных, что может указывать на несоответствие между синтезированными данными и реальными условиями сканирования. Это подчеркивает важность включения EU в модель, что позволяет выявить недостоверные оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике, где точная оценка параметров IVIM и их неопределенность играет ключевую роль в диагностике и мониторинге болезней. Фреймворк может быть адаптирован для моделирования других физических моделей, что делает его универсальным инструментом в медицинском образовании. Кроме того, квантификация неопределенности позволяет идентифицировать недостоверные результаты, что может улучшить качество клинических решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен комплексный фреймворк для квантификации неопределенности в моделях IVIM, который обеспечивает точную оценку параметров и разделение неопределенности на AU и EU. Будущие исследования могут фокусироваться на улучшении модели для еще более точного описания реальных условий и на расширении её применения для других физических моделей. Также важно исследовать влияние различных симуляционных стратегий на производительность модели.

Annotation:

Accurate estimation of intravoxel incoherent motion (IVIM) parameters from diffusion-weighted MRI remains challenging due to the ill-posed nature of the inverse problem and high sensitivity to noise, particularly in the perfusion compartment. In this work, we propose a probabilistic deep learning framework based on Deep Ensembles (DE) of Mixture Density Networks (MDNs), enabling estimation of total predictive uncertainty and decomposition into aleatoric (AU) and epistemic (EU) components. The me...

ID: 2508.04588v1 eess.IV, cs.AI, cs.LG

arXiv PDF

📄 GraphProp: Training the Graph Foundation Models using Graph Properties

2025-08-08

Авторы:

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Графовые модели-основы (Graph Foundation Models, GFMs) играют ключевую роль в задачах графовой классифицирования, требующих высокой способности к обобщению на разных доменах. Однако существующие подходы сталкиваются с трудностями при переносе знаний между доменами, так как традиционные методы GFMs часто сосредоточены на передаче информации из узловых признаков в единое пространство представлений, недостаточно учитывая структурные аспекты графов. Это ограничивает их способность к структурному обобщению, особенно когда данные отсутствуют или неполны. Графы, в отличие от других типов данных, характеризуются уникальными структурными инвариантами, которые не зависят от конкретного оформления или меток узлов. Эти инварианты могут быть использованы для извлечения общих характеристик графов, независимо от домена. Тем не менее, большинство существующих моделей не уделяют должного внимания этим структурным свойствам, что приводит к ограниченной эффективности в задачах, требующих кросс-доменной обобщенности. Для решения этой проблемы необходимо разработать метод, который центрирует внимание на структурных свойствах графов, обеспечивая более широкую применимость моделей в различных контекстах. Такой подход должен сочетать структурные инварианты с доменно-специфическими признаками для повышения качества представлений графов и их классификации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают GraphProp, инновационный метод для обучения GFMs, который сосредоточен на структурном обобщении. Метод состоит из двух этапов. На первом этапе выполняется обучение структурной GFM путем предсказания графовых инвариантов. Графовые инварианты — это свойства, определяемые только структурой графа, не зависящие от конкретного оформления или меток. Обучение на инвариантах позволяет модели захватывать абстрактную информацию о структуре, обеспечивая высокодискретизирующие представления графов, которые могут быть применены в разных доменах. На втором этапе используются представления, полученные на первом этапе, как позиционные кодировки для обучения комплексной GFM. В этом этапе интегрируются доменно-специфические узловые признаки и метки графов, что позволяет улучшить обобщающую способность модели на уровне узловых признаков и междоменной переносимости. Такая двухэтапная стратегия обучения позволяет GraphProp эффективно сочетать структурную и доменно-специфическую информацию, обеспечивая высокую производительность даже в задачах с ограниченными данными, таких как few-shot learning. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных наборах данных для графовой классификации, включая те, где узловые признаки были отсутствующими или неполными. Результаты показали, что GraphProp значительно превосходит существующие методы как в задачах с полными данными, так и в фейворном обучении (few-shot learning). В частности, модель демонстрирует высокую эффективность в обработке графов без узловых признаков, где традиционные методы терпят неудачу. Полученные представления графов оказались более дискретизирующими и переносимыми между доменами, что подтверждает успешность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GraphProp имеет широкое применение в задачах, требующих кросс-доменной обработки графов, таких как молекулярная биология, социальные сети и системы рекомендаций. Его способность эффективно обрабатывать графы без узловых признаков делает его особенно полезным в ситуациях, где доступны только структурные данные. Преимущества GraphProp включают улучшенную общую способность к обобщению, улучшенную дискриминативность представлений и высокую эффективность в сценариях с ограниченными данными. Эти качества делают модель привлекательной для практических приложений в различных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GraphProp представляет новый подход к обучению GFMs, который сочетает структурные и доменно-специфические аспекты. Он показывает высокую эффективность в различных задачах графовой классификации, особенно в условиях отсутствия или неполноты данных. В будущем могут быть исследованы дополнительные способы интеграции структурных и доменно-специфических признаков, а также расширение применения GraphProp в задачах с более сложными типами данных. Дальнейшие исследования могут также фокусироваться на адаптации этого подхода к другим доменам и задачам машинного обучения.

Annotation:

This work focuses on training graph foundation models (GFMs) that have strong generalization ability in graph-level tasks such as graph classification. Effective GFM training requires capturing information consistent across different domains. We discover that graph structures provide more consistent cross-domain information compared to node features and graph labels. However, traditional GFMs primarily focus on transferring node features from various domains into a unified representation space b...

ID: 2508.04594v1 cs.LG, cs.AI

arXiv PDF

📄 Neuromorphic Cybersecurity with Semi-supervised Lifelong Learning

2025-08-08

Авторы:

Md Zesun Ahmed Mia, Malyaban Bal, Sen Lu, George M. Nishibuchi, Suhas Chelian, Srini Vasan, Abhronil Sengupta

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире кибербезопасности крайне важно обеспечить эффективную защиту сетевых систем от возрастающего количества киберугроз. Традиционные методы киберзащиты часто сталкиваются с ограничениями, такими как высокая стоимость вычислений, риск катастрофического забывания (catastrophic forgetting) при обучении на новых данных и невозможность эффективно адаптироваться к непредвиденным угрозам. Эти проблемы становятся особенно актуальными в контексте Network Intrusion Detection Systems (NIDS), требующих высокого уровня точности и энергоэффективности. Биологический мозг является источником вдохновения для разработки более эффективных систем, благодаря его способности к иерархической обработке информации и энергоэффективности. Исходя из этого, разработка нейроморфических систем, основанных на спайковых нейронных сетях (Spiking Neural Networks, SNN), является перспективным направлением. SNN могут эмулировать нейробиологические механизмы, такие как структурная пластичность и адаптивное обучение, что позволяет им обрабатывать данные в реальном времени и обучаться на новых угрозах без потери существующих знаний. Однако разработка SNN для NIDS сопровождается рядом вызовов, включая необходимость обработки потоковых данных в режиме реального времени, обеспечение энергоэффективности и уменьшение катастрофического забывания при обучении на новых угрозах. Таким образом, необходимо разработать методологии, которые бы объединили высокую точность классификации, адаптивность и энергоэффективность в единой системе. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается нейроморфическая архитектура для NIDS, основанная на двух слоях SNN. Первый слой, статический SNN, выполняет первичную фильтрацию потенциальных угроз. Затем активируется динамический SNN, отвечающий за детальную классификацию типов атак. Динамический SNN использует механизм Grow When Required (GWR), который позволяет сети динамически расширять свою структуру для обучения новых угроз. Для обучения используется новый Adaptive Spike-Timing-Dependent Plasticity (Ad-STDP), который оптимизирует синптические веса в соответствии с временными динамиками спайков, обеспечен

Annotation:

Inspired by the brain's hierarchical processing and energy efficiency, this paper presents a Spiking Neural Network (SNN) architecture for lifelong Network Intrusion Detection System (NIDS). The proposed system first employs an efficient static SNN to identify potential intrusions, which then activates an adaptive dynamic SNN responsible for classifying the specific attack type. Mimicking biological adaptation, the dynamic classifier utilizes Grow When Required (GWR)-inspired structural plastici...

ID: 2508.04610v1 cs.LG, cs.AI, cs.ET, cs.NE

arXiv PDF

📄 A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation

2025-08-08

Авторы:

Yu Song, Zhigang Hua, Harry Shomer, Yan Xie, Jingzhe Liu, Bo Long, Hui Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Link Prediction (LP) представляет собой ключевую задачу в области графового машинного обучения, требующую прогнозирования существования связей между узлами в графе. Несмотря на значительные улучшения, достигнутые при помощи Графовых Нейронных Сетей (ГНС), существующие методы сталкиваются с рядом проблем. Во-первых, ограниченное количество данных для обучения, вызванное разреженной структурой графов, ограничивает эффективность обучения. Во-вторых, чувствительность к инициализации моделей может приводить к нестабильности результатов. В-третьих, трудности в обобщении при наличии сдвигов в распределении данных делают модели менее эффективными в реальных сценариях. Эти проблемы особенно актуальны в сферах, где доступные данные для обучения ограничены, а необходимость высокого качества прогнозов критична. Обычные подходы к LP основываются на конечном количестве меток и используют модели, которые не всегда эффективны при работе с новыми или незнакомыми наборами данных. Это вызывает потребность в создании более универсальных и адаптивных методов, способных эффективно переноситься на различные домены. Предобучение моделей на больших и разнообразных данных может стать решением этих проблем, однако для LP это задача сложная, так как она требует интеграции информации как на уровне узлов, так и на уровне связей. В данной статье авторы предлагают систематическое исследование предобучения для LP и разработку методологии, которая позволяет эффективно комбинировать информацию с разных уровней и обеспечивает высокую адаптивность к новым данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод предобучения для LP, основанный на комбинации модулей узлового и реберного уровня. Основная идея заключается в использовании стратегии late fusion, которая позволяет эффективно интегрировать информацию из этих модулей. Для обработки разнообразия данных во время предобучения авторы используют Mixture-of-Experts (MoE) фреймворк. Этот подход позволяет каждому "эксперту" сфокусироваться на отдельных паттернах в данных, что помогает избежать негативного переноса знаний (negative transfer). Для быстрой адаптации модели на новые данные предлагается использовать параметрически эффективную настройку (parameter-efficient tuning). Это позволяет модели быстро адаптироваться к новым задачам с минимальными вычислительными затратами. Такая стратегия также обеспечивает экономию ресурсов при работе с небольшими или специфичными датасетами. Архитектура состоит из нескольких ключевых компонентов: модули для обработки узлов и связей, MoE-структура для обработки разнообразия данных, и механизмы быстрой настройки моделей. Это позволяет создавать модели, которые обладают высокой гибкостью и эффективностью при работе на различных задачах LP. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на 16 различных датасетах, представляющих два домена. Результаты демонстрируют, что предложенный метод достигает высоких результатов в задачах LP в условиях ограниченных данных для обучения. Модель показывает лучшие результаты по сравнению со стандартными подходами, особенно в случаях, когда данные для обучения ограничены. Кроме того, авторы сравнивают свой подход с полностью обученными моделями и показывают, что предложенный метод достигает конкурентоспособных результатов, но с значительно нижей вычислительной сложностью (более 10,000 раз меньшая). Это подтверждает эффективность предложенного фреймворка в решении задач LP с минимальными вычислительными затратами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих эффективного решения задач LP, таких как рекомендательные системы, биоинформатика, и социальные сети. Благодаря высокой адаптивности и низким вычислительным затратам, данный подход может быть использован в сценариях, где данные для обучения ограничены, но необходим высокоточный прогноз связей. Преимущества метода включают в себя низкую сложность вычислительных ресурсов, возможность эффективной адаптации к новым данным, и высокую точность прогнозов в условиях ограниченного обучения. Это делает модель пригодной для использования в реальных приложениях, где эффективность и качество прогнозов играют критическую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был представлен первый систематический подход к предобучению моделей для LP, который эффективно интегрирует информацию с разных уровней и обеспечивает высокую адаптивность. Результаты экспериментов показывают, что предложенный метод не только достигает высоких результатов, но и значительно сокращает вычислительные затраты по сравнению с традиционными подходами. Будущие исследования могут фокусироваться на дальнейшем улучшении адаптивности моделей, расширении областей применения, а также на исследовании новых стратегий для еще более эффективного переноса знаний между задачами. Также может быть полезно исследовать влияние различных конфигураций MoE на качество предсказаний и работу модели в более сложных сценариях.

Annotation:

Link Prediction (LP) is a critical task in graph machine learning. While Graph Neural Networks (GNNs) have significantly advanced LP performance recently, existing methods face key challenges including limited supervision from sparse connectivity, sensitivity to initialization, and poor generalization under distribution shifts. We explore pretraining as a solution to address these challenges. Unlike node classification, LP is inherently a pairwise task, which requires the integration of both nod...

ID: 2508.04645v1 cs.LG, cs.AI

arXiv PDF

📄 Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

2025-08-08

Авторы:

Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом для решения многих задач, однако, когда речь идет о работе с длинными контекстами, их производительность сильно снижается из-за явления проактивного вмешательства (proactive interference). Это случается, когда неуместная информация из ранних частей контекста мешает рациональному мышлению и восстановлению памяти. До сих пор, многие исследования были направлены на создание внешних систем памяти, которые дополняют возможности LLMs. Однако, эти методы часто требуют значительных изменений в архитектуре модели или дополнительной подготовки. Проблема в том, что LLMs должны уметь эффективно управлять своей внутренней памятью и вниманием, чтобы справиться с длинными контекстами. Традиционные подходы, такие как увеличение длины контекста или использование внешних мемориальных систем, не всегда эффективны в борьбе со специфичными проблемами, такими как неуместное воздействие неактуальной информации. Это подчеркивает необходимость разработки новых методов, которые позволят LLMs активно управлять своим контекстом и фокусироваться на актуальной информации. В этой статье предлагается новый подход, называемый Sculptor, который разработан для активного управления контекстом LLMs. Он позволяет моделям самостоятельно формировать и оптимизировать свою внутреннюю рабочую память, подобно тому, как человек выбирает актуальную информацию, отбрасывая неактуальную. Этот подход основывается на идее "скульптурирования" контекста, где LLMs могут активно управлять информацией, которая доступна им для рассмотрения, что повышает их эффективность в решении задач с длинными контекстами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Sculptor представляет собой фреймворк, основанный на трех основных компонентах, которые позволяют LLMs управлять своим контекстом: 1. **Context Fragmentation (Фрагментация Контекста)**: Этот компонент позволяет разделять длинный контекст на более мелкие, управляемые фрагменты. Это помогает LLMs сосредоточиться на актуальных частях без необходимости обрабатывать весь контекст целиком. 2. **Summary, Hide, and Restore (Создание Кратких Сводок, Скрытие и Восстановление)**: Sculptor позволяет LLMs сжимать информацию в краткие сводки, скрывать несущественные детали, и восстанавливать важные части контекста когда это необходимо. Это позволяет моделям сосредоточиться на ключевых моментах, не теряя важные данные. 3. **Intelligent Search (Интеллектуальный Поиск)**: Эта функция позволяет LLMs искать и извлекать релевантную информацию из контекста, используя специальные алгоритмы поиска. Это помогает моделям быстро находить нужные данные, не предоставляя им неактуальных или несвязанных частей контекста. Эти компоненты вместе позволяют LLMs активно управлять своей рабочей памятью, что помогает минимизировать влияние неактуальной информации и повышает точность рассуждений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Sculptor, были проведены эксперименты на двух наборах данных: PI-LLM (Proactive Interference LLM) и NeedleBench Multi-Needle Reasoning. Эти наборы данных представляют задачи, требующие обработки длинных контекстов с высокой информативностью и требующих высокой точности рассуждений. В результате экспериментов было показано, что Sculptor значительно повышает производительность LLMs, даже без необходимости специального тренировочного набора данных. Это достигается благодаря тому, что LLMs могут естественно освоить и использовать инструменты Sculptor для управления своим контекстом. Кроме того, результаты показали, что Sculptor не только уменьшает влияние проактивного вмешательства, но также повышает надежность и точность рассуждений LLMs на различных типах задач. Это подтверждает, что активное управление контекстом является ключевым фактором для улучшения производительности LLMs при работе с длинными контекстами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость Sculptor заключается в том, что этот подход может быть применен в различных областях, где необходимо обрабатывать большие объемы информации. Например, в области медицинского диагностирования, юридического анализа, или финансового мониторинга, где контекст может быть чрезвычайно длинным и содержать множество несвязанных деталей. Преимущества Sculptor включают в себя улучшенную эффективность LLMs, уменьшение ошибок, связанных с неактуальной информацией, и повышение надежности рассуждений. Это может привести к более надежным и точным решениям в задачах, требующих обработки длинных и сложных контекстов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, Sculptor представляет собой новый подход к управлению контекстом в LLMs, который позволяет моделям активно формировать свою рабочую память и фокусироваться на релевантной информации. Этот метод показал значительные улучшения в производительности LLMs при работе с длинными контекстами, даже без необходимости специальной подготовки. В будущем, этот подход может быть развит для решения более широкого круга задач, включая многомодальные контексты и задачи, требующие динамического управления информацией. Более того, Sculptor может быть интегрирован в другие модели и архитектуры, чтобы улучшить их производительность в различных приложениях.

Annotation:

Large Language Models (LLMs) suffer from significant performance degradation when processing long contexts due to proactive interference, where irrelevant information in earlier parts of the context disrupts reasoning and memory recall. While most research focuses on external memory systems to augment LLMs' capabilities, we propose a complementary approach: empowering LLMs with Active Context Management (ACM) tools to actively sculpt their internal working memory. We introduce Sculptor, a framew...

ID: 2508.04664v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

2025-08-08

Авторы:

Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Непрерывное обучение (continual learning) является ключевым фактором для развития искусственного общего интеллекта, особенно в контексте крупных языковых моделей (LLMs). Однако при непрерывной файн-тюнинге LLMs на различных доменах возникает проблема катастрофического забывания (catastrophic forgetting). Эта проблема проявляется в двух основных аспектах: существенное забывание общих возможностей модели и резкое снижение эффективности на ранее выученных задачах. Традиционные подходы к решению этой проблемы часто требуют больших вычислительных ресурсов или затрат на хранение данных. Это создает серьезные ограничения для практического применения LLMs в непрерывном обучении. Мотивацией данного исследования является разработка эффективного и стабильного метода для предотвращения катастрофического забывания, способного одновременно сохранять общие возможности модели и повышать её производительность на последовательных задачах. Такой подход должен быть простым в реализации и мало затратным в плане вычислений и хранения данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод General Sample Replay (GeRe), основанный на использовании обычных текстов предварительного обучения для эффективного предотвращения забывания. Основная идея GeRe заключается в повторном использовании небольшого, фиксированного набора общих образцов для поддержания стабильности активационных состояний модели во время непрерывного обучения. Кроме того, в рамках GeRe введен метод оптимизации с использованием потерь на основе пороговой маржи (TM-loss). Этот метод позволяет сохранять согласованность активационных состояний модели во время повторного обучения. TM-loss оптимизирует модель, учитывая разницу между текущими и предыдущими активационными состояниями, что помогает избежать переобучения и поддерживает стабильность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов, сравнивая TM-loss с другими стратегиями повторения, такими как ванильное фиттирование по меткам, имитация логитов через KL-дивергенцию и имитация функций через L1/L2 потери. Использовались контролируемые наборы данных для моделирования непрерывного обучения. Результаты показали, что TM-loss последовательно превосходит другие стратегии в плане качества и робастности. Метод позволяет эффективно сохранять общие возможности модели и повышает её производительность на последовательных задачах. Было также подтверждено, что небольшой набор общих репликационных образцов достаточен для достижения этих целей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод GeRe имеет широкое применение в областях, требующих непрерывное обучение LLMs, таких как адаптивные системы диалогов, анализ текстов в различных доменах и автоматическое обучение на основе потоковых данных. Благодаря низким затратам на вычисления и хранение, GeRe делает непрерывное обучение более доступным для практического использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что использование фиксированного набора общих образцов в сочетании с TM-loss является эффективным способом для предотвращения катастрофического забывания в LLMs. Будущие исследования могут фокусироваться на дальнейшей оптимизации метода для более сложных сценариев и расширения его применимости к различным архитектурам моделей.

Annotation:

The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usua...

ID: 2508.04676v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Query Attribute Modeling: Improving search relevance with Semantic Search and Meta Data Filtering

2025-08-08

Авторы:

Karthik Menon, Batool Arhamna Haider, Muhammad Arham, Kanwal Mehreen, Ram Mohan Rao Kadiyala, Hamza Farooq

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах поиска, особенно в контексте электронной коммерции, ключевым фактором является обеспечение высокой релевантности поисковых результатов. Традиционные методы поиска, такие как BM25 и другие ключевословные подходы, часто сталкиваются с ограничениями в том, что они не учитывают семантические отношения между запросом и документами. Это приводит к появлению шума в результатах поиска и снижению эффективности для конечных пользователей. Дополнительно, существует проблема неструктурированности запросов пользователей, которые могут содержать различные типы информации, такие как названия товаров, характеристики, цены, или другие атрибуты, которые не всегда могут быть эффективно обработаны с помощью традиционных подходов поиска. В контексте Enterprise Search, который широко используется в системах электронной коммерции, эти ограничения становятся еще более критичными. Необходимо разработать более продвинутые методы, которые могут эффективно обрабатывать неструктурированные данные, извлекать семантические элементы и метаданные из запросов пользователей, и предоставлять более точные и релевантные результаты. Одной из возможных путей решения этой проблемы является интеграция семантического поиска с фильтрацией метаданных, что позволяет улучшить качество поиска за счет более точного понимания пользовательских интенций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Query Attribute Modeling (QAM) представляет собой гибридный фреймворк, который объединяет семантический поиск с фильтрацией метаданных для улучшения точности и релевантности результатов поиска. Основная идея QAM заключается в разделении неструктурированных текстовых запросов на структурированные метаданные и семантические компоненты. Это достигается путем автоматического извлечения метаданных и фильтров из запросов, что позволяет уменьшить шум и сосредоточиться на наиболее релевантных элементах. Архитектура QAM включает несколько этапов обработки. Первым шагом является предобработка запроса, в которой используются техники естественного языка для идентификации ключевых компонентов запроса. Затем, QAM применяет модели извлечения метаданных для определения атрибутов товаров, таких как цена, бренд, размер, и т.д., которые могут быть использованы для фильтрации результатов. На следующем этапе, QAM использует семантическую модель для определения связей между запросом и документами, что позволяет выявить релевантные элементы, даже если они не содержат точных ключевых слов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности QAM был использован датасет Amazon Toys Reviews, содержащий около 10 000 уникальных товаров и более 40 000 отзывов. Эксперименты проводились с использованием различных методов поиска, включая BM25, семантический поиск на основе энкодеров, кросс-энкодеры для переранжирования, и гибридный поиск, который комбинирует BM25 и семантические результаты через Reciprocal Rank Fusion (RRF). Результаты показали, что QAM достигает средней точности (mAP@5) в 52.99%, что значительно превосходит результаты других методов. Например, BM25 достигает точности в 38.12%, в то время как семантический поиск на основе энкодеров показывает 46.89%. Эти результаты подтверждают, что QAM является более эффективным подходом для улучшения релевантности поиска в контексте электронной коммерции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость QAM заключается в его потенциале для улучшения качества поиска в системах электронной коммерции. Благодаря возможности извлекать метаданные и семантические компоненты из запросов, QAM позволяет создавать более точные и целевые результаты поиска, что может повысить удовлетворенность пользователей и повысить конверсию в системах онлайн-торговли. Более того, QAM может быть интегрирован в существующие Enterprise Search системы, что делает его применимым в различных отраслях, где критична точность поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, Query Attribute Modeling (QAM) представляет собой эффективное решение для улучшения поисковой релевантности в системах электронной коммерции. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей извлечения метаданных и семантического поиска, а также на расширении применения QAM в других областях, таких как медицинские системы поиска или корпоративные базы данных.

Annotation:

This study introduces Query Attribute Modeling (QAM), a hybrid framework that enhances search precision and relevance by decomposing open text queries into structured metadata tags and semantic elements. QAM addresses traditional search limitations by automatically extracting metadata filters from free-form text queries, reducing noise and enabling focused retrieval of relevant items. Experimental evaluation using the Amazon Toys Reviews dataset (10,000 unique items with 40,000+ reviews and de...

ID: 2508.04683v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

1
2
1390
1391
1392
1393
1394

Показано 13911 - 13920 из 13936 записей