📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ConfProBench: A Confidence Evaluation Benchmark for MLLM-Based Process Judges

2025-08-08

Авторы:

Yue Zhou, Yi Chang, Yuan Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Многошаговое рассуждение становится краеугольным камнем современных мультимодальных больших языковых моделей (MLLM), позволяя им решать задачи, где требуется комплексное понимание текста, изображений и их взаимосвязи. Типичные сценарии включают математические задачи с диаграммами, научную визуализацию с пояснениями или геометрические доказательства, где корректность каждого промежуточного вывода напрямую влияет на финальный результат. В этой связи MLLM-based Process Judges (MPJ) — специализированные модели-оценщики, которые анализируют корректность отдельных шагов мультимодального рассуждения — приобретают критическую важность: они используются для фильтрации ошибочных цепочек, обучения через обратную связь и построения более надёжных систем. Однако существующие бенчмарки для оценки MPJ фокусируются в основном на бинарной классификации «правильно / неправильно» и на поиске наилучшей последовательности шагов. Тем самым игнорируется ключевой фактор, без которого невозможно реальное доверие к системе: насколько само доверительное значение (confidence score), выдаваемое MPJ для каждого конкретного шага, действительно отражает вероятность его корректности. Надёжность этих цифровых оценок важна для принятия решений в высокостоимостных сценариях: в медицинской диагностике по анализам изображений, в автоматизированном проектировании или в образовательных системах, где ученику выдаётся обратная связь на каждом шаге решения. Более того, предыдущие работы не изучали устойчивость доверительных оценок к семантически эквивалентным, но формально отличающимся формулировкам шагов, что делает невозможным понять, зависит ли уверенность модели от поверхностных признаков текста или от действительно глубинного понимания задачи. Отсутствие единого стандарта измерения надёжности confidence затрудняет сравнение разных архитектур и тормозит развитие более точных и устойчивых MPJ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического измерения надёжности доверительных оценок авторы создают ConfProBench — первый бенчмарк, целенаправленно исследующий устойчивость, чувствительность и калибровку confidence на уровне отдельных шагов мультимодального рассуждения. Бенчмарк состоит из трёх компонентов: генерации адверсариальных вариантов шагов, набора метрик и протокола оценки. Генерация адверсариальных шагов реализована тремя методами. (1) Synonym Substitution: замена ключевых терминов и чисел на семантически близкие синонимы без изменения логики (например, «добавить 5 см» → «увеличить на пять сантиметров»). (2) Syntactic Transformation: перестановка слов, актив/пассив, изменение порядка придаточных, сохраняющая смысл («если A, то B» → «B следует из A»). (3) Image Perturbation: визуальные искажения, такие как гауссов шум, повороты, изменение яркости, которые не затрагивают решающие визуальные признаки (линии, углы, измерения). Для каждого исходного корректного шага строится до 10 модификаций, что позволяет измерить, насколько уверенность MPJ колеблется при эквивалентных формулировках. Введены три новые метрики. Confidence Robustness Score (CRS) измеряет, насколько мало меняется оценка уверенности при внесении допустимых возмущений: чем меньше дисперсия, тем выше устойчивость. Confidence Sensitivity Score (CSS), наоборот, фиксирует способность модели заметно реагировать на принципиально важные изменения (например, если шаг становится некорректным). Confidence Calibration Score (CCS) оценивает соответствие между предсказанной вероятностью и фактической частотой корректных шагов; отклонение калибровки вычисляется через ECE (Expected Calibration Error) по бинам уверенности. Все метрики нормированы к диапазону [0,100], где 100 означает идеальное поведение. Оценочный протокол включает два этапа. На первом MPJ получает исходный процесс, состоящий из 3-8 шагов, и выдаёт для каждого confidence. На втором те же процессы подвергаются адверсариальным возмущениям, и процедура повторяется. В итоге вычисляются CRS, CSS и CCS для каждой модели на каждом типе возмущения. Для снижения стоимости вычислений используется стратегия

Annotation:

Reasoning is a critical capability of multimodal large language models (MLLMs) for solving complex multimodal tasks, and judging the correctness of reasoning steps is crucial for improving this capability. Recently, MLLM-based process judges (MPJs) have been widely used to assess the correctness of reasoning steps in multimodal tasks. Therefore, evaluating MPJs is important for identifying their limitations and guiding future improvements. However, existing benchmarks for MPJs mainly focus on ta...

ID: 2508.04576v1 cs.AI, I.2.6; I.2.7; D.2.8

arXiv PDF

📄 Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning

2025-08-08

Авторы:

Magauiya Zhussip, Dmitriy Shopkhoev, Ammar Ali, Stamatios Lefkimmiatis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) и Vision Transformers (ViT) заложили основу для большого количества передовых приложений в области искусственного интеллекта. Однако их внедрение в реальные системы часто сталкивается с существенными препятствиями, связанными с высокими вычислительными и памятными требованиями. Для снижения этих требований были разработаны различные методы компрессии, такие как низкоранговая аппроксимация, удаление голов внимания и кэширование ключей-значений (KV). Однако большинство этих методов сосредоточено на оптимизации внутри блоков (intra-block), не уделяя должного внимания возможностям оптимизации между блоками (inter-block). Повторяющаяся структура трансформеров, состоящая из многократно повторяющихся слоев, подразумевает высокую степень избыточности между этими слоями. Несмотря на то, что существуют некоторые подходы к использованию этой избыточности, такие как кэширование ключей-значений, этот вопрос остается недостаточно изученным. При этом, методы компрессии, основанные на извлечении статистических регулярностей между слоями, могли бы существенно снизить количество параметров без существенного ущерба для качества. Вдохновленные подходами диктонического обучения (dictionary learning) в сверточных нейронных сетях (CNNs), авторы предлагают новый подход для структурированного общения весов (weight sharing) между слоями трансформеров. Основная идея заключается в том, чтобы разделить проекционные матрицы внимания (attention projection matrices) на общие атомы (shared dictionary atoms), что позволит существенно уменьшить количество параметров, необходимых для модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод, называемый MASA (Matrix Atom Sharing in Attention), представляет собой оптимизацию структуры весовых матриц в трансформерах. Он разработан для сокращения избыточности в параметрах модели, особенно в модулях внимания (attention modules). Метод основывается на диктоническом обучении, где веса представляются в виде линейных комбинаций общих атомов (shared dictionary atoms). В рамках MASA, проекционные матрицы внимания разделяются на общие компоненты, которые затем используются для представления весов каждого слоя. Это позволяет уменьшить количество необходимых параметров на 66,7%, при этом сохраняя качество модели на уровне состояния искусства. Особенностью MASA является то, что он может быть использован как drop-in replacement для стандартных трансформеров, не требуя сложных изменений в архитектуре или дополнительных процессов, таких как дистилляция модели. Метод обучается с помощью стандартных оптимизаторов, что делает его легко встраиваемым в существующие модели. Он также позволяет эффективно захватывать статистические регулярности между слоями, что делает его особенно эффективным в задачах, где необходим высокий уровень обобщения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на моделях различных размеров, от 100 миллионов до 700 миллионов параметров. Результаты экспериментов показали, что MASA достигает высокого качества на различных бенчмарках, превосходя существующие базовые подходы, такие как grouped-query attention (GQA), низкоранговые базисные методы и недавно предложенные подходы Repeat-all-over/Sequential sharing. В частности, MASA демонстрирует лучшие результаты по точности и перплексии по сравнению с этими методами при сравнительном количестве параметров. Аблационные исследования показали, что метод является достаточно робастным к размеру словаря (dictionary size) и эффективен в захвате статистических регулярностей между слоями. Кроме того, MASA был успешно применен к Vision Transformers (ViT) для задач классификации изображений и детекции. Результаты показали, что MASA может сохранить качество модели на уровне современных подходов, снизив количество параметров на 66,7%. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод MASA имеет значительный практический потенциал в области развертывания моделей трансформеров в реальных приложениях. Благодаря существенному сокращению количества параметров, MASA позволяет уменьшить вычислительные и памятные требования моделей, что делает их более доступными для развертывания на устройствах с ограниченными ресурсами. Кроме того, MASA может быть применен для оптимизации предобученных LLMs, позволяя сократить их размер без существенного ухудшения качества. Это может быть особенно полезно в задачах, требующих быстрого и эффективного выполнения моделей на устройствах с ограниченными вычислительными мощностями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был предложен новый метод MASA для эффективного общения весов между слоями трансформеров. Этот метод показал свою эффективность на различных задачах, включая классификацию текста и изображений. Будущие исследования могут быть направлены на дальнейшее улучшение метода, включая его применение к более крупным моделям и задачам, а также исследование возможностей интеграции MASA с другими методами компрессии.

Annotation:

Large language models (LLMs) have revolutionized AI applications, yet their high computational and memory demands hinder their widespread deployment. Existing compression techniques focus on intra-block optimizations (e.g. low-rank approximation, attention head pruning), while the repetitive layered structure of transformers implies significant inter-block redundancy - a dimension largely unexplored beyond key-value (KV) caching. Inspired by dictionary learning in CNNs, we propose a framework fo...

ID: 2508.04581v1 cs.CL, cs.AI

arXiv PDF

📄 Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

2025-08-08

Авторы:

Nuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Конференции по искусственному интеллекту (ИИ) играют ключевую роль в развитии науки, обмене знаниями и создании академического сообщества. Однако быстрый рост числа участников и публикаций привел к тому, что традиционная централизованная модель конференций стала неустойчивой. Авторы статьи выявляют четыре ключевых проблемы, угрожающие основным целям научного общения, равенства и благополучия сообщества. Во-первых, научная составляющая: за последнее десятилетие количество публикаций на участника конференций выросло более чем вдвое, до среднего значения 4,5 статей в год на автора. Это приводит к перегруженности рецензентов и снижению качества обзоров. Во-вторых, экологический аспект: удовлетворение потребностей конференций влечет за собой значительный ущерб окружающей среде. Углеродный след одной конференции может превышать ежедневные выбросы города-хозяина. В-третьих, психологические последствия: согласно анализу дискурса в онлайн-сообществах, 71% комментариев отражают негативные эмоции, а 35% связаны с проблемами психического здоровья, такими как стресс и выгорание. В-четвертых, логистические ограничения: конференции, такие как NeurIPS 2024, начинают превышать вместительность выбранных площадок, создавая дополнительные трудности для организации и участия. Таким образом, текущая модель централизованных конференций оказывается несовместимой со своими основными задачами, требуя срочных реформ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новую модель — **Community-Federated Conference (CFC)**. Эта модель разделяет традиционные компоненты конференций на три независимых, но связанных между собой процесса: 1. **Peer Review (научный обзор)**: Обеспечивается глобальной сетью экспертов, которые осуществляют обзор материалов в онлайн-режиме. 2. **Presentation (презентация результатов)**: Результаты исследований представляются в виде видео-презентаций или публикаций в открытых репозиториях, доступных всему миру. 3. **Networking (сетевая деятельность)**: Локальные встречи и мероприятия организуются в разных регионах, позволяя участникам обмениваться идеями и сотрудничать без необходимости долгих перелетов. CFC модель позволяет сочетать масштабность глобальных конференций с гибкостью и устойчивостью локальных инициированных событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы представляют данные, подтверждающие необходимость реформы. Например, анализ выбросов углерода показывает, что углеродный след одной конференции может быть эквивалентен выбросам нескольких малых городов. Также проведен анализ психологического состояния участников, который показал высокий уровень стресса и неудовлетворенности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CFC модель обеспечивает несколько преимуществ: - **Устойчивость**: Уменьшает зависимость от локаций и ресурсов, необходимых для масштабных мероприятий. - **Включенность**: Позволяет большему числу участников принять участие без финансовых и географических барьеров. - **Экологичность**: Значительно сокращает углеродный след конференций. - **Сохранение качества**: Обеспечивает высокий уровень научного обзора и обмена знаниями без необходимости физического присутствия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CFC модель представляет собой перспективный подход к решению кризиса централизованных конференций. Она обеспечивает более устойчивую, экологичную и инклюзивную альтернативу, сохраняя при этом высокий уровень научного обмена. Будущие исследования могут фокусироваться на оптимизации локальных событий и разработке технологий для поддержки этой модели.

Annotation:

Artificial Intelligence (AI) conferences are essential for advancing research, sharing knowledge, and fostering academic community. However, their rapid expansion has rendered the centralized conference model increasingly unsustainable. This paper offers a data-driven diagnosis of a structural crisis that threatens the foundational goals of scientific dissemination, equity, and community well-being. We identify four key areas of strain: (1) scientifically, with per-author publication rates more ...

ID: 2508.04586v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 A Comprehensive Framework for Uncertainty Quantification of Voxel-wise Supervised Models in IVIM MRI

2025-08-08

Авторы:

Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluigi Forloni, Riaz Hussein, Giovanna Rizzo, Alfonso Mastropietro

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Оценка параметров интравоксельного некогерентного движения (IVIM) из диффузионно-взвешенного МРТ является сложной задачей из-за некорректно ставимой обратной задачи и высокой чувствительности к шумам, особенно в перфузионной компоненте. Традиционные методы, такие как нейронные сети, борются с неопределенностью в оценках, что может привести к недостоверным результатам. Дополнительная сложность заключается в том, что нейронные сети, как правило, не предоставляют информацию о неопределенности их прогнозов. Это может приводить к недостаткам в клинической практике, где точность и надежность оценок критичны. Таким образом, необходимо разработать метод, который не только обеспечивает точную оценку параметров IVIM, но также квантифицирует неопределенность, позволяя идентифицировать недостоверные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается проблематический фреймворк на основе глубоких ансамблей (Deep Ensembles, DE) и смешанных сетей плотностей (Mixture Density Networks, MDNs) для квантифицирования неопределенности в оценках параметров IVIM. Метод комбинирует силу нейронных сетей с проблематическим подходом, чтобы разделить неопределенность на два компонента: алеаторическую неопределенность (Aleatoric Uncertainty, AU) и эпистемическую неопределенность (Epistemic Uncertainty, EU). MDNs позволяют моделировать плотность вероятности параметров IVIM, что дает возможность получать не только точечные оценки, но и распределения вероятностей. Архитектура MDN обучается на синтезированных данных и оценивается на симулируемых и реальных данных. Разделение AU и EU позволяет лучше понять источники неопределенности, что важно для клинического применения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки метода проведены эксперименты на данных, синтезированных с использованием симуляции, и на двух реальных наборах данных. Результаты показали, что MDNs производят более калиброванные и острые предсказательные распределения для параметров D и f, хотя небольшое преувеличение было замечено для параметра D*. Индекс Robust Coefficient of Variation (RCV) показал, что оценки параметра D* стали более плавными при использовании MDNs по сравнению с традиционными гауссовыми моделями. Однако, наблюдалась повышенная EU на реальных данных, что может указывать на несоответствие между синтезированными данными и реальными условиями сканирования. Это подчеркивает важность включения EU в модель, что позволяет выявить недостоверные оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике, где точная оценка параметров IVIM и их неопределенность играет ключевую роль в диагностике и мониторинге болезней. Фреймворк может быть адаптирован для моделирования других физических моделей, что делает его универсальным инструментом в медицинском образовании. Кроме того, квантификация неопределенности позволяет идентифицировать недостоверные результаты, что может улучшить качество клинических решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен комплексный фреймворк для квантификации неопределенности в моделях IVIM, который обеспечивает точную оценку параметров и разделение неопределенности на AU и EU. Будущие исследования могут фокусироваться на улучшении модели для еще более точного описания реальных условий и на расширении её применения для других физических моделей. Также важно исследовать влияние различных симуляционных стратегий на производительность модели.

Annotation:

Accurate estimation of intravoxel incoherent motion (IVIM) parameters from diffusion-weighted MRI remains challenging due to the ill-posed nature of the inverse problem and high sensitivity to noise, particularly in the perfusion compartment. In this work, we propose a probabilistic deep learning framework based on Deep Ensembles (DE) of Mixture Density Networks (MDNs), enabling estimation of total predictive uncertainty and decomposition into aleatoric (AU) and epistemic (EU) components. The me...

ID: 2508.04588v1 eess.IV, cs.AI, cs.LG

arXiv PDF

📄 GraphProp: Training the Graph Foundation Models using Graph Properties

2025-08-08

Авторы:

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Графовые модели-основы (Graph Foundation Models, GFMs) играют ключевую роль в задачах графовой классифицирования, требующих высокой способности к обобщению на разных доменах. Однако существующие подходы сталкиваются с трудностями при переносе знаний между доменами, так как традиционные методы GFMs часто сосредоточены на передаче информации из узловых признаков в единое пространство представлений, недостаточно учитывая структурные аспекты графов. Это ограничивает их способность к структурному обобщению, особенно когда данные отсутствуют или неполны. Графы, в отличие от других типов данных, характеризуются уникальными структурными инвариантами, которые не зависят от конкретного оформления или меток узлов. Эти инварианты могут быть использованы для извлечения общих характеристик графов, независимо от домена. Тем не менее, большинство существующих моделей не уделяют должного внимания этим структурным свойствам, что приводит к ограниченной эффективности в задачах, требующих кросс-доменной обобщенности. Для решения этой проблемы необходимо разработать метод, который центрирует внимание на структурных свойствах графов, обеспечивая более широкую применимость моделей в различных контекстах. Такой подход должен сочетать структурные инварианты с доменно-специфическими признаками для повышения качества представлений графов и их классификации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают GraphProp, инновационный метод для обучения GFMs, который сосредоточен на структурном обобщении. Метод состоит из двух этапов. На первом этапе выполняется обучение структурной GFM путем предсказания графовых инвариантов. Графовые инварианты — это свойства, определяемые только структурой графа, не зависящие от конкретного оформления или меток. Обучение на инвариантах позволяет модели захватывать абстрактную информацию о структуре, обеспечивая высокодискретизирующие представления графов, которые могут быть применены в разных доменах. На втором этапе используются представления, полученные на первом этапе, как позиционные кодировки для обучения комплексной GFM. В этом этапе интегрируются доменно-специфические узловые признаки и метки графов, что позволяет улучшить обобщающую способность модели на уровне узловых признаков и междоменной переносимости. Такая двухэтапная стратегия обучения позволяет GraphProp эффективно сочетать структурную и доменно-специфическую информацию, обеспечивая высокую производительность даже в задачах с ограниченными данными, таких как few-shot learning. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных наборах данных для графовой классификации, включая те, где узловые признаки были отсутствующими или неполными. Результаты показали, что GraphProp значительно превосходит существующие методы как в задачах с полными данными, так и в фейворном обучении (few-shot learning). В частности, модель демонстрирует высокую эффективность в обработке графов без узловых признаков, где традиционные методы терпят неудачу. Полученные представления графов оказались более дискретизирующими и переносимыми между доменами, что подтверждает успешность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GraphProp имеет широкое применение в задачах, требующих кросс-доменной обработки графов, таких как молекулярная биология, социальные сети и системы рекомендаций. Его способность эффективно обрабатывать графы без узловых признаков делает его особенно полезным в ситуациях, где доступны только структурные данные. Преимущества GraphProp включают улучшенную общую способность к обобщению, улучшенную дискриминативность представлений и высокую эффективность в сценариях с ограниченными данными. Эти качества делают модель привлекательной для практических приложений в различных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GraphProp представляет новый подход к обучению GFMs, который сочетает структурные и доменно-специфические аспекты. Он показывает высокую эффективность в различных задачах графовой классификации, особенно в условиях отсутствия или неполноты данных. В будущем могут быть исследованы дополнительные способы интеграции структурных и доменно-специфических признаков, а также расширение применения GraphProp в задачах с более сложными типами данных. Дальнейшие исследования могут также фокусироваться на адаптации этого подхода к другим доменам и задачам машинного обучения.

Annotation:

This work focuses on training graph foundation models (GFMs) that have strong generalization ability in graph-level tasks such as graph classification. Effective GFM training requires capturing information consistent across different domains. We discover that graph structures provide more consistent cross-domain information compared to node features and graph labels. However, traditional GFMs primarily focus on transferring node features from various domains into a unified representation space b...

ID: 2508.04594v1 cs.LG, cs.AI

arXiv PDF

📄 TURA: Tool-Augmented Unified Retrieval Agent for AI Search

2025-08-08

Авторы:

Zhejun Zhao, Yuehu Dong, Alley Liu, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei Yin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие поисковых систем находится на этапе трансформации от традиционного отображения списка ссылок к интеллектуальному диалоговому взаимодействию, где ключевую роль играют большие языковые модели (LLM). Доминирующей парадигмой в этой области является Retrieval-Augmented Generation (RAG), которая обогащает генеративные модели информацией из проиндексированных веб-корпусов. Однако, несмотря на свою популярность в академической среде, существующие RAG-подходы сталкиваются с фундаментальными ограничениями при интеграции в промышленные поисковые системы. Основная проблема заключается в неспособности традиционных RAG-решений работать с динамически изменяющимися данными в реальном времени. Когда пользователь запрашивает информацию о наличии билетов на ближайший рейс, текущих остатках товаров на складе или свежих биржевых котировках, статически проиндексированные веб-страницы не могут обеспечить актуальность ответа. Это ограничение особенно критично для коммерческих поисковых систем, обслуживающих миллионы пользователей с ожиданием ответа в миллисекундах. Академическое сообщество сосредоточило свои усилия на оптимизации RAG для статического контента, практически игнорируя сложные пользовательские намерения, требующие доступа к динамическим источникам вроде баз данных и реальных API. Это создало значительный разрыв между теоретическими исследованиями и практическими потребностями индустрии. Существующие системы не могут эффективно обрабатывать запросы, которые требуют одновременного обращения к статическому веб-контенту для контекста и к динамическим API для актуальных данных, сохраняя при этом требуемую скорость отклика и масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления описанных ограничений авторы представляют TURA (Tool-Augmented Unified Retrieval Agent for AI Search) - инновационную трехэтапную архитектуру, которая органично объединяет преимущества RAG для статического контента с возможностями агентных систем для работы с динамическими источниками данных. Методология TURA строится на концепции Model Context Protocol (MCP), где каждый источник информации инкапсулируется в виде сервера, предоставляющего стандартизированный интерфейс доступа. Первый ключевой компонент - Intent-Aware Retrieval модуль, который реализует интеллектуальное декомпозирование пользовательских запросов. Этот модуль анализирует семантику запроса и автоматически определяет, какие источники информации необходимы для формирования полного ответа. Он способен различать запросы, требующие только статического контента, только динамических данных, или их комбинации, обеспечивая оптимальный выбор источников. Второй компонент - DAG-based Task Planner, который представляет собой планировщик задач на основе направленного ациклического графа (DAG). Этот компонент моделирует зависимости между различными подзадачами обработки запроса, позволяя максимально эффективно использовать параллельное выполнение. Например, при запросе о ценах на авиабилеты система может параллельно обращаться к API авиакомпаний для актуальных цен и к веб-документам для информации о маршрутах и условиях перелета. Третий компонент - Distilled Agent Executor представляет собой легковесный исполнитель агентных действий, оптимизированный для работы в условиях высокой нагрузки. Он реализует эффективный механизм вызова инструментов с минимальной задержкой, что критично для обеспечения низкой латентности в масштабной промышленной системе. Архитектура специально спроектирована для обработки миллионов параллельных запросов без потери производительности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация TURA проводилась в условиях реального промышленного развертывания, обслуживающего десятки миллионов пользователей. Для оценки эффективности системы использовался набор сложных тестовых запросов, включающих комбинации статических и динамических информационных потребностей. Бенчмарки включали запросы о наличии товаров в конкретных магазинах с реальным временем обновления, бронировании билетов с проверкой актуальности цен, и получении финансовой информации из различных источников с разной частотой обновления. Основной метрикой оценки служила полнота и точность предоставляемой информации при соблюдении строгих требований к латентности

Annotation:

The advent of Large Language Models (LLMs) is transforming search engines into conversational AI search products, primarily using Retrieval-Augmented Generation (RAG) on web corpora. However, this paradigm has significant industrial limitations. Traditional RAG approaches struggle with real-time needs and structured queries that require accessing dynamically generated content like ticket availability or inventory. Limited to indexing static pages, search engines cannot perform the interactive qu...

ID: 2508.04604v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Neuromorphic Cybersecurity with Semi-supervised Lifelong Learning

2025-08-08

Авторы:

Md Zesun Ahmed Mia, Malyaban Bal, Sen Lu, George M. Nishibuchi, Suhas Chelian, Srini Vasan, Abhronil Sengupta

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире кибербезопасности крайне важно обеспечить эффективную защиту сетевых систем от возрастающего количества киберугроз. Традиционные методы киберзащиты часто сталкиваются с ограничениями, такими как высокая стоимость вычислений, риск катастрофического забывания (catastrophic forgetting) при обучении на новых данных и невозможность эффективно адаптироваться к непредвиденным угрозам. Эти проблемы становятся особенно актуальными в контексте Network Intrusion Detection Systems (NIDS), требующих высокого уровня точности и энергоэффективности. Биологический мозг является источником вдохновения для разработки более эффективных систем, благодаря его способности к иерархической обработке информации и энергоэффективности. Исходя из этого, разработка нейроморфических систем, основанных на спайковых нейронных сетях (Spiking Neural Networks, SNN), является перспективным направлением. SNN могут эмулировать нейробиологические механизмы, такие как структурная пластичность и адаптивное обучение, что позволяет им обрабатывать данные в реальном времени и обучаться на новых угрозах без потери существующих знаний. Однако разработка SNN для NIDS сопровождается рядом вызовов, включая необходимость обработки потоковых данных в режиме реального времени, обеспечение энергоэффективности и уменьшение катастрофического забывания при обучении на новых угрозах. Таким образом, необходимо разработать методологии, которые бы объединили высокую точность классификации, адаптивность и энергоэффективность в единой системе. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается нейроморфическая архитектура для NIDS, основанная на двух слоях SNN. Первый слой, статический SNN, выполняет первичную фильтрацию потенциальных угроз. Затем активируется динамический SNN, отвечающий за детальную классификацию типов атак. Динамический SNN использует механизм Grow When Required (GWR), который позволяет сети динамически расширять свою структуру для обучения новых угроз. Для обучения используется новый Adaptive Spike-Timing-Dependent Plasticity (Ad-STDP), который оптимизирует синптические веса в соответствии с временными динамиками спайков, обеспечен

Annotation:

Inspired by the brain's hierarchical processing and energy efficiency, this paper presents a Spiking Neural Network (SNN) architecture for lifelong Network Intrusion Detection System (NIDS). The proposed system first employs an efficient static SNN to identify potential intrusions, which then activates an adaptive dynamic SNN responsible for classifying the specific attack type. Mimicking biological adaptation, the dynamic classifier utilizes Grow When Required (GWR)-inspired structural plastici...

ID: 2508.04610v1 cs.LG, cs.AI, cs.ET, cs.NE

arXiv PDF

📄 HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs

2025-08-08

Авторы:

Dengzhao Fang, Jingtong Gao, Chengcheng Zhu, Yu Li, Xiangyu Zhao, Yi Chang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Рекомендательные системы являются ключевым элементом современных онлайн-платформ, позволяющих пользователям эффективно ориентироваться в обширных каталогах товаров, сервисов или контента. В последнее время генеративные рекомендательные системы привлекли значительное внимание, так как они позволяют объединить традиционные этапы "поиска и ранжирования" в единый конечно-этапный процесс, основанный на динамическом генерировании рекомендаций. Однако существующие генеративные методы сталкиваются с серьёзными ограничениями, связанными с их неконтролируемым токенизационным процессом. Этот процесс приводит к формированию семантических идентификаторов (Semantic IDs), которые имеют две критические проблемы. Во-первых, семантические ID являются "плоскими" и неинтерпретируемыми, не имеющими чёткой иерархической структуры. Это ограничивает возможность понимания их семантического контекста. Во-вторых, эти идентификаторы подвержены проблеме "пересечения представлений" (ID collisions), которая влечёт за собой неточность и снижение разнообразия рекомендаций. Такие недостатки существенно ограничивают эффективность и качество генеративных рекомендательных моделей. Для решения этих проблем авторы предлагают HiD-VAE, новый фреймворк, который позволяет получать иерархически десентрализованные (disentangled) представления товаров или контента. Эта модель нацелена на улучшение качества и интерпретируемости семантических ID, что является важной задачей для улучшения точности и разнообразия генеративных рекомендаций. ## ПРЕДЛОЖЕННЫЙ МЕТОД HiD-VAE представляет собой инновационный фреймворк, основанный на двух основных инновационных компонентах. Во-первых, HiD-VAE использует **иерархически контролируемый квантизационный процесс** (hierarchically-supervised quantization), который выравнивает дискретные коды с многоуровневыми тегами товаров. Это позволяет получить более униформные и десентрализованные идентификаторы. Особенно важной характеристикой этого процесса является то, что обученные кодобуки (codebooks) могут предсказывать иерархические теги, обеспечивая прозрачный и интерпретируемый семантический путь для каждой рекомендации. Во-вторых, для борьбы с проблемой "пересечения представлений" HiD-VAE использует **новую функцию потерь "уникальности"** (uniqueness loss), которая напрямую штрафует за перекрытие в латентном пространстве. Это позволяет не только устранить проблему ID collisions, но и повысить разнообразие рекомендаций за счёт более полного использования пространства представлений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на трёх общедоступных наборах данных, чтобы продемонстрировать эффективность HiD-VAE по сравнению со стандартными методами. Результаты показали, что HiD-VAE превосходит современные методы по ключевым метрикам, таким как точность рекомендаций, разнообразие и интерпретируемость. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ HiD-VAE может быть применён в различных областях, где важна качественная и интерпретируемая рекомендация, таких как электронная коммерция, развлекательные платформы и системы контент-рекомендаций. Благодаря его способности генерировать высококачественные и десентрализованные идентификаторы, HiD-VAE может улучшить качество рекомендаций и повысить доверие пользователей к системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HiD-VAE является важным шагом в развитии генеративных рекомендательных систем, предлагая более точные и интерпретируемые семантические идентификаторы. В будущем этот метод может быть расширен для работы с более сложными иерархиями данных или для интеграции с другими генеративными моделями.

Annotation:

Recommender systems are indispensable for helping users navigate the immense item catalogs of modern online platforms. Recently, generative recommendation has emerged as a promising paradigm, unifying the conventional retrieve-and-rank pipeline into an end-to-end model capable of dynamic generation. However, existing generative methods are fundamentally constrained by their unsupervised tokenization, which generates semantic IDs suffering from two critical flaws: (1) they are semantically flat a...

ID: 2508.04618v1 cs.IR, cs.AI

arXiv PDF

📄 P-Aligner: Enabling Pre-Alignment of Language Models via Principled Instruction Synthesis

2025-08-08

Авторы:

Feifan Song, Bofei Gao, Yifan Song, Yi Liu, Weimin Xiong, Yuyang Song, Tianyu Liu, Guoyin Wang, Houfeng Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) играют ключевую роль в современных приложениях на основе искусственного интеллекта, предоставляя возможность взаимодействовать с пользователями в различных сферах. Однако, несмотря на их мощь, LLMs часто сталкиваются с проблемами выравнивания (alignment), когда их выходные данные не соответствуют ожиданиям пользователей. Эти проблемы могут возникать из-за неполного контекста, неоднозначных директив, неуместного тона или других недостатков в инструкциях. Неправильно выраженные инструкции могут привести к нежелательным результатам, включая небезопасность, недостоверность или несоответствие ценностям пользователя. Существующие подходы к выравниванию LLMs, такие как поиск в пространстве инструкций во время работы модели или переобучение модели на специально созданных данных, часто связаны с высокими затратами времени и вычислительных ресурсов. Кроме того, многие методы требуют создания пользовательских наборов данных с неясными критериями качества, что усложняет процесс разработки. Эти ограничения высокой стоимости и неопределенности требуют более эффективных решений для выравнивания инструкций. Целью данной работы является разработка метода, который позволяет эффективно выравнивать инструкции для LLMs до начала процесса декодирования, с целью улучшения качества результатов. Такой подход может существенно сократить затраты на поиск и обработку, оставаясь при этом высокоэффективным. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе представлен P-Aligner, легковесный модуль, который генерирует инструкции, сохраняющие оригинальные намерения, но выраженные в более удобной и предпочтительной для человека форме. P-Aligner обучается на датасете UltraPrompt, который был создан с помощью нового подхода на основе принципиального руководства и методологии Monte-Carlo Tree Search (MCTS). MCTS используется для систематического поиска в пространстве возможных инструкций, которые близки к предпочтениям человека. Этот метод позволяет генерировать высококачественные данные для обучения P-Aligner, который потом применяется для улучшения инструкций. Модуль P-Aligner работает путем преобразования инструкций в форму, которая лучше соответствует человеческим предпочтениям, не меняя основного смысла. Преимущество P-Aligner заключается в том, что он позволяет выполнять пре-алйнмент (pre-alignment) инструкций перед началом работы модели, что значительно сокращает время и затраты на поиск оптимальных данных во время выполнения. Это также обеспечивает более эффективное использование ресурсов при обработке запросов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности P-Aligner проведены широкие эксперименты на различных моделях и наборах данных. Результаты показывают, что P-Aligner значительно превосходит существующие базовые методы по различным показателям. Например, на модели GPT-4-turbo, P-Aligner достигает повышения средней win-rate на 28.35%, а на модели Gemma-2-SimPO – на 8.69%. В экспериментах использовались различные наборы данных для тестирования качества инструкций, сгенерированных P-Aligner. Результаты показывают, что обученный на UltraPrompt, P-Aligner эффективен в создании инструкций, которые лучше соответствуют человеческим предпочтениям. Также проведен анализ качества данных, стратегий поиска и временных затрат. Исследования показали, что P-Aligner не только эффективен в генерации качественных инструкций, но также обеспечивает низкие затраты времени и вычислительных мощностей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ P-Aligner представляет собой практически значимый подход к выравниванию LLMs с целью улучшения качества взаимодействия с пользователями. Этот модуль может быть интегрирован в различные приложения, где необходимо обеспечить безопасность, достоверность и соответствие человеческим ценностям. Одним из основных преимуществ P-Aligner является его низкая стоимость и высокая эффективность. Благодаря предварительному выравниванию инструкций, P-Aligner позволяет уменьшить накладные расходы на поиск оптимальных инструкций во время работы модели, что делает его пригодным для использования в реальных приложениях. Кроме того, P-Aligner может быть применен в сферах, где важно обеспечить высокое качество генерируемых текстов, таких как клиентские сервисы, образование, медицинские консультации и другие области, где точность и безопасность текстов имеют критическое значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был представлен P-Aligner – легковесный модуль для пре-алйнмента инструкций LLMs, который значительно улучшает качество выходных данных моделей. Этот метод обеспечивает эффективное преобразование инструкций в более человеко-предпочтительную форму, не затрагивая основной смысл. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения P-Aligner, а также на расширении его применимости к более широкому кругу моделей и задач. Также важно продолжить исследования по оптимизации стратегий поиска и снижению затрат времени и вычислительных ресурсов. P-Aligner может стать важной составляющей в развитии более эффективных и безопасных систем на основе LLMs.

Annotation:

Large Language Models (LLMs) are expected to produce safe, helpful, and honest content during interaction with human users, but they frequently fail to align with such values when given flawed instructions, e.g., missing context, ambiguous directives, or inappropriate tone, leaving substantial room for improvement along multiple dimensions. A cost-effective yet high-impact way is to pre-align instructions before the model begins decoding. Existing approaches either rely on prohibitive test-time ...

ID: 2508.04626v1 cs.CL, cs.AI

arXiv PDF

📄 A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation

2025-08-08

Авторы:

Yu Song, Zhigang Hua, Harry Shomer, Yan Xie, Jingzhe Liu, Bo Long, Hui Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Link Prediction (LP) представляет собой ключевую задачу в области графового машинного обучения, требующую прогнозирования существования связей между узлами в графе. Несмотря на значительные улучшения, достигнутые при помощи Графовых Нейронных Сетей (ГНС), существующие методы сталкиваются с рядом проблем. Во-первых, ограниченное количество данных для обучения, вызванное разреженной структурой графов, ограничивает эффективность обучения. Во-вторых, чувствительность к инициализации моделей может приводить к нестабильности результатов. В-третьих, трудности в обобщении при наличии сдвигов в распределении данных делают модели менее эффективными в реальных сценариях. Эти проблемы особенно актуальны в сферах, где доступные данные для обучения ограничены, а необходимость высокого качества прогнозов критична. Обычные подходы к LP основываются на конечном количестве меток и используют модели, которые не всегда эффективны при работе с новыми или незнакомыми наборами данных. Это вызывает потребность в создании более универсальных и адаптивных методов, способных эффективно переноситься на различные домены. Предобучение моделей на больших и разнообразных данных может стать решением этих проблем, однако для LP это задача сложная, так как она требует интеграции информации как на уровне узлов, так и на уровне связей. В данной статье авторы предлагают систематическое исследование предобучения для LP и разработку методологии, которая позволяет эффективно комбинировать информацию с разных уровней и обеспечивает высокую адаптивность к новым данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод предобучения для LP, основанный на комбинации модулей узлового и реберного уровня. Основная идея заключается в использовании стратегии late fusion, которая позволяет эффективно интегрировать информацию из этих модулей. Для обработки разнообразия данных во время предобучения авторы используют Mixture-of-Experts (MoE) фреймворк. Этот подход позволяет каждому "эксперту" сфокусироваться на отдельных паттернах в данных, что помогает избежать негативного переноса знаний (negative transfer). Для быстрой адаптации модели на новые данные предлагается использовать параметрически эффективную настройку (parameter-efficient tuning). Это позволяет модели быстро адаптироваться к новым задачам с минимальными вычислительными затратами. Такая стратегия также обеспечивает экономию ресурсов при работе с небольшими или специфичными датасетами. Архитектура состоит из нескольких ключевых компонентов: модули для обработки узлов и связей, MoE-структура для обработки разнообразия данных, и механизмы быстрой настройки моделей. Это позволяет создавать модели, которые обладают высокой гибкостью и эффективностью при работе на различных задачах LP. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на 16 различных датасетах, представляющих два домена. Результаты демонстрируют, что предложенный метод достигает высоких результатов в задачах LP в условиях ограниченных данных для обучения. Модель показывает лучшие результаты по сравнению со стандартными подходами, особенно в случаях, когда данные для обучения ограничены. Кроме того, авторы сравнивают свой подход с полностью обученными моделями и показывают, что предложенный метод достигает конкурентоспособных результатов, но с значительно нижей вычислительной сложностью (более 10,000 раз меньшая). Это подтверждает эффективность предложенного фреймворка в решении задач LP с минимальными вычислительными затратами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих эффективного решения задач LP, таких как рекомендательные системы, биоинформатика, и социальные сети. Благодаря высокой адаптивности и низким вычислительным затратам, данный подход может быть использован в сценариях, где данные для обучения ограничены, но необходим высокоточный прогноз связей. Преимущества метода включают в себя низкую сложность вычислительных ресурсов, возможность эффективной адаптации к новым данным, и высокую точность прогнозов в условиях ограниченного обучения. Это делает модель пригодной для использования в реальных приложениях, где эффективность и качество прогнозов играют критическую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был представлен первый систематический подход к предобучению моделей для LP, который эффективно интегрирует информацию с разных уровней и обеспечивает высокую адаптивность. Результаты экспериментов показывают, что предложенный метод не только достигает высоких результатов, но и значительно сокращает вычислительные затраты по сравнению с традиционными подходами. Будущие исследования могут фокусироваться на дальнейшем улучшении адаптивности моделей, расширении областей применения, а также на исследовании новых стратегий для еще более эффективного переноса знаний между задачами. Также может быть полезно исследовать влияние различных конфигураций MoE на качество предсказаний и работу модели в более сложных сценариях.

Annotation:

Link Prediction (LP) is a critical task in graph machine learning. While Graph Neural Networks (GNNs) have significantly advanced LP performance recently, existing methods face key challenges including limited supervision from sparse connectivity, sensitivity to initialization, and poor generalization under distribution shifts. We explore pretraining as a solution to address these challenges. Unlike node classification, LP is inherently a pairwise task, which requires the integration of both nod...

ID: 2508.04645v1 cs.LG, cs.AI

arXiv PDF

1
2
1432
1433
1434
1435
1436
1442
1443

Показано 14331 - 14340 из 14425 записей