📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SID: Benchmarking Guided Instruction Capabilities in STEM Education with a Socratic Interdisciplinary Dialogues Dataset

2025-08-08

Авторы:

Mei Jiang, Houping Yue, Bingdong Li, Hao Hao, Ying Qian, Bo Jiang, Aimin Zhou

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное образование стремится развивать у студентов способность к интеграции и переносу знаний в условиях сложных проблем, особенно в области STEM (наука, технология, инженерия, математика). Интердисциплинарные подходы к STEM призваны стимулировать такую способность, но они требуют высококвалифицированного руководства, которое трудно масштабировать. Искусственные интеллектуальные системы, такие как большие языковые модели (LLMs), представляют собой перспективный инструмент для такого руководства, однако их реальные возможности в области наставничества все еще недостаточно изучены. Отсутствие систематического бенчмарка для оценки их способностей к руководству в интердисциплинарных диалогах является ключевой проблемой. Интердисциплинарные диалоги, основанные на методе Сократа, требуют от системы не только понимания контекста, но и возможность формирования высокоуровневых педагогических стратегий для поддержки студентов в достижении интеграции знаний. Несмотря на широкие возможности современных LLMs, их эффективность в таких сценариях остается неясной. Таким образом, необходимо разработать комплексный бенчмарк, который позволит оценивать их педагогическую эффективность в условиях интердисциплинарных обсуждений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы авторы представляют SID (Socratic Interdisciplinary Dialogues Dataset) – первый бенчмарк, специально разработанный для оценки высокоуровневых педагогических возможностей LLMs в интердисциплинарных диалогах. SID включает в себя набор данных из 10 000 диалоговых очередей, охватывающих 48 сложных проектов STEM. Эти данные были тщательно аннотированы с использованием новой схемы, охватывающей глубокие педагогические аспекты, такие как логика развития диалога, вопросы наставничества и стратегии интеграции знаний. Кроме того, авторы предлагают новый набор метрик, включающий X-SRG (Cross-disciplinary Semantic Response Generation), для оценки качества ответов LLMs в контексте интердисциплинарных задач. Эти метрики позволяют измерять не только точность ответов, но и их педагогическую ценность, такие как способность к формированию связей между различными дисциплинами и поддержке студентов в достижении глубокого понимания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели базовые эксперименты, используя несколько современных LLMs на данных SID. Результаты показали, что, несмотря на высокие технические возможности LLMs, их способность к эффективному руководству в интердисциплинарных диалогах остается ограниченной. Модели с лучшими результатами показали лишь умеренную эффективность в поддержке интеграции знаний и переноса на практику. Эксперименты также выявили недостатки в том, как LLMs формулируют вопросы и строят логические последовательности в диалогах. Эти результаты подтверждают необходимость развития более педагогически ориентированных моделей, способных лучше адаптироваться к специфике интердисциплинарного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SID представляет собой важный шаг в развитии образовательных технологий, особенно в области интердисциплинарного STEM-образования. Он может стать ключевым инструментом для разработчиков LLMs, стремящихся создавать более эффективные системы для поддержки обучения. Благодаря SID, можно оценивать не только техническую производительность моделей, но и их педагогическую эффективность, что крайне важно для их применения в реальных учебных средах. Кроме того, SID может быть использован для разработки и тестирования новых методологий обучения, ориентированных на интеграцию знаний и перенос их на практику. Это может привести к созданию более инновационных образовательных решений, особенно в сфере дистанционного и адаптивного обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данной работы является создание SID – первого бенчмарка для оценки педагогических возможностей LLMs в интердисциплинарных диалогах. Это открывает новые перспективы для развития образовательных технологий, особенно в контексте STEM. Будущие исследования могут фокусироваться на разработке моделей, которые лучше адаптированы к педагогическим задачам, а также на расширении SID для охвата более широкого спектра дисциплин и сценариев обучения.

Annotation:

Fostering students' abilities for knowledge integration and transfer in complex problem-solving scenarios is a core objective of modern education, and interdisciplinary STEM is a key pathway to achieve this, yet it requires expert guidance that is difficult to scale. While LLMs offer potential in this regard, their true capability for guided instruction remains unclear due to the lack of an effective evaluation benchmark. To address this, we introduce SID, the first benchmark designed to systema...

ID: 2508.04563v1 cs.AI

arXiv PDF

📄 CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization

2025-08-08

Авторы:

Jinxing Zhou, Ziheng Zhou, Yanghao Zhou, Yuxin Mao, Zhangling Duan, Dan Guo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача Dense Audio-Visual Event Localization (DAVEL) заключается в выявлении и точной временной локализации событий в нетриммированных видеозаписях, которые происходят одновременно в аудио- и визуальных модальностях. Традиционные подходы к DAVEL полагаются на полное временное аннотирование данных, где для каждого события указаны точные начальные и конечные временные границы. Однако создание таких детализированных аннотаций требует значительных человеческих ресурсов и временных затрат, что ограничивает масштабируемость решений и применимость методов в реальных сценариях. Новая и более сложная постановка задачи, предложенная в статье - Weakly-supervised Dense Audio-Visual Event Localization (W-DAVEL) - устраняет необходимость в детальных временных аннотациях. В этой постановке доступны только видео-уровневые метки событий, без какой-либо информации о том, когда именно эти события происходят в течение видео. Это создает фундаментальную проблему: как обучить модель точно локализовать события во времени, имея только информацию о наличии событий в видео в целом? Основная сложность W-DAVEL заключается в необходимости одновременно справляться с двумя типами неопределенности: во-первых, неопределенностью временных границ событий из-за отсутствия детальных аннотаций, и во-вторых, неопределенностью межмодального соответствия между аудио и визуальными сигналами. Традиционные методы обучения слабой супервизии, такие как Multiple Instance Learning (MIL), плохо переносятся на межмодальную аудио-визуальную локализацию из-за сложности установления соответствия между двумя различными модальностями и необходимости учета их временной синхронизации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод CLASP (Cross-modal Salient Anchor-based Semantic Propagation), который решает проблему W-DAVEL через идентификацию и использование "кросс-модальных салиентных якорей" - надежных временных меток, которые хорошо предсказываются даже при слабом супервизии и демонстрируют высокую консистентность семантики событий между аудио- и визуальными модальностями. Методология CLASP состоит из трех ключевых компонентов. Первый - модуль Mutual Event Agreement Evaluation (MEAE), который генерирует согласованную оценку, измеряя расхождение между предсказанными аудио- и визуальными классами событий. Этот модуль работает путем сравнения вероятностных распределений событий, полученных из каждой модальности, и вычисления метрики согласия, которая указывает на степень межмодальной консистентности в каждый момент времени. Второй компонент - Cross-modal Salient Anchor Identification (CSAI), который использует оценки согласия для идентификации якорных признаков в аудио и визуальных потоках. Этот модуль работает на двух уровнях: глобальном (на уровне всего видео) и локальном (в пределах временных окон). На глобальном уровне выбираются наиболее надежные временные метки, которые демонстрируют наивысшее согласие между модальностями. На локальном уровне происходит уточнение выбора в контексте временных соседей для обеспечения временной гладкости и устойчивости. Третий компонент - Anchor-based Temporal Propagation (ATP) - использует идентифицированные якорные признаки для улучшения семантического кодирования событий в исходных временных аудио- и визуальных признаках. Это достигается через механизм распространения семантической информации от якорных точек к соседним временным меткам, что позволяет улучшить качество временной локализации событий даже при слабом супервизии. Межмодальная интеграция якорных признаков обеспечивает синхронизацию аудио-визуальной информации и усиление сигналов, подтверждающих наличие событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширную экспериментальную оценку предложенного метода на двух крупных датасетах: UnAV-100 и ActivityNet1.3, которые были адаптированы для задачи W-DAVEL. Эти датасеты представляют собой разнообразные видеоматериалы с аудио-визуальными событиями, охватывающие широкий спектр жанров и сценариев, от повседневных активностей до специализированных действий. В экспериментах использовались стандартные метрики оценки качества временной локализации событий, включая mean Average Precision (m

Annotation:

The Dense Audio-Visual Event Localization (DAVEL) task aims to temporally localize events in untrimmed videos that occur simultaneously in both the audio and visual modalities. This paper explores DAVEL under a new and more challenging weakly-supervised setting (W-DAVEL task), where only video-level event labels are provided and the temporal boundaries of each event are unknown. We address W-DAVEL by exploiting \textit{cross-modal salient anchors}, which are defined as reliable timestamps that a...

ID: 2508.04566v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration

2025-08-08

Авторы:

Nuo Chen, Yicheng Tong, Jiaying Wu, Minh Duc Duong, Qian Wang, Qingyun Zou, Bryan Hooi, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация научных идей является фундаментальной задачей в процессе исследовательской деятельности, определяющей направление развития науки и технологий. Современные системы искусственного интеллекта демонстрируют растущий потенциал в автоматизированной генерации научных концепций, однако большинство существующих фреймворков ограничиваются использованием одиночных агентов, работающих в изоляции. Такой подход сталкивается с фундаментальными ограничениями, связанными с ограниченностью знаний и перспектив отдельного агента, что приводит к снижению креативности и инновационности предлагаемых идей. В реальном научном процессе прорывные идеи редко возникают в результате индивидуального размышления. Напротив, они формируются в ходе коллаборативных обсуждений между учеными с различным опытом, экспертизой и точками зрения. Эта социальная природа научного творчества остаётся недостаточно исследованной в контексте разработки систем ИИ для генерации научных идей. Существующие исследования фокусируются преимущественно на улучшении способностей отдельных агентов, в то время как коллективная динамика и структурные аспекты командной работы остаются вне поля зрения. Ключевой проблемой является отсутствие систематического понимания того, как различные параметры многоагентного взаимодействия влияют на качество генерируемых научных предложений. Вопросы оптимального размера команды, наличия или отсутствия лидерства, уровня междисциплинарности и сочетания опыта участников остаются открытыми. Без такого понимания разработка эффективных систем ИИ для научной генерации идей будет продолжать полагаться на интуитивные и эмпирические подходы, а не на строгое научное обоснование. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают кооперативный многоагентный фреймворк, специально разработанный для генерации научных исследовательских предложений. Система построена на принципах структурированного взаимодействия между агентами, каждый из которых представляет собой языковую модель с определённым набором характеристик и экспертизой. Архитектура фреймворка включает несколько ключевых компонентов, обеспечивающих эффективную коллаборацию. Первым компонентом является механизм назначения ролей, где каждый агент получает чётко определённую персону с уникальной комбинацией опыта (младший/старший исследователь) и дисциплинарной принадлежности (биология, информатика, физика и др.). Это позволяет моделировать различные конфигурации команд, включая однородные и гетерогенные составы. Вторым важным элементом является система управления дискуссией, которая может функционировать как в лидерском режиме (с назначенным лидером-агентом), так и в безлидерском формате. Процесс генерации идей происходит в несколько этапов. На начальном этапе агенты независимо генерируют предварительные идеи на основе общей тематики. Затем следует фаза структурированной дискуссии, где агенты обмениваются мнениями, критикуют идеи друг друга и предлагают улучшения. В лидерской конфигурации лидер-агент координирует обсуждение, направляет внимание команды на ключевые аспекты и интегрирует предложения в единое целостное предложение. В безлидерской конфигурации используется консенсусный подход с автоматическим обнаружением и разрешением конфликтов. Для оценки качества генерируемых идей разработан комплексный протокол, включающий как автоматизированную, так и человеческую оценку. Автоматизированная система использует специально обученных агентов-оценщиков, которые анализируют предложения по нескольким измерениям: новизна, стратегическое видение, глубина интеграции концепций, практическая применимость и теоретическая обоснованность. Человеческая экспертиза привлекается для валидации результатов автоматической оценки и обеспечения научной достоверности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала систематическое сравнение различных конфигураций многоагентных систем с одиночными агентами-базовыми линиями. Всего было протестировано более 30 различных конфигураций, варьирующихся по размеру команды (от

Annotation:

While AI agents show potential in scientific ideation, most existing frameworks rely on single-agent refinement, limiting creativity due to bounded knowledge and perspective. Inspired by real-world research dynamics, this paper investigates whether structured multi-agent discussions can surpass solitary ideation. We propose a cooperative multi-agent framework for generating research proposals and systematically compare configurations including group size, leaderled versus leaderless structures, ...

ID: 2508.04575v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 ConfProBench: A Confidence Evaluation Benchmark for MLLM-Based Process Judges

2025-08-08

Авторы:

Yue Zhou, Yi Chang, Yuan Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Многошаговое рассуждение становится краеугольным камнем современных мультимодальных больших языковых моделей (MLLM), позволяя им решать задачи, где требуется комплексное понимание текста, изображений и их взаимосвязи. Типичные сценарии включают математические задачи с диаграммами, научную визуализацию с пояснениями или геометрические доказательства, где корректность каждого промежуточного вывода напрямую влияет на финальный результат. В этой связи MLLM-based Process Judges (MPJ) — специализированные модели-оценщики, которые анализируют корректность отдельных шагов мультимодального рассуждения — приобретают критическую важность: они используются для фильтрации ошибочных цепочек, обучения через обратную связь и построения более надёжных систем. Однако существующие бенчмарки для оценки MPJ фокусируются в основном на бинарной классификации «правильно / неправильно» и на поиске наилучшей последовательности шагов. Тем самым игнорируется ключевой фактор, без которого невозможно реальное доверие к системе: насколько само доверительное значение (confidence score), выдаваемое MPJ для каждого конкретного шага, действительно отражает вероятность его корректности. Надёжность этих цифровых оценок важна для принятия решений в высокостоимостных сценариях: в медицинской диагностике по анализам изображений, в автоматизированном проектировании или в образовательных системах, где ученику выдаётся обратная связь на каждом шаге решения. Более того, предыдущие работы не изучали устойчивость доверительных оценок к семантически эквивалентным, но формально отличающимся формулировкам шагов, что делает невозможным понять, зависит ли уверенность модели от поверхностных признаков текста или от действительно глубинного понимания задачи. Отсутствие единого стандарта измерения надёжности confidence затрудняет сравнение разных архитектур и тормозит развитие более точных и устойчивых MPJ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического измерения надёжности доверительных оценок авторы создают ConfProBench — первый бенчмарк, целенаправленно исследующий устойчивость, чувствительность и калибровку confidence на уровне отдельных шагов мультимодального рассуждения. Бенчмарк состоит из трёх компонентов: генерации адверсариальных вариантов шагов, набора метрик и протокола оценки. Генерация адверсариальных шагов реализована тремя методами. (1) Synonym Substitution: замена ключевых терминов и чисел на семантически близкие синонимы без изменения логики (например, «добавить 5 см» → «увеличить на пять сантиметров»). (2) Syntactic Transformation: перестановка слов, актив/пассив, изменение порядка придаточных, сохраняющая смысл («если A, то B» → «B следует из A»). (3) Image Perturbation: визуальные искажения, такие как гауссов шум, повороты, изменение яркости, которые не затрагивают решающие визуальные признаки (линии, углы, измерения). Для каждого исходного корректного шага строится до 10 модификаций, что позволяет измерить, насколько уверенность MPJ колеблется при эквивалентных формулировках. Введены три новые метрики. Confidence Robustness Score (CRS) измеряет, насколько мало меняется оценка уверенности при внесении допустимых возмущений: чем меньше дисперсия, тем выше устойчивость. Confidence Sensitivity Score (CSS), наоборот, фиксирует способность модели заметно реагировать на принципиально важные изменения (например, если шаг становится некорректным). Confidence Calibration Score (CCS) оценивает соответствие между предсказанной вероятностью и фактической частотой корректных шагов; отклонение калибровки вычисляется через ECE (Expected Calibration Error) по бинам уверенности. Все метрики нормированы к диапазону [0,100], где 100 означает идеальное поведение. Оценочный протокол включает два этапа. На первом MPJ получает исходный процесс, состоящий из 3-8 шагов, и выдаёт для каждого confidence. На втором те же процессы подвергаются адверсариальным возмущениям, и процедура повторяется. В итоге вычисляются CRS, CSS и CCS для каждой модели на каждом типе возмущения. Для снижения стоимости вычислений используется стратегия

Annotation:

Reasoning is a critical capability of multimodal large language models (MLLMs) for solving complex multimodal tasks, and judging the correctness of reasoning steps is crucial for improving this capability. Recently, MLLM-based process judges (MPJs) have been widely used to assess the correctness of reasoning steps in multimodal tasks. Therefore, evaluating MPJs is important for identifying their limitations and guiding future improvements. However, existing benchmarks for MPJs mainly focus on ta...

ID: 2508.04576v1 cs.AI, I.2.6; I.2.7; D.2.8

arXiv PDF

📄 Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning

2025-08-08

Авторы:

Magauiya Zhussip, Dmitriy Shopkhoev, Ammar Ali, Stamatios Lefkimmiatis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) и Vision Transformers (ViT) заложили основу для большого количества передовых приложений в области искусственного интеллекта. Однако их внедрение в реальные системы часто сталкивается с существенными препятствиями, связанными с высокими вычислительными и памятными требованиями. Для снижения этих требований были разработаны различные методы компрессии, такие как низкоранговая аппроксимация, удаление голов внимания и кэширование ключей-значений (KV). Однако большинство этих методов сосредоточено на оптимизации внутри блоков (intra-block), не уделяя должного внимания возможностям оптимизации между блоками (inter-block). Повторяющаяся структура трансформеров, состоящая из многократно повторяющихся слоев, подразумевает высокую степень избыточности между этими слоями. Несмотря на то, что существуют некоторые подходы к использованию этой избыточности, такие как кэширование ключей-значений, этот вопрос остается недостаточно изученным. При этом, методы компрессии, основанные на извлечении статистических регулярностей между слоями, могли бы существенно снизить количество параметров без существенного ущерба для качества. Вдохновленные подходами диктонического обучения (dictionary learning) в сверточных нейронных сетях (CNNs), авторы предлагают новый подход для структурированного общения весов (weight sharing) между слоями трансформеров. Основная идея заключается в том, чтобы разделить проекционные матрицы внимания (attention projection matrices) на общие атомы (shared dictionary atoms), что позволит существенно уменьшить количество параметров, необходимых для модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод, называемый MASA (Matrix Atom Sharing in Attention), представляет собой оптимизацию структуры весовых матриц в трансформерах. Он разработан для сокращения избыточности в параметрах модели, особенно в модулях внимания (attention modules). Метод основывается на диктоническом обучении, где веса представляются в виде линейных комбинаций общих атомов (shared dictionary atoms). В рамках MASA, проекционные матрицы внимания разделяются на общие компоненты, которые затем используются для представления весов каждого слоя. Это позволяет уменьшить количество необходимых параметров на 66,7%, при этом сохраняя качество модели на уровне состояния искусства. Особенностью MASA является то, что он может быть использован как drop-in replacement для стандартных трансформеров, не требуя сложных изменений в архитектуре или дополнительных процессов, таких как дистилляция модели. Метод обучается с помощью стандартных оптимизаторов, что делает его легко встраиваемым в существующие модели. Он также позволяет эффективно захватывать статистические регулярности между слоями, что делает его особенно эффективным в задачах, где необходим высокий уровень обобщения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на моделях различных размеров, от 100 миллионов до 700 миллионов параметров. Результаты экспериментов показали, что MASA достигает высокого качества на различных бенчмарках, превосходя существующие базовые подходы, такие как grouped-query attention (GQA), низкоранговые базисные методы и недавно предложенные подходы Repeat-all-over/Sequential sharing. В частности, MASA демонстрирует лучшие результаты по точности и перплексии по сравнению с этими методами при сравнительном количестве параметров. Аблационные исследования показали, что метод является достаточно робастным к размеру словаря (dictionary size) и эффективен в захвате статистических регулярностей между слоями. Кроме того, MASA был успешно применен к Vision Transformers (ViT) для задач классификации изображений и детекции. Результаты показали, что MASA может сохранить качество модели на уровне современных подходов, снизив количество параметров на 66,7%. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод MASA имеет значительный практический потенциал в области развертывания моделей трансформеров в реальных приложениях. Благодаря существенному сокращению количества параметров, MASA позволяет уменьшить вычислительные и памятные требования моделей, что делает их более доступными для развертывания на устройствах с ограниченными ресурсами. Кроме того, MASA может быть применен для оптимизации предобученных LLMs, позволяя сократить их размер без существенного ухудшения качества. Это может быть особенно полезно в задачах, требующих быстрого и эффективного выполнения моделей на устройствах с ограниченными вычислительными мощностями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был предложен новый метод MASA для эффективного общения весов между слоями трансформеров. Этот метод показал свою эффективность на различных задачах, включая классификацию текста и изображений. Будущие исследования могут быть направлены на дальнейшее улучшение метода, включая его применение к более крупным моделям и задачам, а также исследование возможностей интеграции MASA с другими методами компрессии.

Annotation:

Large language models (LLMs) have revolutionized AI applications, yet their high computational and memory demands hinder their widespread deployment. Existing compression techniques focus on intra-block optimizations (e.g. low-rank approximation, attention head pruning), while the repetitive layered structure of transformers implies significant inter-block redundancy - a dimension largely unexplored beyond key-value (KV) caching. Inspired by dictionary learning in CNNs, we propose a framework fo...

ID: 2508.04581v1 cs.CL, cs.AI

arXiv PDF

📄 Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

2025-08-08

Авторы:

Nuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Конференции по искусственному интеллекту (ИИ) играют ключевую роль в развитии науки, обмене знаниями и создании академического сообщества. Однако быстрый рост числа участников и публикаций привел к тому, что традиционная централизованная модель конференций стала неустойчивой. Авторы статьи выявляют четыре ключевых проблемы, угрожающие основным целям научного общения, равенства и благополучия сообщества. Во-первых, научная составляющая: за последнее десятилетие количество публикаций на участника конференций выросло более чем вдвое, до среднего значения 4,5 статей в год на автора. Это приводит к перегруженности рецензентов и снижению качества обзоров. Во-вторых, экологический аспект: удовлетворение потребностей конференций влечет за собой значительный ущерб окружающей среде. Углеродный след одной конференции может превышать ежедневные выбросы города-хозяина. В-третьих, психологические последствия: согласно анализу дискурса в онлайн-сообществах, 71% комментариев отражают негативные эмоции, а 35% связаны с проблемами психического здоровья, такими как стресс и выгорание. В-четвертых, логистические ограничения: конференции, такие как NeurIPS 2024, начинают превышать вместительность выбранных площадок, создавая дополнительные трудности для организации и участия. Таким образом, текущая модель централизованных конференций оказывается несовместимой со своими основными задачами, требуя срочных реформ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новую модель — **Community-Federated Conference (CFC)**. Эта модель разделяет традиционные компоненты конференций на три независимых, но связанных между собой процесса: 1. **Peer Review (научный обзор)**: Обеспечивается глобальной сетью экспертов, которые осуществляют обзор материалов в онлайн-режиме. 2. **Presentation (презентация результатов)**: Результаты исследований представляются в виде видео-презентаций или публикаций в открытых репозиториях, доступных всему миру. 3. **Networking (сетевая деятельность)**: Локальные встречи и мероприятия организуются в разных регионах, позволяя участникам обмениваться идеями и сотрудничать без необходимости долгих перелетов. CFC модель позволяет сочетать масштабность глобальных конференций с гибкостью и устойчивостью локальных инициированных событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы представляют данные, подтверждающие необходимость реформы. Например, анализ выбросов углерода показывает, что углеродный след одной конференции может быть эквивалентен выбросам нескольких малых городов. Также проведен анализ психологического состояния участников, который показал высокий уровень стресса и неудовлетворенности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CFC модель обеспечивает несколько преимуществ: - **Устойчивость**: Уменьшает зависимость от локаций и ресурсов, необходимых для масштабных мероприятий. - **Включенность**: Позволяет большему числу участников принять участие без финансовых и географических барьеров. - **Экологичность**: Значительно сокращает углеродный след конференций. - **Сохранение качества**: Обеспечивает высокий уровень научного обзора и обмена знаниями без необходимости физического присутствия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CFC модель представляет собой перспективный подход к решению кризиса централизованных конференций. Она обеспечивает более устойчивую, экологичную и инклюзивную альтернативу, сохраняя при этом высокий уровень научного обмена. Будущие исследования могут фокусироваться на оптимизации локальных событий и разработке технологий для поддержки этой модели.

Annotation:

Artificial Intelligence (AI) conferences are essential for advancing research, sharing knowledge, and fostering academic community. However, their rapid expansion has rendered the centralized conference model increasingly unsustainable. This paper offers a data-driven diagnosis of a structural crisis that threatens the foundational goals of scientific dissemination, equity, and community well-being. We identify four key areas of strain: (1) scientifically, with per-author publication rates more ...

ID: 2508.04586v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 A Comprehensive Framework for Uncertainty Quantification of Voxel-wise Supervised Models in IVIM MRI

2025-08-08

Авторы:

Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluigi Forloni, Riaz Hussein, Giovanna Rizzo, Alfonso Mastropietro

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Оценка параметров интравоксельного некогерентного движения (IVIM) из диффузионно-взвешенного МРТ является сложной задачей из-за некорректно ставимой обратной задачи и высокой чувствительности к шумам, особенно в перфузионной компоненте. Традиционные методы, такие как нейронные сети, борются с неопределенностью в оценках, что может привести к недостоверным результатам. Дополнительная сложность заключается в том, что нейронные сети, как правило, не предоставляют информацию о неопределенности их прогнозов. Это может приводить к недостаткам в клинической практике, где точность и надежность оценок критичны. Таким образом, необходимо разработать метод, который не только обеспечивает точную оценку параметров IVIM, но также квантифицирует неопределенность, позволяя идентифицировать недостоверные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается проблематический фреймворк на основе глубоких ансамблей (Deep Ensembles, DE) и смешанных сетей плотностей (Mixture Density Networks, MDNs) для квантифицирования неопределенности в оценках параметров IVIM. Метод комбинирует силу нейронных сетей с проблематическим подходом, чтобы разделить неопределенность на два компонента: алеаторическую неопределенность (Aleatoric Uncertainty, AU) и эпистемическую неопределенность (Epistemic Uncertainty, EU). MDNs позволяют моделировать плотность вероятности параметров IVIM, что дает возможность получать не только точечные оценки, но и распределения вероятностей. Архитектура MDN обучается на синтезированных данных и оценивается на симулируемых и реальных данных. Разделение AU и EU позволяет лучше понять источники неопределенности, что важно для клинического применения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки метода проведены эксперименты на данных, синтезированных с использованием симуляции, и на двух реальных наборах данных. Результаты показали, что MDNs производят более калиброванные и острые предсказательные распределения для параметров D и f, хотя небольшое преувеличение было замечено для параметра D*. Индекс Robust Coefficient of Variation (RCV) показал, что оценки параметра D* стали более плавными при использовании MDNs по сравнению с традиционными гауссовыми моделями. Однако, наблюдалась повышенная EU на реальных данных, что может указывать на несоответствие между синтезированными данными и реальными условиями сканирования. Это подчеркивает важность включения EU в модель, что позволяет выявить недостоверные оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике, где точная оценка параметров IVIM и их неопределенность играет ключевую роль в диагностике и мониторинге болезней. Фреймворк может быть адаптирован для моделирования других физических моделей, что делает его универсальным инструментом в медицинском образовании. Кроме того, квантификация неопределенности позволяет идентифицировать недостоверные результаты, что может улучшить качество клинических решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен комплексный фреймворк для квантификации неопределенности в моделях IVIM, который обеспечивает точную оценку параметров и разделение неопределенности на AU и EU. Будущие исследования могут фокусироваться на улучшении модели для еще более точного описания реальных условий и на расширении её применения для других физических моделей. Также важно исследовать влияние различных симуляционных стратегий на производительность модели.

Annotation:

Accurate estimation of intravoxel incoherent motion (IVIM) parameters from diffusion-weighted MRI remains challenging due to the ill-posed nature of the inverse problem and high sensitivity to noise, particularly in the perfusion compartment. In this work, we propose a probabilistic deep learning framework based on Deep Ensembles (DE) of Mixture Density Networks (MDNs), enabling estimation of total predictive uncertainty and decomposition into aleatoric (AU) and epistemic (EU) components. The me...

ID: 2508.04588v1 eess.IV, cs.AI, cs.LG

arXiv PDF

📄 GraphProp: Training the Graph Foundation Models using Graph Properties

2025-08-08

Авторы:

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Графовые модели-основы (Graph Foundation Models, GFMs) играют ключевую роль в задачах графовой классифицирования, требующих высокой способности к обобщению на разных доменах. Однако существующие подходы сталкиваются с трудностями при переносе знаний между доменами, так как традиционные методы GFMs часто сосредоточены на передаче информации из узловых признаков в единое пространство представлений, недостаточно учитывая структурные аспекты графов. Это ограничивает их способность к структурному обобщению, особенно когда данные отсутствуют или неполны. Графы, в отличие от других типов данных, характеризуются уникальными структурными инвариантами, которые не зависят от конкретного оформления или меток узлов. Эти инварианты могут быть использованы для извлечения общих характеристик графов, независимо от домена. Тем не менее, большинство существующих моделей не уделяют должного внимания этим структурным свойствам, что приводит к ограниченной эффективности в задачах, требующих кросс-доменной обобщенности. Для решения этой проблемы необходимо разработать метод, который центрирует внимание на структурных свойствах графов, обеспечивая более широкую применимость моделей в различных контекстах. Такой подход должен сочетать структурные инварианты с доменно-специфическими признаками для повышения качества представлений графов и их классификации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают GraphProp, инновационный метод для обучения GFMs, который сосредоточен на структурном обобщении. Метод состоит из двух этапов. На первом этапе выполняется обучение структурной GFM путем предсказания графовых инвариантов. Графовые инварианты — это свойства, определяемые только структурой графа, не зависящие от конкретного оформления или меток. Обучение на инвариантах позволяет модели захватывать абстрактную информацию о структуре, обеспечивая высокодискретизирующие представления графов, которые могут быть применены в разных доменах. На втором этапе используются представления, полученные на первом этапе, как позиционные кодировки для обучения комплексной GFM. В этом этапе интегрируются доменно-специфические узловые признаки и метки графов, что позволяет улучшить обобщающую способность модели на уровне узловых признаков и междоменной переносимости. Такая двухэтапная стратегия обучения позволяет GraphProp эффективно сочетать структурную и доменно-специфическую информацию, обеспечивая высокую производительность даже в задачах с ограниченными данными, таких как few-shot learning. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных наборах данных для графовой классификации, включая те, где узловые признаки были отсутствующими или неполными. Результаты показали, что GraphProp значительно превосходит существующие методы как в задачах с полными данными, так и в фейворном обучении (few-shot learning). В частности, модель демонстрирует высокую эффективность в обработке графов без узловых признаков, где традиционные методы терпят неудачу. Полученные представления графов оказались более дискретизирующими и переносимыми между доменами, что подтверждает успешность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GraphProp имеет широкое применение в задачах, требующих кросс-доменной обработки графов, таких как молекулярная биология, социальные сети и системы рекомендаций. Его способность эффективно обрабатывать графы без узловых признаков делает его особенно полезным в ситуациях, где доступны только структурные данные. Преимущества GraphProp включают улучшенную общую способность к обобщению, улучшенную дискриминативность представлений и высокую эффективность в сценариях с ограниченными данными. Эти качества делают модель привлекательной для практических приложений в различных областях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GraphProp представляет новый подход к обучению GFMs, который сочетает структурные и доменно-специфические аспекты. Он показывает высокую эффективность в различных задачах графовой классификации, особенно в условиях отсутствия или неполноты данных. В будущем могут быть исследованы дополнительные способы интеграции структурных и доменно-специфических признаков, а также расширение применения GraphProp в задачах с более сложными типами данных. Дальнейшие исследования могут также фокусироваться на адаптации этого подхода к другим доменам и задачам машинного обучения.

Annotation:

This work focuses on training graph foundation models (GFMs) that have strong generalization ability in graph-level tasks such as graph classification. Effective GFM training requires capturing information consistent across different domains. We discover that graph structures provide more consistent cross-domain information compared to node features and graph labels. However, traditional GFMs primarily focus on transferring node features from various domains into a unified representation space b...

ID: 2508.04594v1 cs.LG, cs.AI

arXiv PDF

📄 TURA: Tool-Augmented Unified Retrieval Agent for AI Search

2025-08-08

Авторы:

Zhejun Zhao, Yuehu Dong, Alley Liu, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei Yin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие поисковых систем находится на этапе трансформации от традиционного отображения списка ссылок к интеллектуальному диалоговому взаимодействию, где ключевую роль играют большие языковые модели (LLM). Доминирующей парадигмой в этой области является Retrieval-Augmented Generation (RAG), которая обогащает генеративные модели информацией из проиндексированных веб-корпусов. Однако, несмотря на свою популярность в академической среде, существующие RAG-подходы сталкиваются с фундаментальными ограничениями при интеграции в промышленные поисковые системы. Основная проблема заключается в неспособности традиционных RAG-решений работать с динамически изменяющимися данными в реальном времени. Когда пользователь запрашивает информацию о наличии билетов на ближайший рейс, текущих остатках товаров на складе или свежих биржевых котировках, статически проиндексированные веб-страницы не могут обеспечить актуальность ответа. Это ограничение особенно критично для коммерческих поисковых систем, обслуживающих миллионы пользователей с ожиданием ответа в миллисекундах. Академическое сообщество сосредоточило свои усилия на оптимизации RAG для статического контента, практически игнорируя сложные пользовательские намерения, требующие доступа к динамическим источникам вроде баз данных и реальных API. Это создало значительный разрыв между теоретическими исследованиями и практическими потребностями индустрии. Существующие системы не могут эффективно обрабатывать запросы, которые требуют одновременного обращения к статическому веб-контенту для контекста и к динамическим API для актуальных данных, сохраняя при этом требуемую скорость отклика и масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления описанных ограничений авторы представляют TURA (Tool-Augmented Unified Retrieval Agent for AI Search) - инновационную трехэтапную архитектуру, которая органично объединяет преимущества RAG для статического контента с возможностями агентных систем для работы с динамическими источниками данных. Методология TURA строится на концепции Model Context Protocol (MCP), где каждый источник информации инкапсулируется в виде сервера, предоставляющего стандартизированный интерфейс доступа. Первый ключевой компонент - Intent-Aware Retrieval модуль, который реализует интеллектуальное декомпозирование пользовательских запросов. Этот модуль анализирует семантику запроса и автоматически определяет, какие источники информации необходимы для формирования полного ответа. Он способен различать запросы, требующие только статического контента, только динамических данных, или их комбинации, обеспечивая оптимальный выбор источников. Второй компонент - DAG-based Task Planner, который представляет собой планировщик задач на основе направленного ациклического графа (DAG). Этот компонент моделирует зависимости между различными подзадачами обработки запроса, позволяя максимально эффективно использовать параллельное выполнение. Например, при запросе о ценах на авиабилеты система может параллельно обращаться к API авиакомпаний для актуальных цен и к веб-документам для информации о маршрутах и условиях перелета. Третий компонент - Distilled Agent Executor представляет собой легковесный исполнитель агентных действий, оптимизированный для работы в условиях высокой нагрузки. Он реализует эффективный механизм вызова инструментов с минимальной задержкой, что критично для обеспечения низкой латентности в масштабной промышленной системе. Архитектура специально спроектирована для обработки миллионов параллельных запросов без потери производительности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация TURA проводилась в условиях реального промышленного развертывания, обслуживающего десятки миллионов пользователей. Для оценки эффективности системы использовался набор сложных тестовых запросов, включающих комбинации статических и динамических информационных потребностей. Бенчмарки включали запросы о наличии товаров в конкретных магазинах с реальным временем обновления, бронировании билетов с проверкой актуальности цен, и получении финансовой информации из различных источников с разной частотой обновления. Основной метрикой оценки служила полнота и точность предоставляемой информации при соблюдении строгих требований к латентности

Annotation:

The advent of Large Language Models (LLMs) is transforming search engines into conversational AI search products, primarily using Retrieval-Augmented Generation (RAG) on web corpora. However, this paradigm has significant industrial limitations. Traditional RAG approaches struggle with real-time needs and structured queries that require accessing dynamically generated content like ticket availability or inventory. Limited to indexing static pages, search engines cannot perform the interactive qu...

ID: 2508.04604v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Neuromorphic Cybersecurity with Semi-supervised Lifelong Learning

2025-08-08

Авторы:

Md Zesun Ahmed Mia, Malyaban Bal, Sen Lu, George M. Nishibuchi, Suhas Chelian, Srini Vasan, Abhronil Sengupta

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире кибербезопасности крайне важно обеспечить эффективную защиту сетевых систем от возрастающего количества киберугроз. Традиционные методы киберзащиты часто сталкиваются с ограничениями, такими как высокая стоимость вычислений, риск катастрофического забывания (catastrophic forgetting) при обучении на новых данных и невозможность эффективно адаптироваться к непредвиденным угрозам. Эти проблемы становятся особенно актуальными в контексте Network Intrusion Detection Systems (NIDS), требующих высокого уровня точности и энергоэффективности. Биологический мозг является источником вдохновения для разработки более эффективных систем, благодаря его способности к иерархической обработке информации и энергоэффективности. Исходя из этого, разработка нейроморфических систем, основанных на спайковых нейронных сетях (Spiking Neural Networks, SNN), является перспективным направлением. SNN могут эмулировать нейробиологические механизмы, такие как структурная пластичность и адаптивное обучение, что позволяет им обрабатывать данные в реальном времени и обучаться на новых угрозах без потери существующих знаний. Однако разработка SNN для NIDS сопровождается рядом вызовов, включая необходимость обработки потоковых данных в режиме реального времени, обеспечение энергоэффективности и уменьшение катастрофического забывания при обучении на новых угрозах. Таким образом, необходимо разработать методологии, которые бы объединили высокую точность классификации, адаптивность и энергоэффективность в единой системе. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается нейроморфическая архитектура для NIDS, основанная на двух слоях SNN. Первый слой, статический SNN, выполняет первичную фильтрацию потенциальных угроз. Затем активируется динамический SNN, отвечающий за детальную классификацию типов атак. Динамический SNN использует механизм Grow When Required (GWR), который позволяет сети динамически расширять свою структуру для обучения новых угроз. Для обучения используется новый Adaptive Spike-Timing-Dependent Plasticity (Ad-STDP), который оптимизирует синптические веса в соответствии с временными динамиками спайков, обеспечен

Annotation:

Inspired by the brain's hierarchical processing and energy efficiency, this paper presents a Spiking Neural Network (SNN) architecture for lifelong Network Intrusion Detection System (NIDS). The proposed system first employs an efficient static SNN to identify potential intrusions, which then activates an adaptive dynamic SNN responsible for classifying the specific attack type. Mimicking biological adaptation, the dynamic classifier utilizes Grow When Required (GWR)-inspired structural plastici...

ID: 2508.04610v1 cs.LG, cs.AI, cs.ET, cs.NE

arXiv PDF

1
2
3391
3392
3393
3394
3395
3402
3403

Показано 33921 - 33930 из 34022 записей