📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Benchmarking Quantum and Classical Sequential Models for Urban Telecommunication Forecasting

2025-08-09

Авторы:

Chi-Sheng Chen, Samuel Yen-Chi Chen, Yun-Cheng Tsai

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире телекоммуникаций эффективное прогнозирование динамики сетевой активности является ключевым фактором для оптимизации сетевых ресурсов и обеспечения высокого качества услуг. Одним из критически важных показателей является количество входящих SMS-сообщений (SMS-in), которое характеризует динамику сетевой нагрузки в конкретных географических областях. Традиционные методы прогнозирования, основанные на классических моделях, часто сталкиваются с ограничениями в учете сложности временных зависимостей и нерегулярности данных. В последнее время квантовые вычисления и квантово-инспирированные модели привлекают внимание как потенциальное решение для улучшения точности прогнозов временных рядов. Однако, несмотря на обещания квантовых моделей, их эффективность в конкретных задачах остается недостаточно изученной. Особенно важно понять, как квантовые модули взаимодействуют с различными архитектурами и какие факторы определяют их преимущества по сравнению с классическими моделями. В данной статье авторы фокусируются на сравнение классических и квантово-инспирированных моделей для прогнозирования временных рядов SMS-in, используя данные Milan Telecommunication Activity Dataset. Из-за ограничений в доступности данных, исследование ограничено анализом входящей SMS-активности в отдельных географических секторах. Целью исследования является оценка того, насколько эффективны квантово-инспирированные модели в зависимости от длины входной последовательности и какие факторы влияют на их производительность. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования были использованы пять моделей: LSTM (длиннократные краткосрочные памятные сети) в качестве базового классического подхода, а также четыре квантово-инспирированные модели: Quantum LSTM (QLSTM), Quantum Adaptive Self-Attention (QASA), Quantum Receptance Weighted Key-Value (QRWKV), и Quantum Fast Weight Programmers (QFWP). Все модели были обучены на основе исторических данных SMS-in для прогнозирования следующего 10-минутного интервала. Для этого использовались последовательности исторических данных различной длины (4, 8, 12, 16, 32, и 64 временными шагами). Квантово-инспирированные модели были спроектированы таким образом, чтобы интегрировать квантовые принципы, такие как квантовая самовнимание, квантовые весовые функции и квантовые алгоритмы программирования. Ключевой момент заключается в том, что каждая модель была оценена с точки зрения ее чувствительности к длине входной последовательности. Архитектура каждой модели была адаптирована для учета квантовых эффектов, но при этом сохраняла общую структуру для обеспечения сравнительной оценки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов были проведены тесты на прогнозирование SMS-in с использованием различных моделей и различных длин входных последовательностей. Результаты показали, что квантово-инспирированные модели демонстрируют разнообразную чувствительность к длине последовательности. В частности, некоторые модели, такие как QASA и QRWKV, показали лучшие результаты на более длинных последовательностях, в то время как другие, такие как QFWP, показали лучшую производительность на коротких последовательностях. Кроме того, исследование показало, что квантовые модели не всегда превосходят классические. Например, LSTM, как базовая модель, показала солидные результаты на различных длинах последовательностей, особенно при коротких входных данных. Это подтверждает, что квантовые улучшения не являются универсальным решением и зависят от конкретных характеристик задачи и архитектуры модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты исследования имеют значительное значение для отрасли телекоммуникаций, особенно для операторов сетей, которым требуется точное прогнозирование сетевой нагрузки. Квантово-инспирированные модели могут быть использованы для оптимизации распределения ресурсов, улучшения качества передачи данных и снижения задержек в сети. Кроме того, данное исследование подчеркивает важность выбора подходящей модели и архитектуры в зависимости от конкретной задачи. Это может помочь разработчикам и инженерам выбирать наиболее подходящие модели для прогнозирования временных рядов в условиях реального мира. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, исследование демонстрирует, что квантово-инспирированные модели могут быть эффективными в некоторых случаях, но их эффективность зависит от конкретных условий задачи. Будущие исследования могут фокусироваться на дальнейшем улучшении квантовых моделей, особенно в контексте их интеграции с классическими подходами. Также необходимо исследовать возможности квантовых моделей в более широких областях прогнозирования временных рядов, включая другие типы телекоммуникационных данных и другие домены, где временные зависимости играют ключевую роль.

Annotation:

In this study, we evaluate the performance of classical and quantum-inspired sequential models in forecasting univariate time series of incoming SMS activity (SMS-in) using the Milan Telecommunication Activity Dataset. Due to data completeness limitations, we focus exclusively on the SMS-in signal for each spatial grid cell. We compare five models, LSTM (baseline), Quantum LSTM (QLSTM), Quantum Adaptive Self-Attention (QASA), Quantum Receptance Weighted Key-Value (QRWKV), and Quantum Fast Weight...

ID: 2508.04488v1 quant-ph, cs.AI

arXiv PDF

📄 Hierarchical Scoring for Machine Learning Classifier Error Impact Evaluation

2025-08-09

Авторы:

Erin Lanus, Daniel Wolodkin, Laura J. Freeman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Машинное обучение (ML) широко используется для классификации объектов, в том числе в задачах детекции, которые включают локализацию объектов с помощью ограничительных рамок. Традиционно оценка точности моделей классификации основывается на простом подходе "проход/неудача", где любое несоответствие предсказанному классу и истинному является ошибкой. Такой подход не учитывает природу ошибок и их возможное вариативное значение. В реальных задачах классы часто структурированы в иерархические таксономии, отражающие отношения между классами или предпочтения пользователей по отношению к ошибкам. Например, ошибка внутри близкого подкласса может быть менее критична, чем ошибка в другой области таксономии. Несмотря на это, существующие метрики оценки не предоставляют механизмов для разграничения ошибок по степени их значимости. Эта проблема мотивирует разработку более тонких метрик, которые учитывают иерархическую структуру классов и позволяют давать "частичные баллы" за предсказания, близкие по смыслу к истинному классу. Такие метрики могут помочь лучше понять влияние ошибок и оптимизировать модели в соответствии с конкретными целями пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод Hierarchical Scoring, основанный на использовании иерархических деревьев для кодирования отношений между классами. Деревья строятся таким образом, чтобы расстояние между предсказанным и истинным классом могло быть измерено и интерпретировано в терминах "стоимости" ошибки. Предложенные метрики варьируются по сложности и позволяют применять различные стратегии взвешивания. Например, можно настроить метрики так, чтобы они отражали большую штраф за ошибки в критичных областях таксономии. Метод включает в себя создание "скоринговых деревьев", где каждый узел представляет класс, а ребра соответствуют отношениям между классами. Эта методология предоставляет гибкость в оценке моделей, позволяя ранжировать их не только по количеству ошибок, но и по их типу и значимости. Авторы также разработали реализации метода на Python, доступные в открытом репозитории. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для демонстрации метода были проведены эксперименты на абстрактном наборе данных с различными стратегиями взвешивания. Авторы использовали иерархические деревья с тремя типами весов, чтобы оценить, как метрики влияют на поведение моделей. Результаты показали, что предложенные метрики дают более детальное представление об ошибках, позволяя выявить те, которые имеют больший вес. Настройка деревьев также показала, что модели могут быть оптимизированы для минимизации ошибок в критичных областях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где важно не только уменьшить количество ошибок, но и контролировать их вид. Например, в медицинской диагностике ошибка в классификации тяжелого заболевания может быть критичнее, чем в более низкорискованной области. Такая гранулярность оценки может повысить надежность и эффективность моделей ML в критических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы доказали, что Hierarchical Scoring позволяет оценивать модели ML с большей гранулярностью, учитывая иерархию классов. Будущие исследования могут расширить этот подход на более сложные таксономии и применить его в реальных системах, где важно контролировать не только количество, но и тип ошибок.

Annotation:

A common use of machine learning (ML) models is predicting the class of a sample. Object detection is an extension of classification that includes localization of the object via a bounding box within the sample. Classification, and by extension object detection, is typically evaluated by counting a prediction as incorrect if the predicted label does not match the ground truth label. This pass/fail scoring treats all misclassifications as equivalent. In many cases, class labels can be organized i...

ID: 2508.04489v1 cs.LG, cs.AI

arXiv PDF

📄 Learning Robust Intervention Representations with Delta Embeddings

2025-08-09

Авторы:

Panagiotis Alimisis, Christos Diou

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование каузального представления данных (causal representation learning) является одним из ключевых направлений в области машинного обучения, направленного на повышение устойчивости и общей эффективности моделей. Основная идея каузального представления заключается в том, что модели могут лучше обобщаться и быть более устойчивыми к изменениям в данных, если они учитывают причинные связи между элементами сцены. Традиционно, большинство исследований в этой области сосредоточены на выявлении и представлении переменных сцены в рамках каузальной модели, однако меньше внимания уделялось представлению самих вмешательств (interventions) в пространстве латентных переменных (latent space). Взаимодействия между элементами сцены и внешними действиями (такими как движения объектов, изменения положения или других факторов) часто требуют специальных методов для их представления и обработки. Однако, существующие методы часто не могут эффективно обрабатывать ситуации, когда данные распределены неравномерно или когда происходят изменения в незначительных частях сцены. Это может привести к снижению качества модели при обработке данных, которые не входят в оригинальный набор данных (out-of-distribution, OOD). В этой работе авторы предлагают решение этой проблемы, сосредоточившись на представлении вмешательств (interventions) в пространстве латентных переменных. Они предлагают использовать "Causal Delta Embeddings", которые характеризуются свойством инвариантности к визуальной сцене (то есть, они не зависят от конкретных визуальных признаков сцены) и являются разреженными (sparse) в отношении причинных переменных, которые они влияют. Эта концепция позволяет модели концентрироваться только на тех частях сцены, которые изменяются в результате вмешательства, улучшая тем самым общую устойчивость модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод для представления вмешательств (interventions) в пространстве латентных переменных, который они называют "Causal Delta Embeddings". Это представление основывается на идее того, что вмешательство может быть описано как изменение в пространстве латентных переменных, которое затрагивает только те переменные, которые были изменены в результате вмешательства. Это позволяет создавать компактное и инвариантное представление вмешательства, которое не зависит от конкретных визуальных признаков сцены. Ключевой момент метода заключается в том, что Causal Delta Embeddings построены таким образом, чтобы они были разреженными (sparse), то есть затрагивали только те причинные переменные, которые были изменены в результате вмешательства. Это позволяет уменьшить дименensionality и сделать представление более эффективным. Метод включает в себя несколько этапов: 1. **Извлечение латентных переменных**: Из исходных изображений извлекаются латентные переменные, которые представляют собой компактное представление сцены. 2. **Обучение Causal Delta Embeddings**: На основе извлеченных латентных переменных модель обучается находить изменения, вызванные вмешательством. Это достигается путем минимизации функции потерь, которая штрафует за несоответствие между изменениями в латентном пространстве и реальными изменениями, вызванными вмешательством. 3. **Инвариантность к визуальным признакам**: Метод обеспечивает, чтобы Causal Delta Embeddings были инвариантны к визуальным признакам сцены, что позволяет модели лучше обобщаться на новые данные. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на наборе данных из Causal Triplet challenge, который включает в себя изображения пар, где вмешательство приводит к изменениям в сцене. Эксперименты проводились в двух режимах: синтетический (synthetic) и реальный (real-world). В синтетическом режиме, где изменения в сцене были хорошо контролируемыми, метод показал значительное улучшение по сравнению с базовыми подходами. В частности, Causal Delta Embeddings показали лучшую точность в определении изменений, вызванных вмешательством, даже в случаях, когда данные были сильно изменены. В реальном режиме, где данные были получены из реальных сцен, метод также показал высокую эффективность. Он превосходил базовые модели в выявлении изменений, вызванных вмешательством, даже когда сцены были сложными и содержали множество деталей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где необходимо учитывать причинные связи между элементами сцены. Он может быть использован в таких приложениях, как анализ видеопотоков, обработка изображений, а также в системах автоматического управления, где важно понимать, как различные действия влияют на систему. Одним из главных преимуществ этого метода является его способность обрабатывать данные вне оригинального набора данных (OOD), что делает его особенно полезным в ситуациях, когда модели должны работать в непредвиденных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Causal Delta Embeddings являются эффективным инструментом для представления вмешательств в пространстве латентных переменных, что приводит к значительному улучшению общей устойчивости модели. Будущие исследования могут фокусироваться на дальнейшем улучшении этого подхода, включая исследование более сложных сцен и применение этого метода к другим областям, таким как анализ видео и решение задач в области робототехники.

Annotation:

Causal representation learning has attracted significant research interest during the past few years, as a means for improving model generalization and robustness. Causal representations of interventional image pairs, have the property that only variables corresponding to scene elements affected by the intervention / action are changed between the start state and the end state. While most work in this area has focused on identifying and representing the variables of the scene under a causal mode...

ID: 2508.04492v1 cs.CV, cs.AI

arXiv PDF

📄 PRISM: Lightweight Multivariate Time-Series Classification through Symmetric Multi-Resolution Convolutional Layers

2025-08-09

Авторы:

Federico Zucchi, Thomas Lampert

## КОНТЕКСТ И ПРОБЛЕМАТИКА Многомерная классификация временных рядов (Multivariate Time-Series Classification, MTSC) является ключевой задачей в таких областях, как износостойкие датчики, мониторинг биомедицинских данных и другие приложения, требующие анализа комплексных данных во временном контексте. Несмотря на значительные успехи в этой области, существующие подходы сталкиваются с некоторыми серьезными ограничениями. Модели на основе трансформеров (Transformers) и сверточных нейронных сетей (Convolutional Neural Networks, CNNs), хоть и достигли высоких результатов в классификации, часто характеризуются высокой вычислительной сложностью, требуют больших параметрических ресурсов и имеют ограниченную способность к анализу частотных компонент временных рядов. Эти недостатки делают их менее пригодными для приложений, где важна эффективность ресурсов и возможность работы на ограниченной вычислительной мощности. Кроме того, существующие модели обычно не учитывают многоуровневую природу временных рядов, где различные частотные компоненты могут быть важны на разных временных масштабах. Это ограничение может приводить к потере важной информации при классификации. Таким образом, необходимо разработать новый подход, который сочетает в себе высокую точность классификации и низкую вычислительную сложность, а также учитывает многоуровневую природу данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагается новый метод под названием PRISM (Per-channel Resolution-Informed Symmetric Module) для классификации многомерных временных рядов. PRISM основывается на использовании симметричных конечно-импульсных фильтров (Finite-Impulse Response, FIR), применяемых на нескольких временных масштабах для каждого канала независимо. Этот подход позволяет получать высокочастотно-селективные эмбеддинги (embeddings) без необходимости выполнения межканальных сверток, что существенно сокращает размер модели и ее вычислительную сложность. Ключевой идеей PRISM является применение фильтров FIR на разных временных масштабах для каждого канала, что позволяет эффективно извлекать информацию о частотных характеристиках данных. Эти фильтры работают независимо для каждого канала, что позволяет сохранить их специфические частотные характеристики. Такой подход обеспечивает лучшую интерпретируемость модели и позволяет эффективно работать с различными типами данных. Архитектура PRISM состоит из нескольких симметричных модулей, каждый из которых обрабатывает входные данные на разных временных масштабах. Эти модули соединены в серию, что позволяет получать многоуровневую представление данных. Кроме того, PRISM использует легковесные классификационные модули, что дает дополнительный прирост в эффективности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода PRISM были проведены эксперименты на нескольких наборах данных, включая Human Activity Recognition (HAR), Sleep-Stage Classification и Biomedical Data. Эти данные представляют собой многомерные временные ряды с различными характеристиками. PRISM был сравнен с несколькими современными методами, включая CNN- и Transformer-based модели. Результаты экспериментов показали, что PRISM достигает точности классификации, сопоставимой с современными моделями, но с значительно меньшим количеством параметров и вычислительных операций (FLOPs). В частности, PRISM использует примерно на порядок меньше параметров и вычислительных ресурсов по сравнению с трансформером и CNN-based моделями. Это демонстрирует высокую эффективность PRISM в решении задачи классификации многомерных временных рядов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод PRISM имеет широкое применение в различных областях, требующих классификацию многомерных временных рядов. Например, в биомедицинской области, PRISM может быть использован для мониторинга состояния пациентов, анализа данных, полученных от износостойких датчиков, или для классификации этапов сна. Благодаря своей низкой вычислительной сложности и высокой точности, PRISM может быть внедрен на мобильных устройствах или IoT-устройствах, где ограничены вычислительные ресурсы. Кроме того, PRISM может быть использован в таких областях, как мониторинг физической активности, анализ электрокардиограмм (ECG) и другие приложения, требующие анализа временных рядов. Его эффективность и малогабаритность делают его пригодным для использования в реальных условиях, где важна энергоэффективность и высокая точность классификации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод PRISM, который сочетает в себе классические подходы к обработке сигналов с современными методами глубокого обучения. PRISM показывает высокую точность классификации многомерных временных рядов при значительно меньших ресурсах по сравнению с современными моделями. Это открывает новые возможности для применения в реальных условиях, где важна эффективность ресурсов. Будущие исследования могут фокусироваться на дальнейшем улучшении PRISM, включая его адаптацию для работы с более сложными временными рядами или для использования в реальном времени. Кроме того, можно исследовать возможность интеграции PRISM с другими моделями или методами обработки данных для повышения его эффективности.

Annotation:

Multivariate time-series classification is pivotal in domains ranging from wearable sensing to biomedical monitoring. Despite recent advances, Transformer- and CNN-based models often remain computationally heavy, offer limited frequency diversity, and require extensive parameter budgets. We propose PRISM (Per-channel Resolution-Informed Symmetric Module), a convolutional-based feature extractor that applies symmetric finite-impulse-response (FIR) filters at multiple temporal scales, independentl...

ID: 2508.04503v1 cs.LG, cs.AI

arXiv PDF

📄 Argumentative Debates for Transparent Bias Detection [Technical Report]

2025-08-09

Авторы:

Hamed Ayoobi, Nico Potyka, Anna Rapberger, Francesca Toni

## КОНТЕКСТ И ПРОБЛЕМАТИКА С ростом применения искусственного интеллекта (ИИ) в обществе возрастает необходимость решения проблем, связанных с потенциальными смещениями (байес) в данных или моделях. Такие смещения могут приводить к систематическим недостаткам для определенных групп людей, что вызывает проблемы справедливости и социальной ответственности. В литературе было предложено множество понятий несправедливости (unfairness), а также алгоритмические методы для их выявления и смягчения. Однако большинство этих методов игнорируют важный аспект – прозрачность. Прозрачность является ключевым требованием для алгоритмов, оперирующих в области справедливости. Это обусловлено тем, что справедливость является ориентированной на человека понятием, и пользователи должны понимать, как и почему были приняты то или иное решение. Интерпретируемость и объяснимость являются необходимыми компонентами для достижения прозрачности в алгоритмах, особенно в контексте справедливости. Несмотря на это, существующие подходы к обнаружению и смягчению несправедливости часто не обеспечивают достаточного уровня прозрачности. В этой статье авторы предлагают новый метод для обнаружения смещений, основанный на аргументации. Метод использует дебаты (рассуждения) о наличии смещений в отношении отдельных лиц на основе значений защищенных признаков для этих лиц и их соседей. Этот подход использует методы формальной и вычислительной аргументации, где дебаты происходят как внутри, так и между соседними группами. Такой подход позволяет достигнуть более высокого уровня прозрачности и объяснимости решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на техниках формальной и вычислительной аргументации для обнаружения смещений. Он использует концепцию "соседей" (neighbourhoods), где каждый индивид анализируется не только по своим характеристикам, но и по характеристикам других людей в его окружении. Дебаты формируются на основе аргументов о наличии смещений, связанных с защищенными признаками (например, расой, полу, возрастом). Аргументы формируются на основе двух видов дебатов: внутри соседства (intra-neighbourhood) и между соседствами (inter-neighbourhood). Эти дебаты позволяют выявить несогласованности и смещения в распределении ресурсов или решений между различными группами. Метод также использует формальные методы аргументации для квантификации и анализа этих дебатов, что позволяет получить количественные оценки смещений. Ключевым моментом этого метода является его интерпретируемость. Дебаты и аргументы представлены в форме, которая понятна человеку, что позволяет обеспечить высокую прозрачность в процессе обнаружения смещений. Этот подход также позволяет пользователям получить подробные объяснения о том, почему было принято то или иное решение, что является важной частью процесса обеспечения справедливости. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Эксперименты были проведены на различных наборах данных, которые содержали информацию о защищенных признаках и решениях, которые могут быть подвержены смещениям. Для сравнения были использованы базовые методы, которые не используют аргументацию. Результаты экспериментов показали, что предлагаемый метод выявляет смещения с высокой точностью и предлагает более прозрачные объяснения для своих решений по сравнению с базовыми методами. Интерпретируемость метода позволила пользователям лучше понимать причины обнаруженных смещений, что является важной частью процесса обеспечения справедливости. Кроме того, метод показал хорошие результаты в выявлении смещений в различных контекстах, включая различные типы данных и признаков. Это подтверждает его универсальность и применимость в различных областях, где важна справедливость и прозрачность. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в областях, где важна справедливость и прозрачность принятия решений. Он может быть использован в таких областях, как кредитование, найм персонала, медицинская диагностика и другие области, где важно обеспечить равное обращение с различными группами людей. Преимущества этого метода включают высокую прозрачность и объяснимость решений, что позволяет пользователям лучше понимать и контролировать процесс принятия решений. Это может привести к более справедливому и этическому использованию ИИ в обществе, предотвращая дискриминацию и несправедливость. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этой статье был представлен новый метод для обнаружения смещений на основе аргументации, который обеспечивает высокий уровень прозрачности и объяснимости. Метод показал хорошие результаты в экспериментах и имеет широкое применение в различных областях. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая расширение его применимости к более сложным данным и контекстам. Также может быть исследовано влияние этого метода на реальные приложения ИИ и его влияние на социальную справедливость.

Annotation:

As the use of AI systems in society grows, addressing potential biases that emerge from data or are learned by models is essential to prevent systematic disadvantages against specific groups. Several notions of (un)fairness have been proposed in the literature, alongside corresponding algorithmic methods for detecting and mitigating unfairness, but, with very few exceptions, these tend to ignore transparency. Instead, interpretability and explainability are core requirements for algorithmic fair...

ID: 2508.04511v1 cs.AI, cs.LG

arXiv PDF

📄 A Comprehensive Framework for Uncertainty Quantification of Voxel-wise Supervised Models in IVIM MRI

2025-08-09

Авторы:

Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluigi Forloni, Riaz Hussein, Giovanna Rizzo, Alfonso Mastropietro

## КОНТЕКСТ И ПРОБЛЕМАТИКА Оценка параметров intravoxel incoherent motion (IVIM) из диффузионно-взвешенной МРТ (DW-MRI) представляет собой сложную задачу, затрудненную некорректностью обратной задачи и высокой чувствительностью к шумам, особенно в перфузионном компоненте. Данная область исследования имеет большое значение, поскольку IVIM-параметры играют ключевую роль в оценке микроциркуляции крови и диффузии в тканях. Однако существующие методы характеризуются значительными недостатками, включая недостаточную точность и неустойчивость оценок в условиях реальных клинических данных. Одним из основных вызовов является необходимость учета неопределенности в оценках параметров, включая как алёаторическую (AU), связанную с шумами в данных, так и эпистемическую (EU), вызванную недостаточностью модели или несоответствием между тренировочными и реальными данными. Традиционные непробебилистические нейросетевые модели, а также байесовские подходы, не всегда обеспечивают достаточную точность и калибровку оценок неопределенности. В связи с этим, авторы статьи предлагают новый пробебилистический подход на основе Deep Ensembles (DE) и Mixture Density Networks (MDNs) для комплексной оценки неопределенности в моделях, основанных на DW-MRI. Данный подход направлен на решение проблемы недостоверных оценок и повышения надежности моделей путем декомпозиции неопределенности на её составляющие. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенная модель основывается на комбинации Deep Ensembles (DE) и Mixture Density Networks (MDNs), что позволяет достичь комплексной оценки неопределенности. MDNs используются для моделирования плотности вероятностей выходных параметров, включая диффузионный коэффициент $D$, фракцию $f$ и псевдодиффузионный коэффициент $D*$. DE обеспечивает разнообразие предсказаний за счет обучения нескольких нейросетей с различными инициализациями, что позволяет лучше охватить пространство возможных решений и оценить эпистемическую неопределенность. Процесс обучения проводится на синтезированных данных, сгенерированных на основе физиологически допустимых диапазонов параметров. В процессе обучения учитывается специфика DW-MRI, включая влияние шума и нелинейностей в процессе обработки данных. Для оценки качества модели используются метрики, такие как калибровочные кривые, результаты Continuous Ranked Probability Score (CRPS) и другие индикаторы точности и калибровки. Предложенный метод также включает в себя модуль декомпозиции неопределенности, позволяющий разделить её на алёаторическую и эпистемическую составляющие. Это позволяет идентифицировать недостоверные оценки, вызванные либо шумами в данных, либо несоответствием модели реальным условиям. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились как на синтезированных, так и на реальных in vivo данных. Результаты показывают, что MDNs обеспечивают более калиброванные и острые предсказательные распределения для параметров $D$ и $f$, хотя для $D*$ наблюдается небольшое преуверешенное (overconfident) поведение. Использование CRPS показало, что MDNs обеспечивают более гладкие оценки для $D*$ по сравнению с традиционным гауссовским моделированием. Было также продемонстрировано, что EU имеет высокое значение в реальных in vivo условиях, что свидетельствует о несоответствии между тренировочными данными и реальными условиями сканирования. Это подчеркивает важность учета EU в процессе моделирования, что было успешно реализовано в предложенной рамке. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике и научных исследованиях, где точная оценка IVIM-параметров крайне важна. Он позволяет не только повысить точность оценок, но и идентифицировать недостоверные результаты, что может предотвратить ошибочные клинические решения. Кроме того, данный подход может быть адаптирован для моделирования других физических процессов за счет соответствующих модификаций архитектуры и симуляционных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен комплексный подход к оценке неопределенности в моделях IVIM-MRI, который обеспечивает точные и калиброванные предсказания. Будущие исследования могут фокусироваться на дальнейшей оптимизации модели, включая расширение диапазона тренировочных данных и улучшение модуля декомпозиции неопределенности. Также предлагается исследовать возможности применения этого подхода в других областях медицинского изображений.

Annotation:

Accurate estimation of intravoxel incoherent motion (IVIM) parameters from diffusion-weighted MRI remains challenging due to the ill-posed nature of the inverse problem and high sensitivity to noise, particularly in the perfusion compartment. In this work, we propose a probabilistic deep learning framework based on Deep Ensembles (DE) of Mixture Density Networks (MDNs), enabling estimation of total predictive uncertainty and decomposition into aleatoric (AU) and epistemic (EU) components. The me...

ID: 2508.04588v2 eess.IV, cs.AI, cs.LG

arXiv PDF

📄 Neuromorphic Cybersecurity with Semi-supervised Lifelong Learning

2025-08-09

Авторы:

Md Zesun Ahmed Mia, Malyaban Bal, Sen Lu, George M. Nishibuchi, Suhas Chelian, Srini Vasan, Abhronil Sengupta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные системы обнаружения сетевых вторжений (NIDS) сталкиваются с фундаментальным противоречием между необходимостью постоянной адаптации к новым видам киберугроз и риском катастрофического забывания ранее изученных паттернов. Традиционные ИИ-подходы, основанные на глубоком обучении, демонстрируют высокую точность при обучении на статических наборах данных, но теряют эффективность в условиях реального времени, где поток сетевого трафика непрерывно эволюционирует и появляются ранее неизвестные типы атак. Ключевыми проблемами являются: во-первых, энергетическая неэффективность классических нейросетей, требующих значительных вычислительных ресурсов для обработки высокоскоростного трафика; во-вторых, неспособность к инкрементальному обучению без полного переобучения модели; в-третьих, отсутствие механизмов, позволяющих сохранить знания о старых атаках при изучении новых. Эти ограничения особенно критичны для встраиваемых систем и edge-устройств, где доступны ограниченные вычислительные ресурсы и энергия. Нейроморфные вычисления, вдохновленные принципами работы биологического мозга, предлагают революционный подход к решению этих проблем. Импульсные нейронные сети (SNN) обеспечивают исключительную энергоэффективность за счет асинхронной обработки информации и sparse-кодирования, тогда как биологически правдоподобные механизмы пластичности позволяют реализовать непрерывное обучение в течение всего жизненного цикла системы. Однако до настоящего времени отсутствовали практические реализации SNN-архитектур, способных эффективно функционировать в динамических условиях кибербезопасности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую иерархическую архитектуру нейроморфной системы обнаружения вторжений, которая решает проблему lifelong learning через разделение функций между статическим и динамическим компонентами. Первый уровень представляет собой статическую SNN, обученную на начальном наборе данных для первичной фильтрации потенциально вредоносного трафика. Эта сеть работает в режиме энергоэффективного инференса с высокой степенью разреженности активаций (до 95%), что критично для реального времени. Когда статический классификатор обнаруживает подозрительную активность, активируется второй уровень - адаптивный динамический SNN-классификатор. Этот компонент реализует принципиально новый подход к continual learning через комбинацию двух биологически инспирированных механизмов. Первый механизм основан на Grow When Required (GWR)-подобной структурной пластичности, позволяющей динамически добавлять новые нейроны в ответ на появление неизвестных паттернов атак. Второй механизм - это разработанная авторами адаптивная правило Spike-Timing-Dependent Plasticity (Ad-STDP), которое модифицирует силу синаптических связей в зависимости от временных корреляций между нейронами. Ad-STDP выходит за рамки классического STDP через введение метапараметров, которые автоматически регулируют скорость обучения для каждого синапса индивидуально. Это позволяет сохранять важные связи, отвечающие за распознавание известных атак, одновременно формируя новые связи для изучаемых угроз. Система использует semi-supervised подход: при наличии меток классов происходит обучение с учителем, в отсутствие меток - самообучение на основе кластеризации импульсных паттернов. Для обработки сетевых данных разработан специализированный энкодер, преобразующий признаки сетевого трафика в временные импульсные последовательности. Этот процесс учитывает как статистические характеристики пакетов (размеры, временные интервалы), так и поведенческие паттерны (последовательности флагов TCP, частоты обращений к портам). ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на стандартном наборе данных UNSW-NB15, содержащем 2.54 миллиона записей сетевого трафика с 49 типами атак, распределенных по 9 категориям. Для создания реалистичного сценария lifelong learning, исходный набор данных был разделен на 5 временных срезов, каждый из которых добавлял 20% новых типов атак, недоступных предыд

Annotation:

Inspired by the brain's hierarchical processing and energy efficiency, this paper presents a Spiking Neural Network (SNN) architecture for lifelong Network Intrusion Detection System (NIDS). The proposed system first employs an efficient static SNN to identify potential intrusions, which then activates an adaptive dynamic SNN responsible for classifying the specific attack type. Mimicking biological adaptation, the dynamic classifier utilizes Grow When Required (GWR)-inspired structural plastici...

ID: 2508.04610v2 cs.LG, cs.AI, cs.ET, cs.NE

arXiv PDF

📄 Uncertainty-aware Predict-Then-Optimize Framework for Equitable Post-Disaster Power Restoration

2025-08-09

Авторы:

Lin Jiang, Dahai Yu, Rongchao Xu, Tian Tang, Guang Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Климатические изменения и рост частоты экстремальных погодных явлений, таких как ураганы, привели к увеличению числа сбоев в работе энергетических систем. Этот фактор подчеркивает критическую необходимость эфтизвующего и справедливого восстановления электроснабжения. Традиционно, компании-провайдеры электроэнергии определяют приоритеты восстановления на основе количества заявок на восстановление поданных из каждого региона. Однако, данные анализы показывают значительные диспаратические различия в объеме поданных заявок. Неблагоприятные сообщества часто подают меньше заявок, что приводит к несправедливости в процессе восстановления. Такая несправедливость оставляет эти сообщества без поддержки, увеличивая их уязвимость к продолжительным отключениям электроэнергии. Для решения этой проблемы, необходимо разработать стратегию восстановления электроснабжения, которая бы учитывала как эффективность, так и справедливость в отношении различных сообществ. Однако, достижение этой цели сталкивается с двумя ключевыми проблемами. Во-первых, необходимо предсказать время ремонта с учетом значительных различий в данных (dataset heteroscedasticity). Во-вторых, агенты обученные с помощью reinforcement learning (RL), имеют тенденцию предпочитать действия с низкой неопределенностью, что может подрывать справедливость решений. Для преодоления этих вызовов, авторы предлагают новый метод, который балансирует эффективность и справедливость в процессе восстановления электроснабжения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод под названием EPOPR (Equity-aware Predict-Then-Optimize Framework for Power Restoration), который состоит из двух ключевых компонентов. Первый компонент — **Equity-Conformalized Quantile Regression (ECQR)**. Этот метод используется для предсказания времени ремонта с учетом неопределенности. Он позволяет создавать прогнозы, которые не только опираются на исторические данные, но и учитывают различия в неопределенности между различными регионами. Это помогает снизить влияние неравномерности данных на качество прогнозов. Второй компонент — **Spatial-Temporal Attentional RL (STARL)**. Этот компонент предназначен для принятия решений с учетом пространственно-временных зависимостей и различий в неопределенности между регионами. STARL адаптируется к изменяющимся уровням неопределенности, что позволяет сделать процесс принимания решений более справедливым. Агент RL использует эти прогнозы для оптимизации процесса восстановления, обеспечивая баланс между эффективностью и справедливостью. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода EPOPR, авторы проводят серию экспериментов на реальных данных. Данные включают информацию о заявках на восстановление электроснабжения и времени ремонта из различных регионов. Результаты показывают, что метод EPOPR уменьшает среднее время отключения электроэнергии на 3.60% по сравнению со стандартными методами. Кроме того, EPOPR снижает несправедливость между различными сообществами на 14.19%, что является значительным улучшением по сравнению с современными подходами. В экспериментах также продемонстрировано, что EPOPR эффективно адаптируется к различиям в неопределенности между регионами, обеспечивая более справедливое распределение ресурсов. Это подтверждает, что метод не только повышает эффективность восстановления, но и создает более справедливую систему для всех сообществ. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод EPOPR имеет широкий спектр применений в области управления энергетическими системами, особенно в ситуациях экстремальных погодных условий. Он может быть использован электроснабжающими компаниями для оптимизации процесса восстановления электроснабжения после катастроф, таких как ураганы или землетрясения. Основными преимуществами EPOPR являются: - **Улучшение эффективности**: Снижение среднего времени отключения электроэнергии. - **Повышение справедливости**: Уменьшение диспаратических различий между сообществами. - **Адаптивность**: Учет пространственно-временных зависимостей и неопределенности. Такой подход может быть важен для повышения устойчивости и справедливости энергетических систем, особенно в регионах с высокой вулнерабельностью к погодным катастрофам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод EPOPR, который обеспечивает баланс между эффективностью и справедливостью в процессе восстановления электроснабжения. Основные достижения включают уменьшение среднего времени отключения и снижение несправедливости между сообществами. В будущем, этот метод может быть расширен для учета других факторов, таких как экономические и социальные аспекты, для еще более комплексного подхода к управлению энергетическими системами. Кроме того, дальнейшие исследования могут фокусироваться на интеграции EPOPR с другими технологиями, такими как искусственный интеллект и IoT, для создания более устойчивых и адаптивных систем энергоснабжения.

Annotation:

The increasing frequency of extreme weather events, such as hurricanes, highlights the urgent need for efficient and equitable power system restoration. Many electricity providers make restoration decisions primarily based on the volume of power restoration requests from each region. However, our data-driven analysis reveals significant disparities in request submission volume, as disadvantaged communities tend to submit fewer restoration requests. This disparity makes the current restoration so...

ID: 2508.04780v1 cs.LG, cs.AI, cs.SI

arXiv PDF

📄 Evaluating the Impact of LLM-guided Reflection on Learning Outcomes with Interactive AI-Generated Educational Podcasts

2025-08-09

Авторы:

Vishnu Menon, Andy Cherney, Elizabeth B. Cloude, Li Zhang, Tiffany D. Do

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современная образовательная сфера переживает трансформацию благодаря интеграции больших языковых моделей (LLM), которые открывают новые возможности для персонализированного обучения. Традиционные методы подачи контента ограничены статическими форматами и недостаточной адаптивностью к индивидуальным потребностям студентов. AI-генерируемые образовательные подкасты представляют собой инновационный подход, объединяющий аудиоформат с динамической генерацией контента на основе LLM. Однако ключевым вопросом остаётся эффективность рефлексии как метакогнитивной стратегии в интерактивных цифровых средах. Существующие исследования показывают противоречивые результаты: некоторые работы демонстрируют положительное влияние рефлексии на долгосрочное запоминание и понимание, в то время как другие указывают на возможное снижение вовлеченности при чрезмерном акценте на метакогнитивные процессы. Проблема усложняется тем, что большинство разработок фокусируется на текстовых интерфейсах, в то время как аудиоформат остаётся недостаточно изученным. Критическая проблема заключается в отсутствии эмпирических данных о том, как LLM-направленные рефлексивные подсказки влияют на восприятие и эффективность обучения в контексте интерактивных подкастов. Это создаёт исследовательский пробел, требующий систематического анализа взаимодействия между технологическими возможностями LLM, психологическими аспектами восприятия аудиоконтента и педагогическими принципами рефлексии. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследователи разработали экспериментальную платформу с двумя версиями интерактивного AI-подкаста по теме "Введение в машинное обучение". Контрольная версия представляла собой линейный подкаст длительностью 12 минут с адаптивной подачей контента на основе предварительного тестирования. Экспериментальная версия включала встроенные LLM-направленные рефлексивные подсказки, активируемые каждые 90-120 секунд. Подсказки формулировались как открытые вопросы типа "Как вы думаете, почему этот алгоритм работает именно так?" или "Как бы вы применили этот принцип в реальной ситуации?". Архитектура системы включала три основных компонента: 1) генеративный модуль на базе GPT-4 для создания образовательного контента и рефлексивных подсказок; 2) модуль адаптации, анализирующий реакцию пользователя (паузы, переслушивание, ответы на подсказки) для динамической настройки темпа подачи; 3) систему сбора аналитики взаимодействия. Рефлексивные подсказки категоризировались на три типа: концептуальные (проверка понимания), применимые (связь с практикой) и метакогнитивные (осознание процесса обучения). Важной особенностью было сохранение естественности аудиоформата - подсказки озвучивались тем же голосом без технических помех. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании принимали участие 36 студентов бакалавриата (средний возраст 20.3 года, 52% женщин) из курса "Основы компьютерных наук". Участники были случайным образом распределены на две группы по 18 человек. Все прошли предварительное тестирование базовых знаний, затем прослушали подкаст, после чего выполнили пост-тест и заполнили опросник пользовательского опыта. Основные метрики включали: 1) точность ответов в пост-тесте (максимум 20 баллов); 2) время, потраченное на обучение; 3) показатели вовлеченности по шкале User Engagement Scale-Short Form. Результаты показали статистически незначимую разницу в обучающих результатах: группа с рефлексивными подсказками набрала в среднем 15.2 балла (SD=2.8), контрольная группа - 14.9 балла (SD=3.1) [t(34)=0.31, p=0.76]. Однако качественные различия проявились в восприятии: экспериментальная группа оценила "привлекательность" подкаста на 3.4/5 против 4.2/5 в контрольной группе [t(34)=-2.8, p=0.008]. Временные затраты были сопоставимы (M=14.7 vs 13.9 минут), но участники с подсказками чаще делали паузы (среднее 4.2 против 1.8). А

Annotation:

This study examined whether embedding LLM-guided reflection prompts in an interactive AI-generated podcast improved learning and user experience compared to a version without prompts. Thirty-six undergraduates participated, and while learning outcomes were similar across conditions, reflection prompts reduced perceived attractiveness, highlighting a call for more research on reflective interactivity design.

ID: 2508.04787v1 cs.HC, cs.AI

arXiv PDF

📄 Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM

2025-08-09

Авторы:

Thomas Thebaud, Yen-Ju Lu, Matthew Wiesner, Peter Viechnicki, Najim Dehak

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах диалоговой транскрипции широко используются технологии обработки естественного языка, в том числе Большие Языковые Модели (Large Language Models, LLMs). Они применяются для улучшения грамматики, пунктуации и читаемости транскриптов. Однако, несмотря на высокую эффективность, существует ряд проблем, связанных с дополнительной обработкой диалоговых данных. Одной из таких проблем является нехватка контекстуальной информации о говорящих, такой как их возраст, пол, эмоциональное состояние и другие характеристики. Данные метаданные могут значительно обогатить транскрипты, облегчить анализ и улучшить понимание контекста. Однако, добавление таких метаданных обычно требует тяжелой работы по их сбору и аннотации, что требует больших вычислительных ресурсов и времени. Кроме того, многие существующие подходы требуют тщательной доработки моделей для конкретных задач, что может быть затратно и трудоемко. Это создает потребность в более эффективном и модульном подходе к добавлению метаданных о говорящих, который мог бы использовать преимущества существующих моделей без необходимости их дополнительного обучения. В данной работе авторы предлагают решение этой проблемы, используя модели, замороженные на определенном этапе (frozen models), для добавления метаданных о говорящих, таких как возраст, пол и эмоциональное состояние. Они используют модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текстовой информации, без необходимости дополнительного обучения этих моделей. Этот подход позволяет сохранить модульность и скорость обработки, одновременно обеспечивая высокую точность в определении характеристик говорящих. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи обогащения диалоговых транскриптов метаданными о говорящих, авторы предлагают использовать модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текста. Основная идея заключается в том, чтобы использовать эти модели в "замороженном" состоянии, т.е. без необходимости их доработки или дополнительного обучения для конкретной задачи. Аудиоданные обрабатываются с помощью Whisper или WavLM для извлечения акустических функций, а затем эти функции передаются в LLAMA для определения метаданных, таких как возраст, пол и эмоциональное состояние. Для связи аудио- и текстовых представлений используются легковесные коннекторы, которые позволяют эффективно передавать информацию между моделями. Это позволяет сохранить модульность системы, т.е. каждая модель может работать независимо, а результаты их работы собираются в единый набор метаданных. Кроме того, авторы демонстрируют, что LLAMA может быть использована для прямого сравнения x-векторов (x-vectors), что позволяет достичь низкого уровня ошибок (Equal Error Rate, EER) в некоторых сценариях. Этот подход имеет несколько преимуществ. Во-первых, он позволяет использовать предобученные модели без необходимости их дополнительного обучения, что существенно снижает вычислительные затраты. Во-вторых, модульная структура позволяет легко добавлять или изменять компоненты системы без необходимости переобучения всей модели. Наконец, этот подход обеспечивает высокую скорость обработки, что делает его пригодным для реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели серию экспериментов на различных наборах данных. Они использовали данные, содержащие диалоги с различными характеристиками говорящих, для тестирования способности моделей определять возраст, пол и эмоциональное состояние. Результаты экспериментов показали, что предложенный метод достигает высокой точности в определении этих характеристик, при этом сохраняя высокую скорость обработки. В частности, авторы показали, что модель LLAMA может быть использована для прямого сравнения x-векторов, достигая Equal Error Rate (EER) в 8.8% в некоторых сценариях. Это говорит о высокой точности модели в определении характеристик говорящих. Кроме того, предложенный метод показал хорошую производительность на различных наборах данных, что подтверждает его универсальность и применимость в различных контекстах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области диалоговой транскрипции и анализа речи. Он может быть использован для обогащения транскриптов метаданными о говорящих, что может быть полезно в таких областях, как анализ эмоций, улучшение качества обслуживания клиентов, а также в области медицинского и психологического консультирования. Одним из ключевых преимуществ этого метода является его модульность и высокая скорость обработки, что делает его пригодным для использования в реальном времени. Кроме того, использование замороженных моделей снижает вычислительные затраты, что делает этот подход более доступным для более широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод для обогащения диалоговых транскриптов метаданными о говорящих, использующий замороженные модели Whisper, WavLM и LLAMA. Этот подход показал высокую точность и скорость обработки, одновременно сохраняя модульность и легковесность системы. В будущем можно рассмотреть возможность дальнейшего улучшения этого метода, в том числе путем интеграции более точных моделей для обработки аудио- и текстовых данных. Кроме того, можно исследовать возможность применения этого подхода к другим областям, таким как анализ социальных интеракций или мониторинг эмоционального состояния в реальном времени.

Annotation:

In dialogue transcription pipelines, Large Language Models (LLMs) are frequently employed in post-processing to improve grammar, punctuation, and readability. We explore a complementary post-processing step: enriching transcribed dialogues by adding metadata tags for speaker characteristics such as age, gender, and emotion. Some of the tags are global to the entire dialogue, while some are time-variant. Our approach couples frozen audio foundation models, such as Whisper or WavLM, with a frozen ...

ID: 2508.04795v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

1
2
1416
1417
1418
1419
1420
1442
1443

Показано 14171 - 14180 из 14425 записей