📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Chiara Mallamaci, Aleksandr Vladimirovich Petrov, Alberto Carlo Maria Mancino, Vito Walter Anelli, Tommaso Di Noia, Craig Macdonald

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные системы рекомендаций музыки сталкиваются с фундаментальной дилеммой между точностью предсказаний и способностью предлагать пользователям новый контент. В музыкальной сфере характерной особенностью является повторное прослушивание - пользователи регулярно возвращаются к уже знакомым композициям, что создает сложности для традиционных рекомендательных систем. Это поведение отражает глубоко укоренившиеся музыкальные предпочтения и эмоциональные связи с конкретными треками. Недавние исследования ввели концепцию Персонализированных Оценок Популярности (Personalised Popularity Scores - PPS), которые количественно измеряют индивидуальные предпочтения пользователей на основе исторической частоты прослушиваний. Хотя PPS значительно улучшает релевантность рекомендаций, метод имеет критический недостаток: он склонен усиливать эффект "фильтрационного пузыря", систематически предлагая пользователям только уже знакомый контент. Это ограничивает способность системы представлять новые или неожиданные музыкальные произведения, которые являются ключевыми факторами долгосрочной вовлеченности пользователя и удовлетворенности от сервиса. Проблема усугубляется масштабом современных музыкальных каталогов, содержащих миллионы треков. Традиционные подходы, работающие на уровне отдельных музыкальных композиций, неэффективно используют скрытые структурные паттерны, присутствующие в музыкальных данных. Например, разные треки могут разделять общие музыкальные элементы - мелодические фразы, ритмические паттерны или характеристики тембра - которые остаются невидимыми при анализе на уровне целых композиций. Это приводит к потере потенциально ценной информации о повторяющихся паттернах предпочтений, которые могли бы быть использованы для более тонкой балансировки между точностью и новизной рекомендаций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный подход к решению описанной проблемы через переосмысление и адаптацию существующей архитектуры RecJPQ - трансформер-ориентированного фреймворка, первоначально разработанного для улучшения масштабируемости рекомендаций в каталогах с большим количеством элементов через декомпозицию на суб-элементы. Ключевая идея состоит в переносе концепции персонализированной популярности с уровня целых музыкальных композиций на более тонкий уровень суб-идентификаторов (sub-IDs), представляющих латентные структурные компоненты музыкальных треков. Методология строится на гипотезе, что повторяющиеся паттерны предпочтений пользователей проявляются не только на уровне целых композиций, но и на уровне более примитивных музыкальных характеристик, закодированных в суб-эмбеддингах. Это позволяет выявлять скрытые связи между различными треками, которые могут быть неочевидны при традиционном анализе, но разделяют общие музыкальные элементы, вызывающие повторное прослушивание. Техническая реализация включает модификацию механизма внимания в архитектуре RecJPQ для учета суб-ID уровневых персонализированных оценок популярности. Это достигается через внедрение специализированного слоя, который динамически корректирует веса внимания на основе исторических паттернов использования суб-элементов. Такой подход обеспечивает явный контроль баланса между точностью рекомендаций и внедрением персонализированной новизны, позволяя систематически регулировать степень эксплорации нового контента в зависимости от контекста и предпочтений конкретного пользователя. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на обширных наборах данных, включающих миллионы взаимодействий пользователей с музыкальным контентом из реальных стриминговых платформ. Исследование использовало стандартные метрики оценки качества рекомендаций, включая Precision@K, Recall@K, NDCG@K для измерения точности, а также специализированные метрики для оценки новизны и серендипитности рекомендаций. Ключевым результатом стало стабильное превосходство предложенного метода sPPS (sub-ID level Personalised Popularity Scores) над традиционным подходом PPS на уровне целых композиций. Конкретно, sPPS продемонстрировал статистически значимое улучшение по метрикам персонализированной нов
Annotation:
In the realm of music recommendation, sequential recommenders have shown promise in capturing the dynamic nature of music consumption. A key characteristic of this domain is repetitive listening, where users frequently replay familiar tracks. To capture these repetition patterns, recent research has introduced Personalised Popularity Scores (PPS), which quantify user-specific preferences based on historical frequency. While PPS enhances relevance in recommendation, it often reinforces already-kn...
ID: 2508.05198v1 cs.IR, cs.AI
Авторы:

Igor Costa, Christopher Baran

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное программное обеспечение сталкивается с критическим вызовом ускоряющейся технологической эволюции, где традиционные подходы разработки не справляются с масштабами и сложностью поддержки устаревающих систем. Легаси-код, написанный на устаревших языках вроде COBOL, CGI, ColdFusion и Lisp, продолжает выполнять критически важные функции в банковской, государственной и корпоративной инфраструктуре, но страдает от отсутствия специалистов, документации и совместимости с современными стандартами безопасности. Параллельно растет технический долг в современных системах, где быстрое добавление новых функций ведет к накоплению архитектурных компромиссов и уязвимостей безопасности. Традиционные методы модернизации, включая ручной рефакторинг и автоматизированные инструменты на основе правил, демонстрируют фундаментальные ограничения. Ручные подходы масштабируются линейно с числом разработчиков и страдают от человеческого фактора, в то время как правило-ориентированные инструменты не способны адаптироваться к контексту и часто нарушают неявные контракты системы. Большие языковые модели (LLM), несмотря на свою мощность, страдают от высоких вычислительных затрат, недостаточной контролируемости и тенденции к "галлюцинациям" при генерации кода, что критично для продакшен-систем. Авторы статьи формулируют концепцию "Software 3.0" как следующий этап эволюции программного обеспечения, где системы становятся способными к непрерывной самоэволюции при сохранении измеримого контроля над качеством и поведением. Ключевая проблема заключается в создании такого механизма эволюции, который мог бы эффективно работать с разнородными артефактами разработки (кодом, документацией, тестами, билдами) при этом оставаясь практически применимым в условиях реальных ограничений производственной среды. ## ПРЕДЛОЖЕННЫЙ МЕТОД EvoGraph представляет собой революционный фреймворк, который реализует принципы эволюционной биологии в контексте разработки программного обеспечения. Основой системы является строго типизированный направленный граф, где каждый узел представляет собой конкретный артефакт разработки - от строк кода и тестов до документации и билд-скриптов. Ребра графа выражают семантические и технические зависимости между артефактами, создавая исчерпывающую модель всей системы. Центральным элементом является набор специализированных малых языковых моделей (SLM), каждая из которых обучена для выполнения конкретного типа мутаций. В отличие от универсальных LLM, эти модели имеют гораздо меньший размер (от 7M до 1B параметров), что обеспечивает 90% экономию вычислительных ресурсов. Каждая SLM реализует набор семантически значимых мутационных операторов, специфичных для конкретного языка программирования или типа артефакта. Например, для COBOL-Java трансформации модель обучена распознавать паттерны бизнес-логики и эквивалентно их переносить в объектно-ориентированную парадигму. Процесс эволюции реализуется через итеративный цикл генерации-отбора-мутации. На каждом поколении система генерирует множество вариантов изменений, применяя мутационные операторы к текущему состоянию графа. Отбор потомков осуществляется на основе многокритериальной функции приспособленности, включающей метрики функциональной эквивалентности (через тесты), производительности, безопасности, читаемости кода и актуальности документации. Особенностью является использование Pareto-оптимизации, позволяющей находить компромиссы между конфликтующими целями. Критически важным является механизм контролируемой эволюции. Система поддерживает "безопасные зоны" изменений, где критические компоненты могут эволюционировать только при наличии полного покрытия тестами и утверждения со стороны человека-оператора. Для поддержания семантической корректности используется продвинутая система формальной верификации и property-based тестирования, что позволяет детектировать нарушения неявных контрактов системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация EvoGraph проводилась на трех ключевых бенчмарках, каждый из которых адресует критически важные аспекты современной
Annotation:
We introduce **EvoGraph**, a framework that enables software systems to evolve their own source code, build pipelines, documentation, and tickets. EvoGraph represents every artefact in a typed directed graph, applies learned mutation operators driven by specialized small language models (SLMs), and selects survivors with a multi-objective fitness. On three benchmarks, EvoGraph fixes 83% of known security vulnerabilities, translates COBOL to Java with 93% functional equivalence (test verified), a...
ID: 2508.05199v1 cs.SE, cs.AI, D.2.2; D.2.7; I.2.2
Авторы:

Mengao Zhang, Jiayu Fu, Tanya Warrier, Yuwen Wang, Tianhui Tan, Ke-wei Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) становятся все более популярными в приложениях, требующих обработку естественного языка. Однако, в финансовой области, где точность и надежность критически важны, проблема галлюцинаций (Hallucination) остается ключевой преградой для их широкого применения. Галлюцинации — это ситуации, когда модель генерирует неточную или фальсифицированную информацию, что может привести к серьезным последствиям в финансовой аналитике. Финансовые приложения требуют высокой точности при работе с табличными данными, особенно теми, которые содержат контекстно-зависимую и часто конфиденциальную информацию. Маленькие цифровые ошибки могут не только подвергнуть сомнению решения, но и нарушить соблюдение регулярных требований. Несмотря на развитие методологий для оценки галлюцинаций в естественном языке, финансовые данные обладают уникальными характеристиками, которые не покрываются существующими стандартами. Авторы статьи подчеркивают необходимость разработки специализированных инструментов для оценки точности LLMs при работе с финансовыми табличными данными. Их работа направлена на создание методологии, которая позволит оценивать интринсические галлюцинации (Intrinsic Hallucinations) — неточности, которые возникают из самой модели, без учета внешних факторов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить проблему галлюцинаций в финансовых LLMs, авторы предлагают новый фреймворк под названием **FAITH** (Framework for Assessing Intrinsic Tabular Hallucinations in finance). Этот фреймворк основывается на маскированной предсказательной модели (Masked Span Prediction) и использует реальные финансовые документы для создания набора данных. FAITH включает в себя следующие ключевые компоненты: 1. **Автоматизированное создание датасета**: Авторы разработали метод маскирования, который позволяет автоматически генерировать данные для оценки точности моделей. Этот подход позволяет создавать реалистичные сценарии, где LLMs должны заполнить пропуски в табличных данных на основе контекста. 2. **Финансовый датасет**: Для оценки был создан датасет на основе годовых отчетов S&P 500. Этот датасет представляет собой коллекцию реальных финансовых документов, которые содержат контекстно-зависимые табличные данные. 3. **Оценка LLMs**: Авторы провели комплексный анализ работы современных LLMs на финансовых данных, оценивая их способность к точной экстракции и вычислению цифровых значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FAITH, авторы провели ряд экспериментов на базе различных моделей LLMs. Эти модели были протестированы на способность к точному извлечению информации из табличных данных. Результаты показали, что существующие модели LLMs часто представляют неточные или неполные данные при работе с финансовыми таблицами. FAITH позволил выявить шаблоны галлюцинаций, которые могут быть связаны с контекстными ошибками или недостатками в моделях. Кроме того, эксперименты показали, что FAITH может быть эффективно использован для оценки различных моделей LLMs, предоставляя инструмент для их сравнения и оптимизации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FAITH предлагает ценный инструмент для финансовых организаций, которые используют LLMs для анализа и обработки данных. Благодаря точной оценке галлюцинаций, финансовые институты могут более надежно использовать генеративные модели AI в своих приложениях. Преимущества FAITH включают: - **Улучшение точности**: Фреймворк позволяет выявлять и исправлять неточности в генерируемых моделями данных. - **Соответствие нормативным требованиям**: Точность в работе с финансовыми данными критически важна для соблюдения нормативных требований. - **Оптимизация LLMs**: FAITH помогает оптимизировать модели, улучшая их надежность и точность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FAITH является важной отправной точкой для развития более надежных и точных финансовых LLMs. Разработанный фреймворк не только позволяет оценивать существующие модели, но и ставит начало для будущих исследований в области генеративного AI в финансовой сфере. В будущем, авторы планируют расширить FAITH для работы с более широким спектром финансовых данных и исследовать методы для автоматического исправления галлюцинаций. Это позволит создавать более надежные и точные финансовые системы на основе генеративного AI.
Annotation:
Hallucination remains a critical challenge for deploying Large Language Models (LLMs) in finance. Accurate extraction and precise calculation from tabular data are essential for reliable financial analysis, since even minor numerical errors can undermine decision-making and regulatory compliance. Financial applications have unique requirements, often relying on context-dependent, numerical, and proprietary tabular data that existing hallucination benchmarks rarely capture. In this study, we deve...
ID: 2508.05201v1 cs.LG, cs.AI, cs.CL
Авторы:

Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие технологий кодирования и сжатия звука является ключевым для эффективной передачи, хранения и воспроизведения аудиоконтента. Существующие методы, такие как традиционные кодеки, хорошо справляются со сжатием низкочастотных монофонических аудиоданных, однако сталкиваются с значительными ограничениями при работе с высококачественным полнополосным стерео-звуком. Требования к качеству воспроизведения, особенно в областях стереофонической музыки и мультиканального аудио, постоянно растут, что создает потребность в более продвинутых решениях. Одной из основных проблем является необходимость достижения высокого качества воспроизведения при ограниченном битрейте, особенно при кодировании мультиканального звука, где необходимо сохранять как высокую тональность каждого канала, так и консистентность фазовой связности между каналами. SpectroStream предлагается как решение для этих проблем. Он расширяет возможности существующих кодеков, таких как SoundStream, предлагая поддержку высоких частот (до 48 kHz) и многоканального аудио, с целью предоставления качественного воспроизведения в условиях ограниченного битрейта. ## ПРЕДЛОЖЕННЫЙ МЕТОД SpectroStream использует нейронную архитектуру, опирающуюся на представление звука во временно-частотной области, что позволяет достичь значительно более высокого качества воспроизведения при работе с высокими частотами дискретизации. Основной новшеством является использование так называемой delayed-fusion стратегии, которая позволяет обрабатывать многоканальный звук. Эта стратегия работает путем отложенного объединения каналов на разных этапах обработки, что позволяет балансировать качество воспроизведения каждого канала и обеспечивать консистентность фазы между ними. Архитектура SpectroStream состоит из нескольких компонентов, включая модуль кодирования временно-частотных представлений, модуль сжатия и декодирования, а также модуль для обработки многоканального звука. Нейронная сеть обучается на данных с высоким битрейтом, что позволяет достичь высокого качества реконструкции при низких битрейтах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить качество SpectroStream по сравнению с другими кодеками. Использовались наборы данных, состоящие из высококачественного стерео-звука с частотой дискретизации 48 kHz. Результаты показали, что SpectroStream достигает высокого качества реконструкции, приближающегося к качеству несжатого аудио, при битрейтах от 4 до 16 kbps. В качестве основных метрик качества были использованы Mean Opinion Score (MOS) и другие субъективные метрики. SpectroStream показал значительно лучшие результаты по сравнению с другими нейронными кодеками, особенно при кодировании мультиканального звука. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SpectroStream имеет широкий спектр применений в различных областях, где высококачественная передача и хранение мультиканального аудио имеют решающее значение. Это может быть применено в стриминговых сервисах, виртуальной и дополненной реальности, телекоммуникационных системах и многих других областях. Преимущества SpectroStream включают в себя высокое качество воспроизведения при низких битрейтах, эффективное кодирование многоканального звука, а также возможность работы с высокими частотами дискретизации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SpectroStream представляет собой значительный шаг вперед в области нейронных кодеков для аудио. Он обеспечивает высокое качество воспроизведения для полнополосного стерео-звука при ограниченных битрейтах, что делает его пригодным для многих практических приложений. В будущем, авторы предлагают расширить модель для поддержки более высоких частот дискретизации и более сложных многоканальных конфигураций. Также представляется интересным исследовать возможность применения других нейронных архитектур и методов оптимизации для дальнейшего улучшения качества.
Annotation:
We propose SpectroStream, a full-band multi-channel neural audio codec. Successor to the well-established SoundStream, SpectroStream extends its capability beyond 24 kHz monophonic audio and enables high-quality reconstruction of 48 kHz stereo music at bit rates of 4--16 kbps. This is accomplished with a new neural architecture that leverages audio representation in the time-frequency domain, which leads to better audio quality especially at higher sample rate. The model also uses a delayed-fusi...
ID: 2508.05207v1 cs.SD, cs.AI, eess.AS
Авторы:

Saddam Hussain Khan

**Резюме:** Точная прогнозирование темпа проходки (ROP) является ключевым фактором для оптимизации бурения, однако его высокая динамичность и многомерность данных существенно усложняют этот процесс. Традиционные модели, включая эмпирические, физико-математические и базовые методы машинного обучения, не могут эффективно учесть сложные временные и контекстуальные зависимости. Для решения этой проблемы предлагается новая гибридная архитектура на основе Long Short-Term Memory (LSTM), Transformer-энкодеров, TS-Mixer блоков и механизмов внимания. Эта модель эффективно моделирует временные зависимости, взаимодействия статических и динамических признаков, а также их контекстуальную значимость. На реальных данных бурения модель достигла R-квадратического коэффициента 0.9988 и средней абсолютной процентной ошибки 1.447%, превосходя базовые модели. Интерпретируемость модели была обеспечена с помощью SHAP и LIME, подтвердив её точность и справедливость. Результаты демонстрируют потенциал этого подхода для реального времени прогнозирования ROP и оптимизации бурения.
Annotation:
The Rate of Penetration (ROP) is crucial for optimizing drilling operations; however, accurately predicting it is hindered by the complex, dynamic, and high-dimensional nature of drilling data. Traditional empirical, physics-based, and basic machine learning models often fail to capture intricate temporal and contextual relationships, resulting in suboptimal predictions and limited real-time utility. To address this gap, we propose a novel hybrid deep learning architecture integrating Long Short...
ID: 2508.05210v1 cs.LG, cs.AI, cs.SY, eess.SY
Авторы:

Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуально-языковое отслеживание представляет собой быстроразвивающееся направление в компьютерном зрении, которое объединяет визуальную информацию из видеопоследовательностей с текстовыми описаниями целевого объекта. Традиционные методы визуального отслеживания сталкиваются с фундаментальной проблемой: они полагаются исключительно на визуальные признаки, что делает их негибкими и подверженными ошибкам при изменении внешнего вида объекта, появлении препятствий или в условиях сложных сцен. Текстовое описание объекта, содержащее семантическую информацию о его характеристиках, может существенно повысить надежность и точность отслеживания в долгосрочной перспективе. Существующие подходы к визуально-языковому отслеживанию страдают от нескольких ключевых ограничений. Первые работы просто объединяли фиксированные языковые описания с визуальными признаками без адаптивной способности реагировать на изменения внешнего вида объекта. Более современные методы используют механизмы внимания для модификации языковых признаков, но они не способны к глубокому пониманию контекста и семантически осмысленному обновлению описаний. Недавние исследования попытались применить генеративные модели для динамического обновления текстовых описаний, однако эти методы оказались "черными ящиками" - они не предоставляют интерпретируемую информацию о процессе принятия решений и не полностью используют потенциал больших языковых моделей. Критическая проблема заключается в отсутствии крупномасштабных долгосрочных бенчмарков для визуально-языкового отслеживания, что затрудняет объективную оценку методов и сравнение различных подходов. Долгосрочное отслеживание особенно сложно, так как требует устойчивости к полным исчезновениям объекта из кадра, его повторному появлению после длительного отсутствия и устойчивости к значительным изменениям внешнего вида. Эти вызовы требуют разработки новых методов, способных к рассуждениям и адаптивному обновлению текстовых описаний на основе накопленной информации о треке. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningTrack представляет собой инновационную рамку для визуально-языкового отслеживания, которая использует pre-trained мультимодальную модель Qwen2.5-VL в качестве основы. Ключевой концепцией является внедрение цепочки рассуждений (Chain-of-Thought) в процесс генерации и обновления текстовых описаний целевого объекта. В отличие от предыдущих работ, которые использовали статические или поверхностно обновляемые языковые признаки, ReasoningTrack динамически генерирует обоснованные текстовые описания, которые адаптируются к изменениям внешнего вида объекта на протяжении всей видеопоследовательности. Архитектура системы состоит из трех основных компонентов: модуля рассуждений на основе языковой модели, унифицированной трекинговой backbone-сети и предсказывающей головки. Модуль рассуждений использует Qwen2.5-VL для генерации последовательных рассуждений о текущем состоянии объекта на основе исторической информации и текущего визуального наблюдения. Эти рассуждения представлены в виде естественного языка и включают анализ изменений внешнего вида, потенциальных причин сбоев в отслеживании и обновленное описание объекта. Генерация текста оптимизируется через два этапа: сначала используется Supervised Fine-Tuning (SFT) для обучения базовой способности к рассуждениям, затем применяется алгоритм GRPO (Group Relative Policy Optimization) из области reinforcement learning для дальнейшего улучшения качества рассуждений и их полезности для задачи отслеживания. Обновленные языковые описания затем эмбедируются и объединяются с визуальными признаками в унифицированной backbone-сети, которая использует механизмы перекрестного внимания для эффективного взаимодействия между модальностями. Конечная трекинговая голова генерирует предсказания границ объекта на основе объединенных мультимодальных признаков. Уникальность подхода заключается в том, что языковые рассуждения не только предоставляют семантическую информацию, но и служат формой внешней памяти, сохраняя контекстуальную информацию о треке на протяжении времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для всесторонней оценки пред
Annotation:
Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however,...
ID: 2508.05221v1 cs.CV, cs.AI, cs.LG
Авторы:

Xueyuan Xu, Wenjia Dong, Fulin Wei, Li Zhuo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область аффективного вычисления, особенно в контексте распознавания эмоций по электроэнцефалографическим (ЭЭГ) сигналам, сталкивается с фундаментальной проблемой высокой размерности и избыточности данных. Электроэнцефалография представляет собой неинвазивный метод регистрации электрической активности мозга, который позволяет получать многоканальные временные ряды в миллисекундном диапазоне. Однако из-за объемных проводящих эффектов внутричерепного пространства (brain volume conduction effects) сигналы, регистрируемые различными электродами, оказываются сильно скоррелированными между собой. Это физиологическое явление приводит к тому, что активность, генерируемая конкретным источником в мозге, распространяется и регистрируется множеством электродов с различной амплитудой, создавая избыточную и избыточную информацию в признаковом пространстве. Существующие подходы к многомерному распознаванию эмоций страдают от нескольких ключевых ограничений. Во-первых, высокоразмерные многоканальные ЭЭГ-признаки содержат значительное количество избыточной и нерелевантной информации, что затрудняет извлечение дискриминативных эмоциональных представлений. Во-вторых, это негативно сказывается на производительности в реальном времени, что критично для практических приложений. Хотя отбор признаков (feature selection) зарекомендовал себя как эффективный подход для решения этих проблем, одновременно повышая прозрачность и интерпретируемость моделей распознавания эмоций, существующие исследования в этой области игнорируют влияние латентных структур ЭЭГ-признаков на корреляции эмоциональных меток. Более того, традиционные методы отбора признаков предполагают равномерную важность различных каналов, что прямо ограничивает точность построения моделей отбора ЭЭГ-признаков для многомерного аффективного вычисления. Это упрощение не учитывает физиологическую реальность, где различные области мозга и соответствующие каналы ЭЭГ имеют различную значимость для распознавания различных эмоциональных состояний. Таким образом, существует критическая необходимость в разработке более изощренных методов отбора признаков, которые учитывали бы как латентные структуры данных, так и индивидуальную значимость каналов для задачи многомерного распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения выявленных проблем авторы предложили инновационный метод CWEFS (Channel-Wise EEG Feature Selection), который представляет собой канал-ориентированный подход к отбору ЭЭГ-признаков для многомерного распознавания эмоций. Метод вдохновлен физиологическим явлением объемной проводимости мозга и интегрирует отбор эмоциональных ЭЭГ-признаков в модель общей латентной структуры, предназначенную для построения консенсусного латентного пространства между различными ЭЭГ-каналами. Архитектура метода включает несколько ключевых компонентов. Первый компонент - это построение общего латентного пространства, которое служит консенсусом между различными каналами ЭЭГ. Это достигается через совместное обучение, где модель учится выявлять общие паттерны, которые сохраняются между каналами несмотря на объемные проводящие эффекты. Вторым важным элементом является сохранение локальной геометрической структуры, что реализуется через интеграцию с латентным семантическим анализом многомерных эмоциональных меток. Это позволяет модели сохранять семантические отношения между различными эмоциональными состояниями в латентном пространстве. Критически важной инновацией является внедрение адаптивного обучения весам каналов (adaptive channel-weight learning), которое автоматически определяет значимость различных ЭЭГ-каналов в задаче отбора эмоциональных признаков. В отличие от существующих методов, которые приписывают одинаковую важность всем каналам, этот механизм позволяет модели динамически выделять каналы, наиболее информативные для конкретной эмоциональной размерности. Алгоритмически это реализуется через итеративный процесс оптимизации, где веса каналов корректируются на основе их вклада в точность предсказания эмоциональных состояний. Метод использует регуляризацию для предотвращения переобучения и обеспечивает спарсность в пространстве признаков,
Annotation:
Due to the intracranial volume conduction effects, high-dimensional multi-channel electroencephalography (EEG) features often contain substantial redundant and irrelevant information. This issue not only hinders the extraction of discriminative emotional representations but also compromises the real-time performance. Feature selection has been established as an effective approach to address the challenges while enhancing the transparency and interpretability of emotion recognition models. Howeve...
ID: 2508.05228v1 cs.HC, cs.AI
Авторы:

Tianze Yu, Junming Zhang, Wenjia Dong, Xueyuan Xu, Li Zhuo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область распознавания многомерных эмоций по электроэнцефалограмме (ЭЭГ) представляет собой одно из наиболее перспективных направлений в разработке систем "человек-компьютер". Современные интерфейсы, способные распознавать эмоциональное состояние пользователя, находят применение в системах адаптивного обучения, ментального здоровья, развлечений и автоматизированного вождения. Однако практическая реализация таких систем сталкивается с фундаментальной проблемой: высокая размерность признаков ЭЭГ (обычно десятки тысяч параметров при частоте дискретизации 256-1000 Гц) при ограниченном количестве обучающих образцов приводит к переобучению классификаторов и чрезмерной вычислительной сложности. Существующие методы отбора признаков для ЭЭГ-данных традиционно предполагают полноту многомерных эмоциональных меток, где каждому образцу соответствуют аннотации по всем измерениям (например, валентность, возбуждение, доминантность). Однако в реальных условиях полная разметка практически недостижима. Открытая среда сбора данных, индивидуальные различия в восприятии эмоций и субъективность эмоциональных реакций приводят к значительным пропускам в разметке. Например, в наборе данных DEAP около 30% участников не смогли корректно оценить все эмоциональные измерения для части стимулов. Существующие подходы к работе с неполными многомерными метками фокусируются на восстановлении пропущенных значений через анализ корреляций между различными эмоциональными измерениями, игнорируя критически важную информацию о взаимосвязях между самими образцами в пространстве меток. Это ограничение существенно снижает точность восстановления меток и, как следствие, качество отбора оптимального подмножества признаков ЭЭГ для задачи многомерного распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают революционный подход ADSEL (Adaptive Dual Self-Expression Learning) - адаптивное двойное самовыражение для отбора признаков при неполных многомерных эмоциональных метках. Метод строится на интеграции адаптивного двойного самовыражения с регрессией наименьших квадратов, создавая двунаправленный канал обмена информацией между процессами самовыражения на уровне образцов и на уровне измерений в пространстве меток. Архитектура метода включает два взаимосвязанных компонента: модуль самовыражения на уровне образцов и модуль самовыражения на уровне измерений. Компонент на уровне образцов моделирует отношения между различными ЭЭГ-записями, используя идею, что эмоциональные состояния схожих испытуемых будут демонстрировать схожие паттерны активации мозга. Компонент на уровне измерений, в свою очередь, захватывает корреляции между различными эмоциональными измерениями, такими как валентность, возбуждение и доминантность, которые известны своей взаимной зависимостью. Ключевой инновацией является механизм адаптивной передачи информации между этими двумя компонентами. Во время обучения, информация, полученная от самовыражения на уровне образцов, используется для уточнения представлений на уровне измерений, и наоборот. Это создает синергетический эффект, где каждый компонент дополняет и усиливает другой. Математически это реализуется через совместную оптимизацию функции потерь, включающей: (1) потерю восстановления для неполных меток, (2) регуляризацию разреженности для отбора признаков, (3) согласование между двумя уровнями самовыражения через адаптивные веса, которые динамически пересчитываются на каждой итерации алгоритма. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширные эксперименты на трех публично доступных наборах данных: DEAP, SEED и DREAMER, каждый из которых представляет собой многомерные ЭЭГ-данные с эмоциональной разметкой. Для моделирования реалистичных условий неполной разметки, исследователи синтетически создавали пропуски в метках с различными уровнями неполноты (от 10% до 70% пропущенных значений). Сравнительный анализ включал 8 современных методов отбора признаков, включая LASSO, Elastic Net, MCAR (Matrix Completion
Annotation:
EEG based multi-dimension emotion recognition has attracted substantial research interest in human computer interfaces. However, the high dimensionality of EEG features, coupled with limited sample sizes, frequently leads to classifier overfitting and high computational complexity. Feature selection constitutes a critical strategy for mitigating these challenges. Most existing EEG feature selection methods assume complete multi-dimensional emotion labels. In practice, open acquisition environmen...
ID: 2508.05229v1 cs.HC, cs.AI
Авторы:

Wenjia Dong, Xueyuan Xu, Tianze Yu, Junming Zhang, Li Zhuo

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций на основе электроэнцефалограмм (ЭЭГ) представляет собой ключевой инструмент в области аффективного вычисления и интерфейсов мозг-компьютер. Однако практическое применение ЭЭГ часто сталкивается с проблемой физиологических артефактов, таких как движения мышц или помехи электрических приборов, которые серьезно искажают сигналы. Традиционные подходы к решению этой проблемы разделяют задачи денойзинга (удаление артефактов) и распознавания эмоций, используя каскадные архитектуры. Однако этот подход имеет ряд недостатков: он приводит к накоплению ошибок и не использует потенциальные синергии между этими задачами. Кроме того, многие существующие модели распознавания эмоций основываются на предположении о "идеально очищенных данных", что не отражает реальных условий. Недостаточное внимание к робастности к шумам ограничивает эффективность этих моделей в реальных приложениях. Эти вызовы подчеркивают необходимость разработки комплексного подхода, который бы глубоко интегрировал задачи денойзинга и классификации эмоций для повышения точности и надежности системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем предлагается FDC-Net (Feedback-Driven Collaborative Network for Denoising-Classification Nexus). Этот подход инновационен тем, что объединяет задачи денойзинга и классификации в единый конечно-этапный рабочий процесс. Основные компоненты FDC-Net включают: 1. **Бидирекциональная градиентная пропаганда и совместная оптимизация**. Это позволяет модели делиться информацией между задачами денойзинга и классификации, обеспечивая лучшую координацию. 2. **Гейттированный механизм внимания с частотно-адаптивным Трансформером**. Использование частотно-адаптивного кодирования позиций помогает модели эффективно обрабатывать многомерные ЭЭГ-данные, улучшая как денойзинг, так и классификацию. FDC-Net также включает механизмы адаптивного обучения, которые позволяют модели динамически адаптироваться к изменяющимся характеристикам данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FDC-Net проведены эксперименты на двух популярных наборах данных: DEAP и DREAMER. На DEAP FDC-Net достигает коэффициента корреляции (CC) в 96,30% для задачи денойзинга и точности распознавания эмоций в 82,3+7,1%. На DREAMER CC достигает 90,31%, а точность распознавания эмоций — 88,1+0,8%. Эти результаты показывают высокую эффективность FDC-Net по сравнению со стандартными подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FDC-Net может быть применен в различных областях, включая медицинские диагностики, мониторинг психофизиологического состояния и разработку интерфейсов мозг-компьютер. Его робастность к артефактам и высокая точность делают его пригодным для реального времени и практических приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FDC-Net является значительным шагом вперед в области эмоционального распознавания на основе ЭЭГ. Будущие исследования могут сосредоточиться на дальнейшем улучшении архитектуры и расширении его применимости к другим типам данных и задач.
Annotation:
Electroencephalogram (EEG)-based emotion recognition holds significant value in affective computing and brain-computer interfaces. However, in practical applications, EEG recordings are susceptible to the effects of various physiological artifacts. Current approaches typically treat denoising and emotion recognition as independent tasks using cascaded architectures, which not only leads to error accumulation, but also fails to exploit potential synergies between these tasks. Moreover, convention...
ID: 2508.05231v1 cs.HC, cs.AI
Авторы:

Haonan Shangguan, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Ge Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные социальные сети стали мощным генератором мультимодального контента, объединяющего текст, изображения, аудио и видео. Это стимулировало активное развитие области Мультимодального Сентимент-Анализа (MSA) - технологии автоматического определения эмоциональной окраски контента на основе анализа нескольких типов данных одновременно. Большие языковые модели (LLM) значительно ускорили прогресс в этой области, предоставляя доступ к обширным знаниям и продвинутым возможностям рассуждения. Однако существующие подходы сталкиваются с критическим противоречием. Большинство современных решений полагаются на тяжеловесные многомодальные LLM (MLLM) с миллиардами параметров для классификации сентимента. Эти модели требуют значительных вычислительных ресурсов, включая мощные GPU и большие объемы оперативной памяти, что делает их непригодными для развертывания в условиях ограниченных ресурсов - например, на мобильных устройствах, встроенных системах или edge-вычислениях. Критическая проблема заключается в том, что существующие методы игнорируют необходимость автономной генерации мультимодальных сентимент-рассуждений в условиях ресурсных ограничений. Традиционные подходы либо полностью опускают этап рассуждения, либо выполняют его на стороне мощных серверов. Это приводит к "черному ящику" классификации, где пользователи получают результат без объяснения логики принятия решений, что критично для многих практических приложений, включая медиа-мониторинг, финансовый анализ и системы поддержки принятия решений. Авторы статьи формулируют новую задачу - Joint Multimodal Sentiment Reasoning and Classification (JMSRC), которая требует одновременной генерации цепочек мультимодальных сентимент-рассуждений и классификации сентимента с использованием только легковесной модели. Это представляет собой значительное отклонение от существующих практик и требует разработки принципиально новых методов, способных сжать знания и способности к рассуждению из тяжеловесных MLLM в компактные модели без критической потери качества. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи JMSRC авторы предлагают инновационную модель MulCoT-RD (Multimodal Chain-of-Thought Reasoning Distillation), основанную на парадигме дистилляции знаний "Учитель-Ассистент-Студент". Эта трехуровневая архитектура специально разработана для преодоления ограничений развертывания в условиях ограниченных ресурсов. На верхнем уровне используется высокопроизводительная многомодальная большая языковая модель (MLLM) в качестве "Учителя". Эта модель с миллиардами параметров используется для генерации первоначального датасета цепочек рассуждений (Chain-of-Thought), где каждый пример включает не только исходные мультимодальные данные и правильную метку сентимента, но также подробное пошаговое обоснование, объясняющее, как различные модальности (текст, изображения, аудио) вносят вклад в финальное решение. Средний уровень представлен моделью-"Ассистентом" среднего размера, которая обучается с использованием механизма мультизадачного обучения. Ассистент одновременно учится выполнять две задачи: генерацию цепочек рассуждений, мимикрируя поведение Учителя, и классификацию сентимента. Это обеспечивает плавный переход от абстрактных рассуждений тяжеловесной модели к более конкретным и применимым к легковесным архитектурам паттернам. Ключевым элементом является "Студент" - легковесная модель с всего 3 миллиардами параметров, которая проходит совместное обучение для эффективной генерации мультимодальных сентимент-рассуждений и классификации. Студент использует технику дистилляции знаний не только для переноса предсказательной способности, но и для сохранения способности к рассуждению. Архитектура включает специализированные механизмы внимания для обработки различных модальностей и кросс-модальную интеграцию, позволяющую эффективно объединять информацию из текстовых, визуальных и аудио источников. Процесс обучения включает несколько этапов: инициализация через дистилляцию от Ассистента, мультизадачное обучение с балансировкой между генерацией рассуждений и классификацией, а также дообучение на целевых данных каждого конкретного датасета. Это обеспечивает высок
Annotation:
The surge in rich multimodal content on social media platforms has greatly advanced Multimodal Sentiment Analysis (MSA), with Large Language Models (LLMs) further accelerating progress in this field. Current approaches primarily leverage the knowledge and reasoning capabilities of parameter-heavy (Multimodal) LLMs for sentiment classification, overlooking autonomous multimodal sentiment reasoning generation in resource-constrained environments. Therefore, we focus on the Resource-Limited Joint M...
ID: 2508.05234v1 cs.CL, cs.AI
Показано 33841 - 33850 из 34022 записей