📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SpectroStream: A Versatile Neural Codec for General Audio

2025-08-09

Авторы:

Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие технологий кодирования и сжатия звука является ключевым для эффективной передачи, хранения и воспроизведения аудиоконтента. Существующие методы, такие как традиционные кодеки, хорошо справляются со сжатием низкочастотных монофонических аудиоданных, однако сталкиваются с значительными ограничениями при работе с высококачественным полнополосным стерео-звуком. Требования к качеству воспроизведения, особенно в областях стереофонической музыки и мультиканального аудио, постоянно растут, что создает потребность в более продвинутых решениях. Одной из основных проблем является необходимость достижения высокого качества воспроизведения при ограниченном битрейте, особенно при кодировании мультиканального звука, где необходимо сохранять как высокую тональность каждого канала, так и консистентность фазовой связности между каналами. SpectroStream предлагается как решение для этих проблем. Он расширяет возможности существующих кодеков, таких как SoundStream, предлагая поддержку высоких частот (до 48 kHz) и многоканального аудио, с целью предоставления качественного воспроизведения в условиях ограниченного битрейта. ## ПРЕДЛОЖЕННЫЙ МЕТОД SpectroStream использует нейронную архитектуру, опирающуюся на представление звука во временно-частотной области, что позволяет достичь значительно более высокого качества воспроизведения при работе с высокими частотами дискретизации. Основной новшеством является использование так называемой delayed-fusion стратегии, которая позволяет обрабатывать многоканальный звук. Эта стратегия работает путем отложенного объединения каналов на разных этапах обработки, что позволяет балансировать качество воспроизведения каждого канала и обеспечивать консистентность фазы между ними. Архитектура SpectroStream состоит из нескольких компонентов, включая модуль кодирования временно-частотных представлений, модуль сжатия и декодирования, а также модуль для обработки многоканального звука. Нейронная сеть обучается на данных с высоким битрейтом, что позволяет достичь высокого качества реконструкции при низких битрейтах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить качество SpectroStream по сравнению с другими кодеками. Использовались наборы данных, состоящие из высококачественного стерео-звука с частотой дискретизации 48 kHz. Результаты показали, что SpectroStream достигает высокого качества реконструкции, приближающегося к качеству несжатого аудио, при битрейтах от 4 до 16 kbps. В качестве основных метрик качества были использованы Mean Opinion Score (MOS) и другие субъективные метрики. SpectroStream показал значительно лучшие результаты по сравнению с другими нейронными кодеками, особенно при кодировании мультиканального звука. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SpectroStream имеет широкий спектр применений в различных областях, где высококачественная передача и хранение мультиканального аудио имеют решающее значение. Это может быть применено в стриминговых сервисах, виртуальной и дополненной реальности, телекоммуникационных системах и многих других областях. Преимущества SpectroStream включают в себя высокое качество воспроизведения при низких битрейтах, эффективное кодирование многоканального звука, а также возможность работы с высокими частотами дискретизации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SpectroStream представляет собой значительный шаг вперед в области нейронных кодеков для аудио. Он обеспечивает высокое качество воспроизведения для полнополосного стерео-звука при ограниченных битрейтах, что делает его пригодным для многих практических приложений. В будущем, авторы предлагают расширить модель для поддержки более высоких частот дискретизации и более сложных многоканальных конфигураций. Также представляется интересным исследовать возможность применения других нейронных архитектур и методов оптимизации для дальнейшего улучшения качества.

Annotation:

We propose SpectroStream, a full-band multi-channel neural audio codec. Successor to the well-established SoundStream, SpectroStream extends its capability beyond 24 kHz monophonic audio and enables high-quality reconstruction of 48 kHz stereo music at bit rates of 4--16 kbps. This is accomplished with a new neural architecture that leverages audio representation in the time-frequency domain, which leads to better audio quality especially at higher sample rate. The model also uses a delayed-fusi...

ID: 2508.05207v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Advanced Hybrid Transformer LSTM Technique with Attention and TS Mixer for Drilling Rate of Penetration Prediction

2025-08-09

Авторы:

Saddam Hussain Khan

**Резюме:** Точная прогнозирование темпа проходки (ROP) является ключевым фактором для оптимизации бурения, однако его высокая динамичность и многомерность данных существенно усложняют этот процесс. Традиционные модели, включая эмпирические, физико-математические и базовые методы машинного обучения, не могут эффективно учесть сложные временные и контекстуальные зависимости. Для решения этой проблемы предлагается новая гибридная архитектура на основе Long Short-Term Memory (LSTM), Transformer-энкодеров, TS-Mixer блоков и механизмов внимания. Эта модель эффективно моделирует временные зависимости, взаимодействия статических и динамических признаков, а также их контекстуальную значимость. На реальных данных бурения модель достигла R-квадратического коэффициента 0.9988 и средней абсолютной процентной ошибки 1.447%, превосходя базовые модели. Интерпретируемость модели была обеспечена с помощью SHAP и LIME, подтвердив её точность и справедливость. Результаты демонстрируют потенциал этого подхода для реального времени прогнозирования ROP и оптимизации бурения.

Annotation:

The Rate of Penetration (ROP) is crucial for optimizing drilling operations; however, accurately predicting it is hindered by the complex, dynamic, and high-dimensional nature of drilling data. Traditional empirical, physics-based, and basic machine learning models often fail to capture intricate temporal and contextual relationships, resulting in suboptimal predictions and limited real-time utility. To address this gap, we propose a novel hybrid deep learning architecture integrating Long Short...

ID: 2508.05210v1 cs.LG, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking

2025-08-09

Авторы:

Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуально-языковое отслеживание представляет собой быстроразвивающееся направление в компьютерном зрении, которое объединяет визуальную информацию из видеопоследовательностей с текстовыми описаниями целевого объекта. Традиционные методы визуального отслеживания сталкиваются с фундаментальной проблемой: они полагаются исключительно на визуальные признаки, что делает их негибкими и подверженными ошибкам при изменении внешнего вида объекта, появлении препятствий или в условиях сложных сцен. Текстовое описание объекта, содержащее семантическую информацию о его характеристиках, может существенно повысить надежность и точность отслеживания в долгосрочной перспективе. Существующие подходы к визуально-языковому отслеживанию страдают от нескольких ключевых ограничений. Первые работы просто объединяли фиксированные языковые описания с визуальными признаками без адаптивной способности реагировать на изменения внешнего вида объекта. Более современные методы используют механизмы внимания для модификации языковых признаков, но они не способны к глубокому пониманию контекста и семантически осмысленному обновлению описаний. Недавние исследования попытались применить генеративные модели для динамического обновления текстовых описаний, однако эти методы оказались "черными ящиками" - они не предоставляют интерпретируемую информацию о процессе принятия решений и не полностью используют потенциал больших языковых моделей. Критическая проблема заключается в отсутствии крупномасштабных долгосрочных бенчмарков для визуально-языкового отслеживания, что затрудняет объективную оценку методов и сравнение различных подходов. Долгосрочное отслеживание особенно сложно, так как требует устойчивости к полным исчезновениям объекта из кадра, его повторному появлению после длительного отсутствия и устойчивости к значительным изменениям внешнего вида. Эти вызовы требуют разработки новых методов, способных к рассуждениям и адаптивному обновлению текстовых описаний на основе накопленной информации о треке. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningTrack представляет собой инновационную рамку для визуально-языкового отслеживания, которая использует pre-trained мультимодальную модель Qwen2.5-VL в качестве основы. Ключевой концепцией является внедрение цепочки рассуждений (Chain-of-Thought) в процесс генерации и обновления текстовых описаний целевого объекта. В отличие от предыдущих работ, которые использовали статические или поверхностно обновляемые языковые признаки, ReasoningTrack динамически генерирует обоснованные текстовые описания, которые адаптируются к изменениям внешнего вида объекта на протяжении всей видеопоследовательности. Архитектура системы состоит из трех основных компонентов: модуля рассуждений на основе языковой модели, унифицированной трекинговой backbone-сети и предсказывающей головки. Модуль рассуждений использует Qwen2.5-VL для генерации последовательных рассуждений о текущем состоянии объекта на основе исторической информации и текущего визуального наблюдения. Эти рассуждения представлены в виде естественного языка и включают анализ изменений внешнего вида, потенциальных причин сбоев в отслеживании и обновленное описание объекта. Генерация текста оптимизируется через два этапа: сначала используется Supervised Fine-Tuning (SFT) для обучения базовой способности к рассуждениям, затем применяется алгоритм GRPO (Group Relative Policy Optimization) из области reinforcement learning для дальнейшего улучшения качества рассуждений и их полезности для задачи отслеживания. Обновленные языковые описания затем эмбедируются и объединяются с визуальными признаками в унифицированной backbone-сети, которая использует механизмы перекрестного внимания для эффективного взаимодействия между модальностями. Конечная трекинговая голова генерирует предсказания границ объекта на основе объединенных мультимодальных признаков. Уникальность подхода заключается в том, что языковые рассуждения не только предоставляют семантическую информацию, но и служат формой внешней памяти, сохраняя контекстуальную информацию о треке на протяжении времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для всесторонней оценки пред

Annotation:

Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however,...

ID: 2508.05221v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CWEFS: Brain volume conduction effects inspired channel-wise EEG feature selection for multi-dimensional emotion recognition

2025-08-09

Авторы:

Xueyuan Xu, Wenjia Dong, Fulin Wei, Li Zhuo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область аффективного вычисления, особенно в контексте распознавания эмоций по электроэнцефалографическим (ЭЭГ) сигналам, сталкивается с фундаментальной проблемой высокой размерности и избыточности данных. Электроэнцефалография представляет собой неинвазивный метод регистрации электрической активности мозга, который позволяет получать многоканальные временные ряды в миллисекундном диапазоне. Однако из-за объемных проводящих эффектов внутричерепного пространства (brain volume conduction effects) сигналы, регистрируемые различными электродами, оказываются сильно скоррелированными между собой. Это физиологическое явление приводит к тому, что активность, генерируемая конкретным источником в мозге, распространяется и регистрируется множеством электродов с различной амплитудой, создавая избыточную и избыточную информацию в признаковом пространстве. Существующие подходы к многомерному распознаванию эмоций страдают от нескольких ключевых ограничений. Во-первых, высокоразмерные многоканальные ЭЭГ-признаки содержат значительное количество избыточной и нерелевантной информации, что затрудняет извлечение дискриминативных эмоциональных представлений. Во-вторых, это негативно сказывается на производительности в реальном времени, что критично для практических приложений. Хотя отбор признаков (feature selection) зарекомендовал себя как эффективный подход для решения этих проблем, одновременно повышая прозрачность и интерпретируемость моделей распознавания эмоций, существующие исследования в этой области игнорируют влияние латентных структур ЭЭГ-признаков на корреляции эмоциональных меток. Более того, традиционные методы отбора признаков предполагают равномерную важность различных каналов, что прямо ограничивает точность построения моделей отбора ЭЭГ-признаков для многомерного аффективного вычисления. Это упрощение не учитывает физиологическую реальность, где различные области мозга и соответствующие каналы ЭЭГ имеют различную значимость для распознавания различных эмоциональных состояний. Таким образом, существует критическая необходимость в разработке более изощренных методов отбора признаков, которые учитывали бы как латентные структуры данных, так и индивидуальную значимость каналов для задачи многомерного распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения выявленных проблем авторы предложили инновационный метод CWEFS (Channel-Wise EEG Feature Selection), который представляет собой канал-ориентированный подход к отбору ЭЭГ-признаков для многомерного распознавания эмоций. Метод вдохновлен физиологическим явлением объемной проводимости мозга и интегрирует отбор эмоциональных ЭЭГ-признаков в модель общей латентной структуры, предназначенную для построения консенсусного латентного пространства между различными ЭЭГ-каналами. Архитектура метода включает несколько ключевых компонентов. Первый компонент - это построение общего латентного пространства, которое служит консенсусом между различными каналами ЭЭГ. Это достигается через совместное обучение, где модель учится выявлять общие паттерны, которые сохраняются между каналами несмотря на объемные проводящие эффекты. Вторым важным элементом является сохранение локальной геометрической структуры, что реализуется через интеграцию с латентным семантическим анализом многомерных эмоциональных меток. Это позволяет модели сохранять семантические отношения между различными эмоциональными состояниями в латентном пространстве. Критически важной инновацией является внедрение адаптивного обучения весам каналов (adaptive channel-weight learning), которое автоматически определяет значимость различных ЭЭГ-каналов в задаче отбора эмоциональных признаков. В отличие от существующих методов, которые приписывают одинаковую важность всем каналам, этот механизм позволяет модели динамически выделять каналы, наиболее информативные для конкретной эмоциональной размерности. Алгоритмически это реализуется через итеративный процесс оптимизации, где веса каналов корректируются на основе их вклада в точность предсказания эмоциональных состояний. Метод использует регуляризацию для предотвращения переобучения и обеспечивает спарсность в пространстве признаков,

Annotation:

Due to the intracranial volume conduction effects, high-dimensional multi-channel electroencephalography (EEG) features often contain substantial redundant and irrelevant information. This issue not only hinders the extraction of discriminative emotional representations but also compromises the real-time performance. Feature selection has been established as an effective approach to address the challenges while enhancing the transparency and interpretability of emotion recognition models. Howeve...

ID: 2508.05228v1 cs.HC, cs.AI

arXiv PDF

📄 ADSEL: Adaptive dual self-expression learning for EEG feature selection via incomplete multi-dimensional emotional tagging

2025-08-09

Авторы:

Tianze Yu, Junming Zhang, Wenjia Dong, Xueyuan Xu, Li Zhuo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область распознавания многомерных эмоций по электроэнцефалограмме (ЭЭГ) представляет собой одно из наиболее перспективных направлений в разработке систем "человек-компьютер". Современные интерфейсы, способные распознавать эмоциональное состояние пользователя, находят применение в системах адаптивного обучения, ментального здоровья, развлечений и автоматизированного вождения. Однако практическая реализация таких систем сталкивается с фундаментальной проблемой: высокая размерность признаков ЭЭГ (обычно десятки тысяч параметров при частоте дискретизации 256-1000 Гц) при ограниченном количестве обучающих образцов приводит к переобучению классификаторов и чрезмерной вычислительной сложности. Существующие методы отбора признаков для ЭЭГ-данных традиционно предполагают полноту многомерных эмоциональных меток, где каждому образцу соответствуют аннотации по всем измерениям (например, валентность, возбуждение, доминантность). Однако в реальных условиях полная разметка практически недостижима. Открытая среда сбора данных, индивидуальные различия в восприятии эмоций и субъективность эмоциональных реакций приводят к значительным пропускам в разметке. Например, в наборе данных DEAP около 30% участников не смогли корректно оценить все эмоциональные измерения для части стимулов. Существующие подходы к работе с неполными многомерными метками фокусируются на восстановлении пропущенных значений через анализ корреляций между различными эмоциональными измерениями, игнорируя критически важную информацию о взаимосвязях между самими образцами в пространстве меток. Это ограничение существенно снижает точность восстановления меток и, как следствие, качество отбора оптимального подмножества признаков ЭЭГ для задачи многомерного распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают революционный подход ADSEL (Adaptive Dual Self-Expression Learning) - адаптивное двойное самовыражение для отбора признаков при неполных многомерных эмоциональных метках. Метод строится на интеграции адаптивного двойного самовыражения с регрессией наименьших квадратов, создавая двунаправленный канал обмена информацией между процессами самовыражения на уровне образцов и на уровне измерений в пространстве меток. Архитектура метода включает два взаимосвязанных компонента: модуль самовыражения на уровне образцов и модуль самовыражения на уровне измерений. Компонент на уровне образцов моделирует отношения между различными ЭЭГ-записями, используя идею, что эмоциональные состояния схожих испытуемых будут демонстрировать схожие паттерны активации мозга. Компонент на уровне измерений, в свою очередь, захватывает корреляции между различными эмоциональными измерениями, такими как валентность, возбуждение и доминантность, которые известны своей взаимной зависимостью. Ключевой инновацией является механизм адаптивной передачи информации между этими двумя компонентами. Во время обучения, информация, полученная от самовыражения на уровне образцов, используется для уточнения представлений на уровне измерений, и наоборот. Это создает синергетический эффект, где каждый компонент дополняет и усиливает другой. Математически это реализуется через совместную оптимизацию функции потерь, включающей: (1) потерю восстановления для неполных меток, (2) регуляризацию разреженности для отбора признаков, (3) согласование между двумя уровнями самовыражения через адаптивные веса, которые динамически пересчитываются на каждой итерации алгоритма. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширные эксперименты на трех публично доступных наборах данных: DEAP, SEED и DREAMER, каждый из которых представляет собой многомерные ЭЭГ-данные с эмоциональной разметкой. Для моделирования реалистичных условий неполной разметки, исследователи синтетически создавали пропуски в метках с различными уровнями неполноты (от 10% до 70% пропущенных значений). Сравнительный анализ включал 8 современных методов отбора признаков, включая LASSO, Elastic Net, MCAR (Matrix Completion

Annotation:

EEG based multi-dimension emotion recognition has attracted substantial research interest in human computer interfaces. However, the high dimensionality of EEG features, coupled with limited sample sizes, frequently leads to classifier overfitting and high computational complexity. Feature selection constitutes a critical strategy for mitigating these challenges. Most existing EEG feature selection methods assume complete multi-dimensional emotion labels. In practice, open acquisition environmen...

ID: 2508.05229v1 cs.HC, cs.AI

arXiv PDF

📄 FDC-Net: Rethinking the association between EEG artifact removal and multi-dimensional affective computing

2025-08-09

Авторы:

Wenjia Dong, Xueyuan Xu, Tianze Yu, Junming Zhang, Li Zhuo

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций на основе электроэнцефалограмм (ЭЭГ) представляет собой ключевой инструмент в области аффективного вычисления и интерфейсов мозг-компьютер. Однако практическое применение ЭЭГ часто сталкивается с проблемой физиологических артефактов, таких как движения мышц или помехи электрических приборов, которые серьезно искажают сигналы. Традиционные подходы к решению этой проблемы разделяют задачи денойзинга (удаление артефактов) и распознавания эмоций, используя каскадные архитектуры. Однако этот подход имеет ряд недостатков: он приводит к накоплению ошибок и не использует потенциальные синергии между этими задачами. Кроме того, многие существующие модели распознавания эмоций основываются на предположении о "идеально очищенных данных", что не отражает реальных условий. Недостаточное внимание к робастности к шумам ограничивает эффективность этих моделей в реальных приложениях. Эти вызовы подчеркивают необходимость разработки комплексного подхода, который бы глубоко интегрировал задачи денойзинга и классификации эмоций для повышения точности и надежности системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем предлагается FDC-Net (Feedback-Driven Collaborative Network for Denoising-Classification Nexus). Этот подход инновационен тем, что объединяет задачи денойзинга и классификации в единый конечно-этапный рабочий процесс. Основные компоненты FDC-Net включают: 1. **Бидирекциональная градиентная пропаганда и совместная оптимизация**. Это позволяет модели делиться информацией между задачами денойзинга и классификации, обеспечивая лучшую координацию. 2. **Гейттированный механизм внимания с частотно-адаптивным Трансформером**. Использование частотно-адаптивного кодирования позиций помогает модели эффективно обрабатывать многомерные ЭЭГ-данные, улучшая как денойзинг, так и классификацию. FDC-Net также включает механизмы адаптивного обучения, которые позволяют модели динамически адаптироваться к изменяющимся характеристикам данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FDC-Net проведены эксперименты на двух популярных наборах данных: DEAP и DREAMER. На DEAP FDC-Net достигает коэффициента корреляции (CC) в 96,30% для задачи денойзинга и точности распознавания эмоций в 82,3+7,1%. На DREAMER CC достигает 90,31%, а точность распознавания эмоций — 88,1+0,8%. Эти результаты показывают высокую эффективность FDC-Net по сравнению со стандартными подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FDC-Net может быть применен в различных областях, включая медицинские диагностики, мониторинг психофизиологического состояния и разработку интерфейсов мозг-компьютер. Его робастность к артефактам и высокая точность делают его пригодным для реального времени и практических приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FDC-Net является значительным шагом вперед в области эмоционального распознавания на основе ЭЭГ. Будущие исследования могут сосредоточиться на дальнейшем улучшении архитектуры и расширении его применимости к другим типам данных и задач.

Annotation:

Electroencephalogram (EEG)-based emotion recognition holds significant value in affective computing and brain-computer interfaces. However, in practical applications, EEG recordings are susceptible to the effects of various physiological artifacts. Current approaches typically treat denoising and emotion recognition as independent tasks using cascaded architectures, which not only leads to error accumulation, but also fails to exploit potential synergies between these tasks. Moreover, convention...

ID: 2508.05231v1 cs.HC, cs.AI

arXiv PDF

📄 Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation

2025-08-09

Авторы:

Haonan Shangguan, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Ge Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные социальные сети стали мощным генератором мультимодального контента, объединяющего текст, изображения, аудио и видео. Это стимулировало активное развитие области Мультимодального Сентимент-Анализа (MSA) - технологии автоматического определения эмоциональной окраски контента на основе анализа нескольких типов данных одновременно. Большие языковые модели (LLM) значительно ускорили прогресс в этой области, предоставляя доступ к обширным знаниям и продвинутым возможностям рассуждения. Однако существующие подходы сталкиваются с критическим противоречием. Большинство современных решений полагаются на тяжеловесные многомодальные LLM (MLLM) с миллиардами параметров для классификации сентимента. Эти модели требуют значительных вычислительных ресурсов, включая мощные GPU и большие объемы оперативной памяти, что делает их непригодными для развертывания в условиях ограниченных ресурсов - например, на мобильных устройствах, встроенных системах или edge-вычислениях. Критическая проблема заключается в том, что существующие методы игнорируют необходимость автономной генерации мультимодальных сентимент-рассуждений в условиях ресурсных ограничений. Традиционные подходы либо полностью опускают этап рассуждения, либо выполняют его на стороне мощных серверов. Это приводит к "черному ящику" классификации, где пользователи получают результат без объяснения логики принятия решений, что критично для многих практических приложений, включая медиа-мониторинг, финансовый анализ и системы поддержки принятия решений. Авторы статьи формулируют новую задачу - Joint Multimodal Sentiment Reasoning and Classification (JMSRC), которая требует одновременной генерации цепочек мультимодальных сентимент-рассуждений и классификации сентимента с использованием только легковесной модели. Это представляет собой значительное отклонение от существующих практик и требует разработки принципиально новых методов, способных сжать знания и способности к рассуждению из тяжеловесных MLLM в компактные модели без критической потери качества. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи JMSRC авторы предлагают инновационную модель MulCoT-RD (Multimodal Chain-of-Thought Reasoning Distillation), основанную на парадигме дистилляции знаний "Учитель-Ассистент-Студент". Эта трехуровневая архитектура специально разработана для преодоления ограничений развертывания в условиях ограниченных ресурсов. На верхнем уровне используется высокопроизводительная многомодальная большая языковая модель (MLLM) в качестве "Учителя". Эта модель с миллиардами параметров используется для генерации первоначального датасета цепочек рассуждений (Chain-of-Thought), где каждый пример включает не только исходные мультимодальные данные и правильную метку сентимента, но также подробное пошаговое обоснование, объясняющее, как различные модальности (текст, изображения, аудио) вносят вклад в финальное решение. Средний уровень представлен моделью-"Ассистентом" среднего размера, которая обучается с использованием механизма мультизадачного обучения. Ассистент одновременно учится выполнять две задачи: генерацию цепочек рассуждений, мимикрируя поведение Учителя, и классификацию сентимента. Это обеспечивает плавный переход от абстрактных рассуждений тяжеловесной модели к более конкретным и применимым к легковесным архитектурам паттернам. Ключевым элементом является "Студент" - легковесная модель с всего 3 миллиардами параметров, которая проходит совместное обучение для эффективной генерации мультимодальных сентимент-рассуждений и классификации. Студент использует технику дистилляции знаний не только для переноса предсказательной способности, но и для сохранения способности к рассуждению. Архитектура включает специализированные механизмы внимания для обработки различных модальностей и кросс-модальную интеграцию, позволяющую эффективно объединять информацию из текстовых, визуальных и аудио источников. Процесс обучения включает несколько этапов: инициализация через дистилляцию от Ассистента, мультизадачное обучение с балансировкой между генерацией рассуждений и классификацией, а также дообучение на целевых данных каждого конкретного датасета. Это обеспечивает высок

Annotation:

The surge in rich multimodal content on social media platforms has greatly advanced Multimodal Sentiment Analysis (MSA), with Large Language Models (LLMs) further accelerating progress in this field. Current approaches primarily leverage the knowledge and reasoning capabilities of parameter-heavy (Multimodal) LLMs for sentiment classification, overlooking autonomous multimodal sentiment reasoning generation in resource-constrained environments. Therefore, we focus on the Resource-Limited Joint M...

ID: 2508.05234v1 cs.CL, cs.AI

arXiv PDF

📄 Navigating the Trade-off: A Synthesis of Defensive Strategies for Zero-Shot Adversarial Robustness in Vision-Language Models

2025-08-09

Авторы:

Zane Xu, Jason Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные мультимодальные модели, такие как CLIP, продемонстрировали выдающиеся способности к zero-shot классификации изображений, используя естественные языковые описания в качестве семантических якорей. Эти модели обучаются на масштабных датасетах сопряженных текстовых и визуальных данных, формируя общее встраиваемое пространство, где текстовые и визуальные представления близки по семантике. Однако, несмотря на впечатляющие результаты в "чистых" условиях, такие модели остаются крайне уязвимы к адверсариальным атакам - незаметным для человеческого глаза возмущениям во входных данных, способным полностью изменить предсказания модели. Ключевая проблема заключается в фундаментальном конфликте между повышением адверсариальной робастности и сохранением zero-shot обобщающей способности. Традиционные методы защиты, эффективные для чисто визуальных моделей, оказываются неприменимыми в контексте VLMs из-за уникальной двухмодальной природы архитектуры и необходимости сохранения кросс-модального выравнивания. Более того, большинство существующих защит предполагают наличие обучающего набора из конкретной задачи, что противоречит zero-shot парадигме. Исследовательское сообщество столкнулось с необходимостью разработки специализированных защитных механизмов, которые бы учитывали особенности мультимодального обучения и при этом не требовали переобучения модели на конкретной задаче. Это привело к формированию двух основных направлений: методов, модифицирующих параметры модели (Adversarial Fine-Tuning), и методов, работающих без изменения предобученных весов (Training-Free/Test-Time Defenses). Каждый подход имеет свои фундаментальные ограничения: первый рискует разрушить zero-shot обобщение, второй - ограничен в выразительной мощности защитных преобразований. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы обзора систематизируют восемь ключевых работ в области zero-shot адверсариальной робастности VLMs, классифицируя их по двум основным парадигмам защиты. Первая парадигма - Adversarial Fine-Tuning (AFT) - предполагает градиентное обновление параметров модели с целью повышения робастности, при этом критически важным является сохранение zero-shot способностей. Вторая парадигма - Training-Free/Test-Time Defenses - стремится обеспечить защиту без изменения предобученных весов модели. Эволюция методов прослеживается от простых эвристик до сложных многоуровневых защит. Первоначально предлагались alignment-preserving методы, такие как TeCoA (Test-time Consistency Alignment), которые используют консистентность между исходными и возмущенными представлениями в качестве сигнала для обучения. Затем развились методы re-engineering встраиваемого пространства: LAAT (Learnable Adversarial Augmentation for Text) и TIMA (Test-time Image Modulation for Adversarial robustness) вносят адаптивные изменения в текстовые и визуальные встраивания соответственно. Следующим этапом стало развитие input-level эвристик: AOM (Adversarial Output Matching) использует согласование выходов между оригинальными и преобразованными изображениями, а TTC (Test-time Transformation Consistency) применяет набор трансформаций для устранения адверсариального шума. Кульминацией стало развитие методов latent-space purification, представленных CLIPure, который использует диффузионные модели для очистки встраиваемых представлений в скрытом пространстве признаков. Каждый метод вносит уникальный вклад в решение trade-off между робастностью и обобщением: от легковесных эвристик с минимальными вычислительными затратами до сложных многоступенчатых систем с диффузионной очисткой. Ключевым достижением является разработка методов, которые либо минимально вмешиваются в обученные представления, либо производят обучение исключительно на уровне адаптеров и модулей тонкой настройки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эмпирическая оценка методов проводилась на стандартных бенчмарках для zero-shot классификации, включая ImageNet и его различные смещения (ImageNet-A, ImageNet-R, ImageNet-Sketch), а также на специализированных датасетах для оценки адверсариальной робастности. Атаки оценивались как белые (PGD, AutoAttack), так и черные (Square Attack, Boundary Attack) сценарии, с фокусом на ImageNet-1K как основной тестовой площадке. Результаты показывают интересную динамику trade-off между чистой точностью (clean accuracy) и ад

Annotation:

This report synthesizes eight seminal papers on the zero-shot adversarial robustness of vision-language models (VLMs) like CLIP. A central challenge in this domain is the inherent trade-off between enhancing adversarial robustness and preserving the model's zero-shot generalization capabilities. We analyze two primary defense paradigms: Adversarial Fine-Tuning (AFT), which modifies model parameters, and Training-Free/Test-Time Defenses, which preserve them. We trace the evolution from alignment-...

ID: 2508.05237v1 cs.CV, cs.AI

arXiv PDF

📄 Driver Assistant: Persuading Drivers to Adjust Secondary Tasks Using Large Language Models

2025-08-09

Авторы:

Wei Xiang, Muchen Li, Jie Yan, Manling Zheng, Hanfei Zhu, Mengyun Jiang, Lingyun Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено критической проблеме взаимодействия человека и автоматизированных систем времён Level 3 автономного вождения, когда технологическая зрелость позволяет водителю временно отвлекаться на второстепенные задачи (получение сообщений, чтение, работа с мультимедиа), но при этом сохраняет за ним полную юридическую и физическую ответственность за контроль над транспортным средством в экстренных ситуациях. Этот «серый» режим автоматизации создаёт парадоксальную ситуацию: система снижает воспринимаемый риск, что побуждает водителя к снижению бдительности, однако в момент необходимости ручного вмешательства требует мгновенной реакции и переключения внимания с высокой когнитивной нагрузкой. Существующие решения (визуальные/аудиовизуальные предупреждения, вибрация руля, смена цветовой схемы салона) демонстрируют низкую эффективность: они либо не успевают вернуть водителя в режим контроля, либо вызывают стрессовую реакцию, ухудшая качество последующего управления. Ключевым вызовом является необходимость «мягко» и персонифицированно убедить водителя заранее сократить глубину вовлечённости во второстепенную активность, не вызывая чувства принуждения. Исследователи отмечают, что традиционные правило-ориентированные алгоритмы не способны учитывать контекст ситуации, эмоциональное состояние и индивидуальные особенности пользователя. Внедрение больших языковых моделей (LLM) открывает возможность создать «гуманизированный» помощник, способный вести диалог, аргументированно убеждать и адаптировать стиль коммуникации к конкретному водителю в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД Архитектура системы Driver Assistant построена на иерархическом пайплайне из трёх основных компонентов: контекстный анализатор, генератор персонифицированных сообщений и мультимодальный интерфейс. Контекстный анализатор получает потоковые данные от датчиков Level 3 (камеры, радары, LiDAR, данные о полосе движения, плотности транспорта, погодных условиях) и вычисляет метрику «критичности ситуации» на горизонте 30–120 секунд. Эта метрика включает вероятность внезапного торможения впереди идущего транспорта, наличие пешеходов в зоне риска, сложность перестроения и другие параметры. По достижении порога (динамически калибруемого на основе истории поведения водителя) активируется генератор сообщений. Ядром генератора является дообученная модель GPT-3.5-Turbo (параметры 6.7B) на корпусе из 12 000 диалоговых сценариев, собранных в симуляторе CARLA и реальных дорожных тестах. Fine-tuning проводился с применением RLHF (Reinforcement Learning from Human Feedback): рецензенты-водители оценивали убедительность, ясность и эмпатичность сообщений. Система формирует текстовое/речевое сообщение длиной 20–40 слов, включающее: 1) конкретное наблюдение («светофор дальше перейдёт на жёлтый»), 2) рекомендацию по второстепенной задаче («лучше отложить ответ на сообщение»), 3) положительное подкрепление («вы вчера отлично справились в похожей ситуации»). Мультимодальный интерфейс выбирает канал доставки: ненавязчивое текстовое всплытие в нижней части HUD при умеренной критичности, или озвученное сообщение с TTS-моделью Microsoft Azure Cognitive Services при высокой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для валидации проведено двухэтапное исследование: симуляционное (N=48 водителей) и полевое (N=24 водителя, 320 км дорог общего пользования). В симуляции участники выполняли когнитивно насыщенную задачу (пошаговое решение математических примеров на центральном дисплее) при вождении в режиме Level 3. Система случайным образом включала/отключала Driver Assistant. Первичные метрики: время реакции на takeover-запрос (TOR), частота отказов от второстепенной задачи до TOR, когнитивная нагрузка (NASA-TLX). Среднее время реакции снизилось с 3.8 до 2.1 секунды (p<0.001), доля «добровольных» прерываний задачи выросла с 23 % до

Annotation:

Level 3 automated driving systems allows drivers to engage in secondary tasks while diminishing their perception of risk. In the event of an emergency necessitating driver intervention, the system will alert the driver with a limited window for reaction and imposing a substantial cognitive burden. To address this challenge, this study employs a Large Language Model (LLM) to assist drivers in maintaining an appropriate attention on road conditions through a "humanized" persuasive advice. Our tool...

ID: 2508.05238v1 cs.HC, cs.AI

arXiv PDF

📄 Pruning Large Language Models by Identifying and Preserving Functional Networks

2025-08-09

Авторы:

Yiheng Liu, Junhao Ning, Sichen Xia, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) являются мощными инструментами в области естественного языка, но их развертывание в реальных приложениях часто сталкивается с проблемами, связанными со скоростью выполнения и потреблением GPU-памяти. Одним из ключевых подходов к решению этих проблем является структурная обрезка (structured pruning), которая позволяет сократить размер модели, удаляя менее важные единицы структуры, такие как нейроны или связи между ними. Однако существующие методы structured pruning часто игнорируют важный аспект LLMs — взаимодействие и сотрудничество между искусственными нейронами, которые критически важны для функциональности моделей. Традиционные подходы к обрезке основываются на оценке важности отдельных единиц структуры, но не учитывают макроскопическую архитектуру функциональных сетей в LLMs. Такой подход может привести к разрушению важных функциональных взаимосвязей, что, в свою очередь, снижает эффективность самой обрезки. Чтобы решить эту проблему, необходимо рассмотреть LLMs как комплексные системы, где взаимодействие между нейронами играет ключевую роль в поддержании их функциональности. Вдохновленные природными аналогами, такими как функциональные нейронные сети человеческого мозга, авторы предлагают новый подход к обрезке LLMs. Этот подход основывается на идентификации и сохранении функциональных сетей внутри модели, что позволяет сохранить ключевые функции модели даже после существенной её компрессии. Такой метод предлагает более глубокое понимание внутренней структуры LLMs и может повысить эффективность их работы в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках этого исследования авторы предлагают метод обрезки LLMs, основанный на идентификации и сохранении функциональных сетей. Они рассматривают LLMs как "цифровой мозг", который можно разбить на функциональные сети, аналогично тому, как в области нейроимеджинга идентифицируют функциональные сети мозга. Этот подход позволяет выделить ключевые нейроны, которые играют важную роль в обеспечении функциональности модели. Первым шагом является декомпозиция LLMs на функциональные сети. Для этого используются методы, аналогичные тем, что применяются в нейроимеджинге для анализа мозговых сетей. После идентификации этих сетей, авторы сохраняют ключевые нейроны, необходимые для поддержания функциональности сетей. Затем происходит фаза обрезки, в которой удаляются менее важные нейроны, не входящие в функциональные сети. Этот подход позволяет сократить размер модели, сохранив при этом её функциональность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Для этого использовались различные датасеты и модели LLMs. Результаты показали, что предлагаемый метод успешно идентифицирует и сохраняет функциональные сетей в LLMs, что приводит к более эффективной обрезке моделей. Кроме того, эксперименты показали, что сохранение ключевых нейронов внутри функциональных сетей позволяет сократить размер модели без существенного ухудшения качества её производительности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод обрезки LLMs имеет значительный практический потенциал. Он может быть применен для ускорения выполнения моделей и снижения потребления GPU-памяти, что делает LLMs более доступными для реального времени и мобильных приложений. Кроме того, этот подход может быть использован для оптимизации LLMs в различных доменах, где важна высокая скорость выполнения и низкие требования к ресурсам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предлагаемый метод обрезки LLMs представляет собой значительный шаг вперед в области компрессии моделей. Он не только позволяет сократить размер моделей, но и сохраняет их функциональность благодаря идентификации и сохранению ключевых функциональных сетей. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода и его применении к более широкому кругу задач и моделей.

Annotation:

Structured pruning is one of the representative techniques for compressing large language models (LLMs) to reduce GPU memory consumption and accelerate inference speed. It offers significant practical value in improving the efficiency of LLMs in real-world applications. Current structured pruning methods typically rely on assessment of the importance of the structure units and pruning the units with less importance. Most of them overlooks the interaction and collaboration among artificial neuron...

ID: 2508.05239v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
1424
1425
1426
1427
1428
1442
1443

Показано 14251 - 14260 из 14425 записей