📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation
2025-12-05Авторы:
Xiaosen Lyu, Jiayu Xiong, Yuren Chen, Wanlong Wang, Xiaoqing Dai, Jing Wang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Multimodal Emotion Recognition in Conversation (MERC) aims to predict speakers' emotions by integrating textual, acoustic, and visual cues. Existing approaches either struggle to capture complex cross-modal interactions or experience gradient conflicts and unstable training when using deeper architectures. To address these issues, we propose Cross-Space Synergy (CSS), which couples a representation component with an optimization component. Synergistic Polynomial Fusion (SPF) serves the represent...
Авторы:
Lipisha Chaudhary, Trisha Mittal, Subhadra Gopalakrishnan, Ifeoma Nwogu, Jaclyn Pytlarz
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Audio Descriptions (AD) are essential for making visual content accessible to individuals with visual impairments. Recent works have shown a promising step towards automating AD, but they have been limited to describing high-quality movie content using human-annotated ground truth AD in the process. In this work, we present an end-to-end pipeline, MCAD, that extends AD generation beyond movies to the domain of sports, with a focus on soccer games, without relying on ground truth AD. To address t...
Авторы:
Lianchen Jia, Chaoyang Li, Ziqi Yuan, Jiahui Chen, Tianchi Huang, Jiangchuan Liu, Lifeng Sun
## Контекст
Для пользователей видеосервисов, таких как YouTube, Netflix и Amazon Prime, пакетная стратегия предоставления видео потоков стала доминирующим методом доставки видео. Однако вопросы, связанные с управлением битрейтом, остаются актуальными. Решать эти проблемы стали попытаться глубокие нейронные сети, которые позволяют адаптировать качество видео к изменяющимся условиям сети. Несмотря на эффективность, существуют проблемы с пониманием и управлением этих моделей. Частью проблемы является то, что нейронные сети часто являются "черными ящиками", что делает их сложно разбираться и оптимизировать. Например, существующие подходы, такие как преобразование моделей в деревья решений, повышают интерпретируемость, но не обязательно улучшают её понимание разработчиками. Чтобы улучшить это, мы предлагаем \texttt{ComTree}, фреймворк для построения моделей, который учитывает не только интерпретируемость, но и субъективное понимание.
## Метод
Мы предлагаем \texttt{ComTree}, первый фреймворк, который строит модели адаптивного видеопотока с учетом их понятности для разработчиков. Метод работает следующим образом: сначала он генерирует все деревья решений, которые удовлетворяют требованиям в точности. Затем он использует горячие промежуточные модели (LLM), такие как GPT, для оценки понятности каждого дерева для разработчиков. Это делается с помощью целевых элементов, таких как читаемость, структура, доступность и понятность. Наконец, фреймворк выбирает дерево, которое оптимально подходит для работы с разработчиками, обеспечивая лучшее понимание.
## Результаты
Мы провели эксперименты с \texttt{ComTree} на различных наборах данных, включая реальные запросы пользователей, и сравнили результаты с существующими подходами. Наши результаты показывают, что новый подход повышает понятность без существенного снижения производительности. Например, мы сравнили \texttt{ComTree} с моделями, созданными с помощью преобразования в деревья решений, что показало значительное улучшение в читаемости и удобоваримости моделей. Эти результаты подтверждают то, что \texttt{ComTree} может повысить понятность моделей, что может привести к улучшению взаимодействия разработчиков с ними.
## Значимость
Мы убедились, что \texttt{ComTree} может быть применен в различных сценариях, включая проектирование и оптимизацию моделей адаптивного видеопотока. Одним из основных преимуществ является улучшение понимания моделей разработчиками, что позволяет им более эффективно контролировать и улучшать модели. Мы также увидели, что \texttt{ComTree} может привести к повышению эффективности и удоб
Annotation:
Over the past decade, adaptive video streaming technology has witnessed
significant advancements, particularly driven by the rapid evolution of deep
learning techniques. However, the black-box nature of deep learning algorithms
presents challenges for developers in understanding decision-making processes
and optimizing for specific application scenarios. Although existing research
has enhanced algorithm interpretability through decision tree conversion,
interpretability does not directly equate ...