📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
2025-10-18Авторы:
Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper proposes a joint modeling method of the Big Five, which has long
been studied, and HEXACO, which has recently attracted attention in psychology,
for automatically recognizing apparent personality traits from multimodal human
behavior. Most previous studies have used the Big Five for multimodal apparent
personality-trait recognition. However, no study has focused on apparent HEXACO
which can evaluate an Honesty-Humility trait related to displaced aggression
and vengefulness, social-dom...
Авторы:
Siddhant Sukhani, Yash Bhardwaj, Riya Bhadani, Veer Kejriwal, Michael Galarnyk, Sudheer Chava
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We evaluate multimodal large language models (MLLMs) for topic-aligned
captioning in financial short-form videos (SVs) by testing joint reasoning over
transcripts (T), audio (A), and video (V). Using 624 annotated YouTube SVs, we
assess all seven modality combinations (T, A, V, TA, TV, AV, TAV) across five
topics: main recommendation, sentiment analysis, video purpose, visual
analysis, and financial entity recognition. Video alone performs strongly on
four of five topics, underscoring its value ...
Авторы:
Wenbin An, Jiahao Nie, Yaqiang Wu, Feng Tian, Shijian Lu, Qinghua Zheng
## Контекст
Многоmodal Large Language Models (MLLMs), такие как GPT-4V, объединяют преимущества восприятия, предоставляемые multimodal encoders, с генерирующим потенциалом Large Language Models (LLMs). Они достигли выдающихся результатов в различных multimodal задачах, демонстрируя перспективу создания искусственного общего разума. Однако существуют значительные проблемы, ограничивающие их надежность и широтой применения. Это включает плохую качественность multimodal данных, недостаточную эффективность на сложных задачах, а также недостаточные методики оценки. Чтобы улучшить эти модели, идея использования внешних инструментов (например, APIs, экспертных моделей, и знаний) была предложена. Этот подход способствует улучшению качества данных, повышению производительности на трудных задачах, и созданию более точных методов оценки. Данная работа является подробным обзором текущих направлений использования внешних инструментов для улучшения MLLMs.
## Метод
В этом обзоре рассматриваются четыре основных направления, в которых внешние инструменты могут помочь улучшить MLLMs:
1. **Повышение качества данных**: Использование внешних инструментов для подбора, аннотации, и изменения multimodal данных для повышения качества.
2. **Повышение производительности на задачах**: Использование внешних инструментов для обнаружения проблем в задачах и оказания поддержки в решении этих проблем.
3. **Улучшение методов оценки**: Разработка новых методов оценки, использующих внешние инструменты для более точной и широкой оценки моделей.
4. **Ограничения и направления развития**: Обсуждение текущих ограничений и путей для будущих развитий в этой области.
## Результаты
На основе обзора, проведенного в рамках этой работы, был проанализирован набор исследований, которые использовали внешние инструменты для улучшения MLLMs. Были основаны ключевые направления, в которых внешние инструменты могут быть применены. Еще один аспект, рассмотренный в этой работе, заключается в том, как внешние инструменты могут облегчить получение качественных данных, улучшить производительность моделей в сложных задачах, и повысить уровень точности оценки.
## Значимость
Данная работа имеет значимость для развития MLLMs в следующих областях:
1. **Применение в различных сферах**: Внешние инструменты могут быть применены во многих областях, включая здравоохранение, финансы, и производство.
2. **Преимущества**: Использование внешних инструментов позволяет обеспечить более точную и надежную оценку моделей, а также улучшить их производительность в сложных задачах.
3. **Потенциальное влияние**: Будущие развития в этой области могут привести к значительным улучшениям в области искусственного общего раз
Annotation:
By integrating the perception capabilities of multimodal encoders with the
generative power of Large Language Models (LLMs), Multimodal Large Language
Models (MLLMs), exemplified by GPT-4V, have achieved great success in various
multimodal tasks, pointing toward a promising pathway to artificial general
intelligence. Despite this progress, the limited quality of multimodal data,
poor performance on many complex downstream tasks, and inadequate evaluation
protocols continue to hinder the reliabil...