📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 The Mind's Eye: A Multi-Faceted Reward Framework for Guiding Visual Metaphor Generation

2025-08-28

Авторы:

Girish A. Koushik, Fatemeh Nazarieh, Katherine Birch, Shenbin Qian, Diptesh Kanojia

#### Контекст Визуальное понимание и генерация метафор представляют собой важные исследовательские области, которые связаны с задачей создания изображений на основе текстовых метафор. Эта задача требует сбалансированного понимания языка и визуальной когниции, чтобы сохранить смысловую компоненту метафоры и обеспечить визуальную естественность. Однако существуют значительные проблемы, такие как недостаточное понимание метафорических связей, нестабильность визуальных генераторов и нехватка методик для оценки качества генерируемых изображений. Наша мотивация заключается в развитии метода, который может эффективно анализировать и генерировать визуальные метафоры, с учетом различных стилей и контекстов. #### Метод Мы предлагаем **"Mind's Eye"**, фреймворк, основанный на самостоятельной оценке, для генерации визуальных метафор. Наша методология включает в себя несколько компонентов: 1. **Метафорная декомпозиция** — разделение метафоры на три компонента: источник, цель и смысл. 2. **Самостоятельная оценка** — использование метрик, таких как CLIP и Meaning Alignment (MA), для оценки качества генерируемых изображений. 3. **Обучение без учета данных** — использование структурированных промингов (Source-Target-Meaning, S-T-M) для эксплуатации возможностей моделей типа GPT без дополнительного обучения. 4. **Рекомбинация с легковесной рекорд-процедурой RL** — улучшение генерируемых изображений без требований к тяжелому обучению. #### Результаты Мы провели эксперименты с тестовой выборкой, сравнивая наш фреймворк с двумя основными базовыми моделями: GPT-4o и Imagen. Результаты показали, что: - Тренировка-без-данных показала лучшие результаты на метриках декомпозиции, CLIP и MA. - Тренировка с самостоятельной оценкой позволила улучшить алгоритм без полного обучения. - Участники пользовательского исследования выбирали GPT-4o в целом, но наше решение было лучшим среди альтернатив для открытого исходного кода, особенно для генерации абстрактных метафор. #### Значимость Наш фреймворк имеет широкие области применения, включая генерацию концептуальных изображений, визуально-метафорический анализ и синтез визуальных примеров для обучения с помощью компьютера. Он обеспечивает следующие преимущества: - Улучшение точности генерации, особенно для абстрактных метафор. - Легковесность и эффективность без требования к тяжелому моделированию. - Возможность комбинирования существующих моделей с новым подходом для повышения качества. #### Выводы Н

Annotation:

Visual metaphor generation is a challenging task that aims to generate an image given an input text metaphor. Inherently, it needs language understanding to bind a source concept with a target concept, in a way that preserves meaning while ensuring visual coherence. We propose a self-evaluating visual metaphor generation framework that focuses on metaphor alignment. Our self-evaluation approach combines existing metrics with our newly proposed metaphor decomposition score and a meaning alignment...

ID: 2508.18569v1 cs.CL, cs.CV

arXiv PDF

📄 Hyperbolic Multimodal Representation Learning for Biological Taxonomies

2025-08-27

Авторы:

ZeMing Gong, Chuanqi Tang, Xiaoliang Huo, Nicholas Pellegrino, Austin T. Wang, Graham W. Taylor, Angel X. Chang, Scott C. Lowe, Joakim Bruslund Haurum

## Контекст Таксономическая классификация — основной аспект биологических исследований, включающий классификацию биологических образцов в иерархические структуры на основе различных видов доказательств, таких как генетические данные и изображения. Эта задача является важной для таких областей, как экологический мониторинг, выявление новых видов и консервация. Однако существуют сложности с обработкой многомодальных данных и точной классификацией видов, особенно в условиях открытого мира и для выделения тонких различий между видами. Наша мотивация заключается в исследовании возможностей гиперболических сетей для повышения точности и эффективности таксономической классификации, учитывая сложности, связанные с многомодальным пространством. ## Метод Мы предлагаем протокол обучения, основанный на гиперболических сетях, для создания объединенного пространства для многомодальных данных. Наша модель состоит из двух основных компонент: **а) контрастирующий механизм**, объединяющий изображения и генетические данные в единое пространство, и **б) стековая модель стандартности**, которая учитывает тело знаний и вариации между видами. Мы используем гиперболическую проекцию для эмбединга данных, что позволяет сохранить естественные иерархии в пространстве. Этот подход обеспечивает представление видов, которое учитывает как гетерогенные типы данных, так и структуру таксономической иерархии. ## Результаты Наши эксперименты проводились на большом датасете BIOSCAN-1M, включающем изображения, генетические данные и текстовые метки для множества видов. Мы сравнили нашу гиперболическую модель с традиционными моделями на основе Евклидова пространства. Наша модель показала высокую точность в классификации большинства видов, а также достигла особенно высокого результата при классификации новых видов, используя DNA-баркоды. Мы также проверили модель на условиях открытого мира, показав, что у нее есть компромиссы в тонкой классификации и в общей гибкости. Однако, гиперболическое пространство демонстрирует более естественное представление иерархии, что улучшает общую точность. ## Значимость Наш подход имеет широкие применения в области биологии и экологии, включая экологический мониторинг, выявление новых видов и консервационные мероприятия. Он предоставляет более точное и структурированное представление данных, что помогает улучшить выявление новых видов и отслеживание экосистем. Хотя у нас есть ограничения в тонкой классификации и в открытом мире, наш подход является прорывным в построении пространств для таксономических моделей. М

Annotation:

Taxonomic classification in biodiversity research involves organizing biological specimens into structured hierarchies based on evidence, which can come from multiple modalities such as images and genetic information. We investigate whether hyperbolic networks can provide a better embedding space for such hierarchical models. Our method embeds multimodal inputs into a shared hyperbolic space using contrastive and a novel stacked entailment-based objective. Experiments on the BIOSCAN-1M dataset s...

ID: 2508.16744v1 cs.LG, cs.CL, cs.CV

arXiv PDF

📄 Intern-S1: A Scientific Multimodal Foundation Model

2025-08-26

Авторы:

Lei Bai, Zhongrui Cai, Yuhang Cao, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqing Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qitan Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Jiaqi Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Yuhang Zang, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou

## Контекст В последние годы, огромное количество основных моделей научных исследований появилось, достигнув заметных успехов в области выполнения задач базового решения вопросов. Однако, в области высокоточных научных профессиональных областей, таких как физика, химия, биология, искусственный интеллект, обычно используются специализированные модели. Однако, эти модели либо являются специальными, либо, как и в случае общей фундаментальной модели, имеют существенную проблему с недостатком в этих высокоточных профессиональных областях. Это приводит к значительным проблемам в течение процесса технологических прогрессов в науке. Чтобы устранить этот проблемный момент, мы предлагаем Intern-S1 - модель, которая приносит значительные улучшения в решение задач, связанных с научными данными, выполняя задачи по расчету и расчету сложных научных моделей. ## Метод Intern-S1 является многомодальной моделью, которая имеет 28 миллиардов активированных параметров и общие 241 миллиардов параметров. Она использует систему Множественной Оценки (Mixture-of-Experts, MoE) для повышения точности и скорости выполнения задач. Модель была продолжительно предобучена на базе 5 триллионов токенов, включая 2.5 триллионов токенов из научных областей. В последнем этапе обучения, Intern-S1 прошла офлайн и онлайн-обучение в InternBootCamp, где мы предлагаем новую систему рефлексного обучения - Mixture-of-Rewards (MoR), которая позволяет модели решать сразу несколько задач. ## Результаты Проведенные эксперименты показали, что Intern-S1 показала высокую степень точности в решении задач, связанных с научными моделями. Она была протестирована на нескольких научных задачах, включая расчет химических реакций, прогнозирование термодинамических свойств кристаллов, планирование синтеза молекул. В результате, Intern-S1 не только показала высокую точность в решении научных задач, но и отличилась по сравнению с другими аналогичными моделями. ## Значимость Модель Intern-S1 может применяться в различных научных областях. Она улучшает процессы прогнозирования и анализа в химии, физике, биологии и других науках. Этот модельный подход предлагает новый подход к традиционным способам решения научных задач, повышая уровень точности, скорость и эффективность работы. Это позволяет оптимизировать работу в научных исследованиях и внести значительные улучшения в профессиональные задачи. ## Выводы Модель Intern-S1 достигла топового уровня эффективности в профессиональных научных задачах. Она предлагает новый подход к расчетам и моделированию в науке. Будущие исследования будут сконцентрированы на дальнейшем высокопро

Annotation:

In recent years, a plethora of open-source foundation models have emerged, achieving remarkable progress in some widely attended fields, with performance being quite close to that of closed-source models. However, in high-value but more challenging scientific professional fields, either the fields still rely on expert models, or the progress of general foundation models lags significantly compared to those in popular areas, far from sufficient for transforming scientific research and leaving sub...

ID: 2508.15763v2 cs.LG, cs.CL, cs.CV

arXiv PDF

📄 Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation

2025-08-26

Авторы:

Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma

## Контекст Общение через речевые интерфейсы становится все более важной областью исследований, особенно в контексте развития искусственного интеллекта и видеокоммуникации. Однако существуют значительные проблемы, связанные с точностью и эмоциональным содержанием речи, которые затрудняют полноценную интерактивность. Наиболее распространенные модели генерируют речь, опираясь только на текст или аудиосигнал, что зачастую приводит к потере информации об эмоциональном настроении и выразительности. Мотивацией для этого исследования является развитие моделей, которые бы способствовали более эмоционально настроенной и экспрессивной речи. ## Метод Для решения этой задачи предложена модель Audio-Visual Language Model (AVLM), которая интегрирует полное лицо как визуальные сигналы в модель экспрессивной речи. Модель использует несколько визуальных энкодеров и стратегий мультимодальной фузии в процессе предварительного обучения (pre-training). Эта методика позволяет выявить самый эффективный подход к интеграции визуальных сигналов в модель. Далее проводится последовательное окно fine-tuning на задачах распознавания эмоций и экспрессивного диалога. Такое подход позволяет улучшить точность модели и сделать ее более эмоционально уразумевающей. ## Результаты На экспериментах, проведенных с использованием корпусов данных для распознавания эмоций и диалогов, AVLM показала существенное улучшение в сравнении с основными моделями, основанными только на аудиосигнале. Таким образом, модель достигла повышения F1-меры на 5 баллов в задаче распознавания эмоций. Эти результаты доказывают, что визуальные сигналы могут существенно повысить точность и эмоциональную нагрузку в речевых моделях, делая их более совершенными для использования в реальных ситуациях. ## Значимость Полученные результаты открывают новые возможности для развития выразительных речевых моделей, которые могут использоваться в различных областях, таких как ассистентские системы, робототехника, и видеокоммуникация. Это демонстрирует потенциал для улучшения качества интерактивности и эмоциональной коммуникации. Также, модель AVLM предоставляет новый подход к моделированию языка с учетом визуальных сигналов, что может быть ключевым для развития будущих мультимодальных систем. ## Выводы Результаты экспериментов показывают, что интеграция визуальных сигналов в модели экспрессивной речи может значительно улучшить точность и эмоциональный состав речи. Эти достижения открывают новые пути для развития моделей, которые могут быть использованы в многомодальных системах. Будущие исследования будут сфокусированы

Annotation:

We present an Audio-Visual Language Model (AVLM) for expressive speech generation by integrating full-face visual cues into a pre-trained expressive speech model. We explore multiple visual encoders and multimodal fusion strategies during pre-training to identify the most effective integration approach. Subsequent fine-tuning on emotion recognition and expressive dialogue tasks yields substantial gains over speech-only baselines (e.g., +5 F1 in emotion recognition). AVLM highlights the value of ...

ID: 2508.16188v1 cs.CL, cs.CV, cs.MM, cs.SD, eess.AS

arXiv PDF

📄 Intern-S1: A Scientific Multimodal Foundation Model

2025-08-23

Авторы:

Lei Bai, Zhongrui Cai, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqin Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qidang Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou

## Контекст В последние годы открытые фундаментальные модели показали замечательные результаты в различных областях, приближаясь к решениям, достигнутым закрытыми моделями. Однако в высокоценных, но более сложных научных областях, эти модели остаются за барьером, не достигая качества закрытого программного обеспечения. Это приводит к узкому разрыву между открытыми и закрытыми моделями в сферах, где достижения в науке требуют особой точности и экспертности. Чтобы помочь закрыть этот разрыв и приблизиться к Искусству Общего Разума (AGI), мы предлагаем **Intern-S1**, новая фундаментальная модель с многомодальным подходом, которая обладает универсальным пониманием и разумами, способными анализировать различные модели научных данных. ## Метод **Intern-S1** является многомодальной моделью Mixture-of-Experts (MoE) с 28 миллиардов активных параметров и 241 миллиардами общих параметров. Для обучения использовалось более 5 токенов, в том числе более 2,5 токенов из научных источников. Модель прошла развитие в среде **InternBootCamp**, где использовалась процедура **Mixture-of-Rewards (MoR)** для одновременного обучения на более чем 1000 задачах с помощью метода участия. Это позволило модели развиваться в условиях высокой сложности и конкуренции. ## Результаты Мы провели широкий диапазон экспериментов, использовав пересмотренные бенчмарки и научные данные. **Intern-S1** показала выдающиеся результаты в общих задачах оценки научных моделей. Она не только превосходит другие открытые модели в различных научных областях, но и выступает среди лучших моделей, превзойдя даже закрытые супермодели в специальных научных задачах - таких как планирование молекулярных синтезов, предсказание условий реакций и прогнозирование термодинамических стаблильностей кристаллов. ## Значимость **Intern-S1** может быть применена в различных научных сферах, в том числе химии, биологии, инжиниринга и других. Она предлагает значительные преимущества, включая расширение возможностей обработки научных данных, улучшение точности прогнозирования и моделирования, а также повышение эффективности в решении сложных научных проблем. Это может сократить разрыв между открытыми и закрытыми моделями, включив научные приложения в современные агенты ИИ. ## Выводы **Intern-S1** демонстрирует успех в сфере многомодальных научных моделей, обладая огромным потенциалом для улучшения решений в науке. Будущие исследования будут сосредоточены на расширении многомодальности, улучшении точности и увеличении возможностей модели для более сложных научных задач.

Annotation:

ID: 2508.15763v1 cs.LG, cs.CL, cs.CV

arXiv PDF

📄 MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models

2025-08-21

Авторы:

Jiacheng Ruan, Dan Jiang, Xian Gao, Ting Liu, Yuzhuo Fu, Yangyang Kang

## Контекст В последние годы multimodal large language models (MLLMs) показали существенный прогресс в различных областях, в том числе в смежных с машинным обучением. Эти модели обладают возможностью обрабатывать несколько типов данных одновременно, что позволяет использовать их для решения широкого спектра задач. Однако, несмотря на их успех, оценка их разумности и покрытия всех модальностей (включая текст, изображения и звук) в сложных сценариях остается сложной. Это особенно важно в области научных задач, где необходимо, чтобы модели правильно интерпретировали и выводили знания из различных источников. Существующие бенчмарки в этой области, как правило, не полностью охватывают все аспекты, необходимые для глубокого анализа моделей. Таким образом, необходимо разработать бенчмарк, который был бы более всесторонним, вызовом для существующих моделей и, при этом, позволял бы детально проанализировать их преимущества и недостатки. ## Метод MME-SCI представляет собой новый бенчмарк, состоящий из 1,019 высококачественных тестовых наборов, разработанных для оценки возможностей моделей в области научных задач. Данные тестовые наборы поддерживают 3 различных режима оценки: текст только, изображение только и сочетание текста и изображения. Бенчмарк охватывает четыре научных предмета: математика, физика, химия и биология, и работает с пятью языками: китайский, английский, французский, испанский и японский. Методология основывается на том, что каждый тестовый набор включает в себя задачу, которая требует глубокого понимания научных понятий и их взаимосвязей. Для создания бенчмарка были использованы методы сбора данных, включая поиск в открытых источниках и создание новых данных специально для этого целевого назначения. Этапы разработки включали в себя оптимизацию архитектур, проверку качества данных и тщательную проверку многоязычности и многомодальности. ## Результаты Проведены тщательные эксперименты с использованием 16 опен-сорс моделей и 4 закрытых моделей. Результаты показали, что MME-SCI представляет собой сложный бенчмарк, на котором многие модели сталкиваются с трудностями. Например, под режимом Image-only, модель o4-mini показала только 52.11% точности в математике, 24.73% в физике, 36.57% в химии и 29.80% в биологии. Это значительно меньше, чем результаты на других бенчмарках, что свидетельствует о высокой сложности MME-SCI. Более того, мы применяли многоязычность и детальные атрибуты знаний для получения более глубокого анализа производительности моделей в отдельных научных областях. Это позволило выявить сла

Annotation:

Recently, multimodal large language models (MLLMs) have achieved significant advancements across various domains, and corresponding evaluation benchmarks have been continuously refined and improved. In this process, benchmarks in the scientific domain have played an important role in assessing the reasoning capabilities of MLLMs. However, existing benchmarks still face three key challenges: 1) Insufficient evaluation of models' reasoning abilities in multilingual scenarios; 2) Inadequate assessm...

ID: 2508.13938v1 cs.CL, cs.CV

arXiv PDF

📄 Learning to Steer: Input-dependent Steering for Multimodal LLMs

2025-08-20

Авторы:

Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Arnaud Dapogny, Alasdair Newson, Matthieu Cord

## Контекст В последние годы широко распространены трансфорер-модели, которые обладают выдающимися возможностями в области обработки естественного языка. Однако существуют ряд сложностей, в том числе связанные с ретроспективным контролем поведения моделей. Многие приложения требуют, чтобы модели не только генерировали ответы, но и проявляли определенную стратегию, например, отказывались от ответа при необходимости, привлекались к экспертам или указывали на сторонние ресурсы. Этот подход, известный как "steering" (руководство), вызывает значительный интерес, особенно для моделей, обрабатывающих множество видов данных (multimodal large language models, MLLMs). Несмотря на существующие стратегии, такие как mean steering, они основываются на единственном статическом векторе направления, который не зависит от конкретного входного запроса. Это ограничение становится особенно заметным в случаях, когда результат должен зависеть от конкретного запроса. Например, правильное решение для запроса о медицинской информации может заключаться в указании на поиск квалифицированного специалиста. В данной статье предлагается новый подход, называемый **L2S (Learn-to-Steer)**, который адресует эти ограничения, применяя вводно-зависимую стратегию руководства. ## Метод MLLMs, такие как Flamingo и также многие другие, были разработаны для обработки разнообразного ввода, но их поведение часто недостаточно контролируется. Для решения этой проблемы предлагаются вводно-зависимые стратегии. Процесс L2S включает следующие этапы: 1. **Input-Specific Prompting**: Для каждого ввода создается уникальная интерпретация, которая включает в себя специальные добавления, направляющие модель в нужном направлении. 2. **Linear Shift Calculation**: Используя вводно-зависимую интерпретацию, вычисляется линейный сдвиг, который определяет изменение поведения модели. 3. **Training Auxiliary Module**: На этапе обучения применяется небольшой модуль, который предсказывает линейный сдвиг, используя в качестве входных данных вводно-зависимую интерпретацию. Этот подход позволяет выравнивать модель в соответствии с требованиями конкретного запроса, что делает ее более эффективной и безопасной в эксплуатации. ## Результаты На экспериментальных данных показано, что L2S значительно сокращает зависимость от статических стратегий и улучшает результаты в следующих областях: - **Reduction of Hallucinations**: Модель становится менее зависима от некорректных выводов, когда применяется L2S. - **Safety Enforcement**: Модель намеренно отказывается от ответов в случаях, когда ответ может быть небезопасен или неправильным. - **Comparison with Baselines**: Результаты L2S показывают значительные выигрыши по сравнению с

Annotation:

Steering has emerged as a practical approach to enable post-hoc guidance of LLMs towards enforcing a specific behavior. However, it remains largely underexplored for multimodal LLMs (MLLMs); furthermore, existing steering techniques, such as mean steering, rely on a single steering vector, applied independently of the input query. This paradigm faces limitations when the desired behavior is dependent on the example at hand. For example, a safe answer may consist in abstaining from answering when...

ID: 2508.12815v1 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model

2025-08-20

Авторы:

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

## Контекст Многомодальная эмпатическая генерация ответов (MERG) является ключевым компонентом создания эмоционально интеллектуальных взаимодействий между людьми и компьютерами. Несмотря на то, что большие языковые модели (LLMs) улучшили текстовую эмоциональную генерацию ответов, остаются сложности в обработке многомодального эмоционального контента и сохранении консистентности личности. Эти проблемы ограничивают эффективность текущих систем. Чтобы сделать MERG более эмоционально богатым и идентичным, необходимо использовать более совершенные подходы, которые учитывают комплексность эмоциональных сигналов и поддерживают консистентность личности в ходе взаимодействия. ## Метод Мы предлагаем E3RG, систему эмоционального эмпатического генерирования ответов на основе многомодальных LLMs. Методология E3RG декомпозирует задачу MERG на три модуля: понимание эмоций многомодального контента, восстановление эмоциональной памяти и многомодальное генерирование ответов. Эти модули используют новейшие модели для генерации речи и видео, что позволяет E3RG генерировать ответы, описывающие эмоциональное состояние, без дополнительной подготовки. Благодаря этому, E3RG обеспечивает натуральность, эмоциональную богатство и консистентность личности в ответах. ## Результаты В ходе экспериментов мы проверили E3RG на двух уровнях: zero-shot и few-shot. Мы использовали различные наборы данных для оценки системы на способности понимать эмоции и генерировать ответы. Результаты показали, что E3RG показывает высокую точность и эмоциональную корректность в сравнении с другими подходами. Наша система стала лидером на соревновании Avatar-based Multimodal Empathy Challenge в рамках ACM MM 2025. ## Значимость E3RG может применяться в различных сферах, включая области социальных роботов, виртуальных ассистентов и медицинских приложений, где эмоциональная коммуникация играет ключевую роль. Основные преимущества E3RG заключаются в том, что он сохраняет консистентность личности, быстро реагирует на эмоциональные сигналы и обеспечивает натуральную эмоциональную реакцию. Его потенциал заключается в улучшении качества взаимодействия с пользователем и создании более эмоционально приятных и естественных интерфейсов. ## Выводы Мы представили E3RG, мощную многомодальную систему для эмоционального эмпатического генерирования ответов. Наши эксперименты показали, что E3RG превосходит другие подходы в zero-shot и few-shot режимах. Мы посвятим будущим исследованиям улучшение моделей и их применение в различных сценариях, чтобы дальше улучшить эмоциональное понимание и генерирова

Annotation:

Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory re...

ID: 2508.12854v1 cs.AI, cs.CL, cs.CV, cs.HC, cs.MM

arXiv PDF

📄 Model Interpretability and Rationale Extraction by Input Mask Optimization

2025-08-19

Авторы:

Marc Brinner, Sina Zarriess

## Контекст Модели на основе нейронных сетей, особенно в области естественного языка и компьютерного зрения, продвигаются с поразительной скоростью. Однако, несмотря на их высокую точность, эти модели часто остаются черными ящиками, которые не дают понятных ответов о причинах своих решений. Это приводит к потребности в разработке методов, которые могут объяснить решения моделей. Более того, нередко необходимо не только объяснить решение, но и извлечь причины, которые стали основой для этого получения. Мы предлагаем новый подход, основанный на маскировании частей входных данных, которые модель считает некритичными для целевого класса. Это достигается с помощью оптимизации градиентов и регуляризационного схемы, которая гарантирует, что маскируемые части данных не только не влияют на решение, но и достаточны для поддержки этого решения. Этот подход позволяет сочетать модельные подходы к моделированию интерпретируемости и выделению причин. ## Метод Предлагаемый подход основывается на маскировании частей входных данных с помощью градиентной оптимизации. Мы используем регуляризационную схему, которая включает в себя три основных условия: существенность, полноту и компактность. Эти условия гарантируют, что исключенные части входных данных не только не влияют на решение модели, но и достаточны для того, чтобы поддержать его. Оптимизация происходит в два этапа: в первом этапе, мы определяем части входных данных, которые не влияют на решение модели; во втором этапе, мы оптимизируем эти части, чтобы они были достаточно информативными для поддержки решения. Этот подход может быть применен как к текстовым, так и к изображениям. ## Результаты Мы проверяли наш подход на текстовых данных и изображениях. Для текстовых данных, мы показали, что наш метод может стабильно выделять конкретные фрагменты текста, которые становятся причиной решения модели. Для изображений, мы получили выделение конкретных областей на изображении, которые становятся ключевыми для корректного распознавания моделью. Мы также проверили наш подход на множестве моделей и задач, показав, что он может быть применен к различным моделям и задачам. ## Значимость Предлагаемый подход может быть применен во многих областях, где необходимо понимание решений моделей. Это могут быть приложения в области естественного языка, компьютерного зрения, медицины и даже финансов. Наш подход имеет очевидные преимущества перед другими методами. Во-первых, он не требует тренировки дополнительных моделей для получения причин, что упрощает процесс. Во-вторых, он может быть применен к различным типам входных данных, что демонстрирует его очень высокую гибкость.

Annotation:

Concurrent to the rapid progress in the development of neural-network based models in areas like natural language processing and computer vision, the need for creating explanations for the predictions of these black-box models has risen steadily. We propose a new method to generate extractive explanations for predictions made by neural networks, that is based on masking parts of the input which the model does not consider to be indicative of the respective class. The masking is done using gradie...

ID: 2508.11388v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Match & Choose: Model Selection Framework for Fine-tuning Text-to-Image Diffusion Models

2025-08-19

Авторы:

Basile Lewandowski, Robert Birke, Lydia Y. Chen

## Контекст Текст-на-изображение (T2I) модели, основанные на архитектурах диффузии и трансформеров, постоянно развиваются. Их обучают на больших корпусах данных, после чего эти модели опубликованы на платформах, таких как HuggingFace. Пользователи могут использовать эти модели для создания приложений, например, генерации медиаконтента, посредством оптимизации под конкретные данные. Однако появляется новый вопрос: какая модель лучше всего подходит для определенной области? Несмотря на то, что для задач классификации имеются уже оцененные методы выбора моделей, подобные подходы для T2I-моделей остаются неизученными. Мы предлагаем **Match & Choose (M&C)** — первый фреймворк для модели выбора лучшей T2I-модели для определенной области, позволяющий пользователям эффективно выбирать модели без необходимости проводить их последовательную оптимизацию. ## Метод M&C фреймворъ представляет собой граф матчей, в котором узлы соответствуют T2I-моделям и датасетам, а ребра представляют профили моделей и датасетов, оцененные на основе их выполнения. Мы разрабатываем модель, которая использует эту структуру для предсказания лучшей модели для каждого датасета. Наша модель использует три типа признаков: информацию о модели, о датасете и графические данные о матче. Мы сравниваем M&C с тремя базовыми подходами, анализируя его точность в предсказании лучшей модели. ## Результаты Мы оцениваем M&C на 32 датасетах и 10 моделях T2I. Метод показывает высокую точность: в 61.3% случаев он выбирает лучшую модель для оптимизации. Остальные случаи обычно приводят к выбору моделей с минимальным разницей в качестве результата. Этот подход позволяет экономить ресурсы за счет того, что пользователи не нуждаются в постоянной оптимизации всех моделей. ## Значимость M&C может иметь широкое применение в искусственном интеллекте, где пользователи нуждаются в эффективной оптимизации моделей. Он позволяет сократить время и ресурсы, необходимые для выбора модели, и дает пользователям возможность быстро оптимизировать свои решения. Этот фреймворк может использоваться в различных областях, включая медиа-генерацию, обработку естественного языка, и даже в сегментации изображений, где требуется высококачественное представление. ## Выводы Мы представили уникальный подход к модели выбора лучшей T2I-модели для целевого датасета. Мы показали, что M&C эффективно работает в ситуациях, где пользователи должны выбирать модели для оптимизации. Наш фреймворк может стать ключевым инструментом для улучшения работы с T2I-моделями. Мы плани

Annotation:

Text-to-image (T2I) models based on diffusion and transformer architectures advance rapidly. They are often pretrained on large corpora, and openly shared on a model platform, such as HuggingFace. Users can then build up AI applications, e.g., generating media contents, by adopting pretrained T2I models and fine-tuning them on the target dataset. While public pretrained T2I models facilitate the democratization of the models, users face a new challenge: which model can be best fine-tuned based o...

ID: 2508.10993v1 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

Показано 141 - 150 из 162 записей