📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VLURes: Benchmarking VLM Visual and Linguistic Understanding in Low-Resource Languages

2025-10-17

Авторы:

Jesse Atuhurra, Iqra Ali, Tomoya Iwakura, Hidetaka Kamigaito, Tatsuya Hiraoka

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision Language Models (VLMs) are pivotal for advancing perception in intelligent agents. Yet, evaluation of VLMs remains limited to predominantly English-centric benchmarks in which the image-text pairs comprise short texts. To evaluate VLM fine-grained abilities, in four languages under long-text settings, we introduce a novel multilingual benchmark VLURes featuring eight vision-and-language tasks, and a pioneering unrelatedness task, to probe the fine-grained Visual and Linguistic Understandi...

ID: 2510.12845v1 cs.CL, cs.AI, cs.CV, cs.RO

arXiv PDF

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

2025-10-17

Авторы:

Run Luo, Xiaobo Xia, Lu Wang, Longze Chen, Renke Shan, Jing Luo, Min Yang, Tat-Seng Chua

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Next-generation multimodal foundation models capable of any-to-any cross-modal generation and multi-turn interaction will serve as core components of artificial general intelligence systems, playing a pivotal role in human-machine interaction. However, most existing multimodal models remain constrained by autoregressive architectures, whose inherent limitations prevent a balanced integration of understanding and generation capabilities. Although hybrid and decoupling strategies have been explore...

ID: 2510.13721v2 cs.CL, cs.AI, cs.CV, cs.MM

arXiv PDF

📄 Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation

2025-10-15

Авторы:

Fanwei Zhu, Jinke Yu, Zulong Chen, Ying Zhou, Junhao Ji, Zhibo Yang, Yuxue Zhang, Haoyuan Hu, Zhenghao Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automated resume information extraction is critical for scaling talent acquisition, yet its real-world deployment faces three major challenges: the extreme heterogeneity of resume layouts and content, the high cost and latency of large language models (LLMs), and the lack of standardized datasets and evaluation tools. In this work, we present a layout-aware and efficiency-optimized framework for automated extraction and evaluation that addresses all three challenges. Our system combines a fine-t...

ID: 2510.09722v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 BitMar: Low-Bit Multimodal Fusion with Episodic Memory for Edge Devices

2025-10-15

Авторы:

Euhid Aman, Esteban Carlin, Hsing-Kuo Pao, Giovanni Beltrame, Ghaluh Indah Permata Sari, Yie-Tarng Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cross-attention transformers and other multimodal vision-language models excel at grounding and generation; however, their extensive, full-precision backbones make it challenging to deploy them on edge devices. Memory-augmented architectures enhance the utilization of past context; however, most works rarely pair them with aggressive edge-oriented quantization. We introduce BitMar, a quantized multimodal transformer that proposes an external human-like episodic memory for effective image-text ge...

ID: 2510.10560v1 cs.CL, cs.AI, cs.CV, 68T50, I.2.7

arXiv PDF

📄 Scaling Language-Centric Omnimodal Representation Learning

2025-10-15

Авторы:

Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generatin...

ID: 2510.11693v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 Identifying & Interactively Refining Ambiguous User Goals for Data Visualization Code Generation

2025-10-14

Авторы:

Mert İnan, Anthony Sicilia, Alex Xie, Saujas Vaduguru, Daniel Fried, Malihe Alikhani

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Establishing shared goals is a fundamental step in human-AI communication. However, ambiguities can lead to outputs that seem correct but fail to reflect the speaker's intent. In this paper, we explore this issue with a focus on the data visualization domain, where ambiguities in natural language impact the generation of code that visualizes data. The availability of multiple views on the contextual (e.g., the intended plot and the code rendering the plot) allows for a unique and comprehensive a...

ID: 2510.09390v1 cs.CL, cs.AI, cs.CV, cs.HC, cs.MA

arXiv PDF

📄 Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

2025-10-14

Авторы:

Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reasoning models have recently shown remarkable progress in domains such as math and coding. However, their expert-level abilities in math and coding contrast sharply with their performance in long-horizon, interactive tasks such as web navigation and computer/phone-use. Inspired by literature on human cognition, we argue that current AI agents need ''vicarious trial and error'' - the capacity to mentally simulate alternative futures before acting - in order to enhance their understanding and pe...

ID: 2510.09577v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 OceanGym: A Benchmark Environment for Underwater Embodied Agents

2025-10-02

Авторы:

Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal ...

ID: 2509.26536v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.RO

arXiv PDF

📄 ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

2025-10-01

Авторы:

Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari

## Контекст Biographical причиняются существуют значительные проблемы, такие как ошибки в тексте, недостаточное внимание к культурным контекстам и отсутствие многоязычного подхода. Эти проблемы становятся важными в связи с возрастающим использованием Масштабных Многомодальных Языковых Моделей (ММЯЯММ) в различных сферах, от образования до медицины. Однако существующие методы оценки и улучшения этих моделей недостаточно учитывают их способность работать с биографическими данными. Биографические причиняются являются ключевым аспектом человеческого знания и требуют специализированных подходов для точного понимания и генерации. ADAM предлагает первый полностью оценку и улучшение ММЯЯММ в этом критическом домене. ## Метод ADAM состоит из двух основных компонентов: **AdamDB** и **AdamBench**. **AdamDB** — это многоязычная и мультимодальная база данных, содержащая информацию о 4 миллионах индивидуумов, упорядоченных по географии, времени и профессиям. **AdamBench** включает в себя задачи оценки, основанные на Bloom's taxonomy, с различными уровнями логического роста, охватывающими индуктивное, дедуктивное и другие типы рассуждений. Для снижения ошибок и совершенствования генерации для менее известных личностей, ADAM предлагает **AdamRAG** — систему, основанную на восстановлении и генерации, которая интегрирует контекстные данные, такие как личные фотограммы, для более точного понимания. ## Результаты Исследования показали, что AdamRAG значительно повышает качество генерации в открытых моделях и приносит ограниченные, но заметные улучшения в закрытых. Особо высокие результаты были наблюдаемы в более простых формах логического роста, таких как воспроизведение и разъяснение фактов. Использование изображений лиц показало незначительное улучшение, но менее стабильное по сравнению с восстановлением информации. Эксперименты также показали, что модели лучше справляются с известными личностями, но их производительность значительно ухудшается при работе с менее известными. ## Значимость ADAM устанавливает новый стандарт для оценки и улучшения ММЯЯММ в биографических задачах. Он может применяться в областях, таких как образование, социальные сети и исследования. Его главные преимущества заключаются в улучшении точности генерации, снижении ошибок в выводе и расширении поддержки многоязычности. Этот подход может повлиять на развитие технологий, которые требуют точного понимания и генерации биографических данных, таких как искусственный интеллект в учебных системах или создание профилей в социальных сетях. ## Выводы

Annotation:

We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitiv...

ID: 2509.22991v1 cs.CL, cs.AI, cs.CV, cs.IR, cs.LG

arXiv PDF

📄 CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

2025-10-01

Авторы:

Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho

#### Контекст В последнее время multimodal large language models (MLLMs) показали существенные успехи в области радиологии, объединяя в себе визуальные исследования и естественный языковой понимание. Тем не менее, эти модели часто генерируют клинически неподтвержденные описания, известные как "медицинские халлуцинации" (medical hallucinations). Эти неточности могут иметь серьезные последствия в сфере медицины, где точность и гранулярность вывода ключевые. Несмотря на развитие методов, таких как модификация процесса обучения или использование контекстно-зависимых моделей, эти проблемы остаются актуальными. Этот аспект мотивирует разработку новых подходов, которые могут обеспечить более устойчивый и точный генеративный процесс. #### Метод Мы предлагаем Clinical Contrastive Decoding (CCD), методику, основанную на двух этапах различия (contrastive mechanism). Эта методика интегрирует структурированные клинические сигналы, полученные от задач-специфических моделей радиологии, в текстовую генерацию MLLMs. CCD не требует дополнительного обучения или вычислительных ресурсов, а сводится к изменению токен-уровня логитов в процессе генерации. Основной идеей является укрепление клинической точности, структурировав выходные данные отдельными этапами: множественному учету соответствия структурной информации (clustering) и последовательному фильтрованию по клинической семантике. Этот подход легко модифицируется для работы с различными моделями и ситуациями. #### Результаты Мы провести эксперименты на трех различных датасетах, включая MIMIC-CXR, Open-I и CheXpert. Мы использовали несколько моделей, включая state-of-the-art RRG (radiology report generation) модели. Результаты показали, что CCD постоянно улучшает общую эффективность моделей на задаче RRG. Например, на MIMIC-CXR, CCD повысил RadGraph-F1 до 17% при использовании самых современных моделей. Эти результаты подтверждают то, что CCD эффективно устраняет медицинские халлуцинации без изменения основных MLLM. #### Значимость Предлагаемый подход имеет расширенные области применения, включая радиологию, эндокринологию и другие сферы медицины, где необходима точность генерируемой информации. Он предлагает легкий в использовании, общедоступный и эффективный подход для уменьшения медицинских халлуцинаций. Благодаря повышению точности и релевантности в выводах, CCD может улучшить безопасность и эффективность медицинских приложений, которые полагаются на информацию, полученную с помощью MLLMs. #### Выводы CCD представляет собой новый подход к устранению медицинских халлуцинаций в радиологии MLLMs. Он продемонстрировал высокую эфф

Annotation:

Multimodal large language models (MLLMs) have recently achieved remarkable progress in radiology by integrating visual perception with natural language understanding. However, they often generate clinically unsupported descriptions, known as medical hallucinations, which pose serious risks in medical applications that demand accuracy and image-grounded outputs. Through empirical analysis, we find that prompt-induced hallucinations remain prevalent in radiology MLLMs, largely due to over-sensitiv...

ID: 2509.23379v1 cs.CL, cs.AI, cs.CV, I.2.10; J.3; I.5.4

arXiv PDF

Показано 21 - 30 из 46 записей