ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

2509.22991v1 cs.CL, cs.AI, cs.CV, cs.IR, cs.LG 2025-10-01

Авторы:

Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari

Резюме на русском

## Контекст Biographical причиняются существуют значительные проблемы, такие как ошибки в тексте, недостаточное внимание к культурным контекстам и отсутствие многоязычного подхода. Эти проблемы становятся важными в связи с возрастающим использованием Масштабных Многомодальных Языковых Моделей (ММЯЯММ) в различных сферах, от образования до медицины. Однако существующие методы оценки и улучшения этих моделей недостаточно учитывают их способность работать с биографическими данными. Биографические причиняются являются ключевым аспектом человеческого знания и требуют специализированных подходов для точного понимания и генерации. ADAM предлагает первый полностью оценку и улучшение ММЯЯММ в этом критическом домене. ## Метод ADAM состоит из двух основных компонентов: **AdamDB** и **AdamBench**. **AdamDB** — это многоязычная и мультимодальная база данных, содержащая информацию о 4 миллионах индивидуумов, упорядоченных по географии, времени и профессиям. **AdamBench** включает в себя задачи оценки, основанные на Bloom's taxonomy, с различными уровнями логического роста, охватывающими индуктивное, дедуктивное и другие типы рассуждений. Для снижения ошибок и совершенствования генерации для менее известных личностей, ADAM предлагает **AdamRAG** — систему, основанную на восстановлении и генерации, которая интегрирует контекстные данные, такие как личные фотограммы, для более точного понимания. ## Результаты Исследования показали, что AdamRAG значительно повышает качество генерации в открытых моделях и приносит ограниченные, но заметные улучшения в закрытых. Особо высокие результаты были наблюдаемы в более простых формах логического роста, таких как воспроизведение и разъяснение фактов. Использование изображений лиц показало незначительное улучшение, но менее стабильное по сравнению с восстановлением информации. Эксперименты также показали, что модели лучше справляются с известными личностями, но их производительность значительно ухудшается при работе с менее известными. ## Значимость ADAM устанавливает новый стандарт для оценки и улучшения ММЯЯММ в биографических задачах. Он может применяться в областях, таких как образование, социальные сети и исследования. Его главные преимущества заключаются в улучшении точности генерации, снижении ошибок в выводе и расширении поддержки многоязычности. Этот подход может повлиять на развитие технологий, которые требуют точного понимания и генерации биографических данных, таких как искусственный интеллект в учебных системах или создание профилей в социальных сетях. ## Выводы

Abstract

We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitively structured evaluations based on Bloom's taxonomy, spanning six reasoning levels in both English and native languages. To address hallucinations, particularly for lesser-known individuals, we propose AdamRAG, a retrieval-augmented generation system tailored to biographical contexts. Experiments show that AdamRAG substantially improves open-source models and modestly benefits closed-source ones, with the largest gains on lower-order reasoning. Popularity strongly mediates accuracy, and multimodal input via face images offers smaller, less consistent improvements than retrieval. ADAM establishes the first benchmark and framework for cognitively, culturally, and multimodally grounded biographical evaluation, advancing the development of multilingual, accurate, and hallucination-resistant MLLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TabRAG: Tabular Document Retrieval via Structured Language Representations

Навигация