ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning
2509.22991v1
cs.CL, cs.AI, cs.CV, cs.IR, cs.LG
2025-10-01
Авторы:
Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari
Резюме на русском
## Контекст
Biographical причиняются существуют значительные проблемы, такие как ошибки в тексте, недостаточное внимание к культурным контекстам и отсутствие многоязычного подхода. Эти проблемы становятся важными в связи с возрастающим использованием Масштабных Многомодальных Языковых Моделей (ММЯЯММ) в различных сферах, от образования до медицины. Однако существующие методы оценки и улучшения этих моделей недостаточно учитывают их способность работать с биографическими данными. Биографические причиняются являются ключевым аспектом человеческого знания и требуют специализированных подходов для точного понимания и генерации. ADAM предлагает первый полностью оценку и улучшение ММЯЯММ в этом критическом домене.
## Метод
ADAM состоит из двух основных компонентов: **AdamDB** и **AdamBench**. **AdamDB** — это многоязычная и мультимодальная база данных, содержащая информацию о 4 миллионах индивидуумов, упорядоченных по географии, времени и профессиям. **AdamBench** включает в себя задачи оценки, основанные на Bloom's taxonomy, с различными уровнями логического роста, охватывающими индуктивное, дедуктивное и другие типы рассуждений. Для снижения ошибок и совершенствования генерации для менее известных личностей, ADAM предлагает **AdamRAG** — систему, основанную на восстановлении и генерации, которая интегрирует контекстные данные, такие как личные фотограммы, для более точного понимания.
## Результаты
Исследования показали, что AdamRAG значительно повышает качество генерации в открытых моделях и приносит ограниченные, но заметные улучшения в закрытых. Особо высокие результаты были наблюдаемы в более простых формах логического роста, таких как воспроизведение и разъяснение фактов. Использование изображений лиц показало незначительное улучшение, но менее стабильное по сравнению с восстановлением информации. Эксперименты также показали, что модели лучше справляются с известными личностями, но их производительность значительно ухудшается при работе с менее известными.
## Значимость
ADAM устанавливает новый стандарт для оценки и улучшения ММЯЯММ в биографических задачах. Он может применяться в областях, таких как образование, социальные сети и исследования. Его главные преимущества заключаются в улучшении точности генерации, снижении ошибок в выводе и расширении поддержки многоязычности. Этот подход может повлиять на развитие технологий, которые требуют точного понимания и генерации биографических данных, таких как искусственный интеллект в учебных системах или создание профилей в социальных сетях.
## Выводы
Abstract
We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating
and improving multimodal large language models (MLLMs) in biographical
reasoning. To the best of our knowledge, this is the first work to
systematically examine LLM capabilities in biography, a critical yet
underexplored dimension of factual knowledge. At its core, AdamDB is a
multilingual and multimodal dataset covering over 4 million individuals across
geography, time, and profession, while AdamBench provides cognitively
structured evaluations based on Bloom's taxonomy, spanning six reasoning levels
in both English and native languages. To address hallucinations, particularly
for lesser-known individuals, we propose AdamRAG, a retrieval-augmented
generation system tailored to biographical contexts. Experiments show that
AdamRAG substantially improves open-source models and modestly benefits
closed-source ones, with the largest gains on lower-order reasoning. Popularity
strongly mediates accuracy, and multimodal input via face images offers
smaller, less consistent improvements than retrieval. ADAM establishes the
first benchmark and framework for cognitively, culturally, and multimodally
grounded biographical evaluation, advancing the development of multilingual,
accurate, and hallucination-resistant MLLMs.