📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Narrative Continuity Test: A Conceptual Framework for Evaluating Identity Persistence in AI Systems

2025-10-31

Авторы:

Stefano Natangelo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Artificial intelligence systems based on large language models (LLMs) can now generate coherent text, music, and images, yet they operate without a persistent state: each inference reconstructs context from scratch. This paper introduces the Narrative Continuity Test (NCT) -- a conceptual framework for evaluating identity persistence and diachronic coherence in AI systems. Unlike capability benchmarks that assess task performance, the NCT examines whether an LLM remains the same interlocutor acr...

ID: 2510.24831v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 Soppia: A Structured Prompting Framework for the Proportional Assessment of Non-Pecuniary Damages in Personal Injury Cases

2025-10-28

Авторы:

Jorge Alberto Araujo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Applying complex legal rules characterized by multiple, heterogeneously weighted criteria presents a fundamental challenge in judicial decision-making, often hindering the consistent realization of legislative intent. This challenge is particularly evident in the quantification of non-pecuniary damages in personal injury cases. This paper introduces Soppia, a structured prompting framework designed to assist legal professionals in navigating this complexity. By leveraging advanced AI, the system...

ID: 2510.21082v1 cs.CY, cs.AI, cs.HC, 68T50 (Artificial intelligence), I.2.7; K.5.2

arXiv PDF

📄 Towards AI Agents for Course Instruction in Higher Education: Early Experiences from the Field

2025-10-25

Авторы:

Yogesh Simmhan, Varad Kulkarni

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This article presents early findings from designing, deploying and evaluating an AI-based educational agent deployed as the primary instructor in a graduate-level Cloud Computing course at IISc. We detail the design of a Large Language Model (LLM)-driven Instructor Agent, and introduce a pedagogical framework that integrates the Instructor Agent into the course workflow for actively interacting with the students for content delivery, supplemented by the human instructor to offer the course struc...

ID: 2510.20255v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 See, Think, Act: Online Shopper Behavior Simulation with VLM Agents

2025-10-24

Авторы:

Yimeng Zhang, Jiri Gesi, Ran Xue, Tian Wang, Ziyi Wang, Yuxuan Lu, Sinong Zhan, Huimin Zeng, Qingjun Cui, Yufan Guo, Jing Huang, Mubarak Shah, Dakuo Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

LLMs have recently demonstrated strong potential in simulating online shopper behavior. Prior work has improved action prediction by applying SFT on action traces with LLM-generated rationales, and by leveraging RL to further enhance reasoning capabilities. Despite these advances, current approaches rely on text-based inputs and overlook the essential role of visual perception in shaping human decision-making during web GUI interactions. In this paper, we investigate the integration of visual in...

ID: 2510.19245v1 cs.CY, cs.AI, cs.HC, cs.LG, cs.MM

arXiv PDF

📄 Integrating Transparent Models, LLMs, and Practitioner-in-the-Loop: A Case of Nonprofit Program Evaluation

2025-10-24

Авторы:

Ji Ma, Albert Casella

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Public and nonprofit organizations often hesitate to adopt AI tools because most models are opaque even though standard approaches typically analyze aggregate patterns rather than offering actionable, case-level guidance. This study tests a practitioner-in-the-loop workflow that pairs transparent decision-tree models with large language models (LLMs) to improve predictive accuracy, interpretability, and the generation of practical insights. Using data from an ongoing college-success program, we ...

ID: 2510.19799v1 cs.CY, cs.AI, cs.HC, cs.LG, cs.SE, econ.GN, q-fin.EC

arXiv PDF

📄 The Integration of Artificial Intelligence in Undergraduate Medical Education in Spain: Descriptive Analysis and International Perspectives

2025-10-23

Авторы:

Ana Enériz Janeiro, Karina Pitombeira Pereira, Julio Mayol, Javier Crespo, Fernando Carballo, Juan B. Cabello, Manel Ramos-Casals, Bibiana Pérez Corbacho, Juan Turnes

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

AI is transforming medical practice and redefining the competencies that future healthcare professionals need to master. Despite international recommendations, the integration of AI into Medicine curricula in Spain had not been systematically evaluated until now. A cross-sectional study (July-September 2025) including Spanish universities offering the official degree in Medicine, according to the 'Register of Universities, Centers and Degrees (Registro de Universidades, Centros y T\'itulos RUCT)...

ID: 2510.17938v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 AI Generated Child Sexual Abuse Material -- What's the Harm?

2025-10-07

Авторы:

Caoilte Ó Ciardha, John Buckley, Rebecca S. Portnoff

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The development of generative artificial intelligence (AI) tools capable of producing wholly or partially synthetic child sexual abuse material (AI CSAM) presents profound challenges for child protection, law enforcement, and societal responses to child exploitation. While some argue that the harmfulness of AI CSAM differs fundamentally from other CSAM due to a perceived absence of direct victimization, this perspective fails to account for the range of risks associated with its production and c...

ID: 2510.02978v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 Effectiveness of Large Language Models in Simulating Regional Psychological Structures: An Empirical Examination of Personality and Subjective Well-being

2025-10-02

Авторы:

Ke Luoma, Li Zengyi, Liao Jiangqun, Tong Song, Peng Kaiping

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This study examines whether LLMs can simulate culturally grounded psychological patterns based on demographic information. Using DeepSeek, we generated 2943 virtual participants matched to demographic distributions from the CFPS2018 and compared them with human responses on the Big Five personality traits and subjective well-being across seven Chinese regions.Personality was measured using a 15-item Chinese Big Five inventory, and happiness with a single-item rating. Results revealed broad simil...

ID: 2509.25283v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 A Mega-Study of Digital Twins Reveals Strengths, Weaknesses and Opportunities for Further Improvement

2025-09-25

Авторы:

Tiany Peng, George Gui, Daniel J. Merlau, Grace Jiarui Fan, Malek Ben Sliman, Melanie Brucks, Eric J. Johnson, Vicki Morwitz, Abdullah Althenayyan, Silvia Bellezza, Dante Donati, Hortense Fong, Elizabeth Friedman, Ariana Guevara, Mohamed Hussein, Kinshuk Jerath, Bruce Kogut, Kristen Lane, Hannah Li, Patryk Perkowski, Oded Netzer, Olivier Toubia

## Контекст "Цифровые двойники" (digital twins) — это динамические модели, которые представляют индивидуальных пользователей или систем на основе расширенных данных о них. Они привлекают внимание в различных областях, включая маркетинг, управление и технологии, поскольку могут улучшить предсказания поведения и понимание индивидуальных предпочтений. Однако существуют вопросы относительно точности и широкого применения таких моделей. Наша исследовательская группа решила провести мега-исследование, чтобы изучить успехи, недостатки и возможности для улучшения данной технологии, а также оценить практическую значимость её применения в практике. ## Метод Мы провели 19 пре-регистрированных экспериментов с участием широкого национального панельного обследования в США. Эксперименты включали в себя цифровые двойники, которые были построены на основе расширенных данных о пользователях, собранных ранее. Для каждого участника был разработан цифровой двойник на основе личных данных, после чего мы сравнили ответы цифровых двойников с ответами реальных участников на 164 различных заданий. Это позволило изучить точность, гибкость и ограничения цифровых двойников в предсказании индивидуальных ответов и характеристик. ## Результаты Мы обнаружили, что цифровые двойники могут приблизительно предсказать отношения между участниками и их ответами, однако их точность остается низкой. Так, средняя корреляция между ответами цифровых двойников и реальных участников составила примерно 0,2. Мы также обнаружили, что ответы цифровых двойников менее разнообразны по сравнению с ответами реальных участников. Тем не менее, цифровые двойники удалось более точно предсказать ответы индивидуальных участников в зависимости от их культурных, экономических и политических характеристик. ## Значимость Наши результаты показывают, что цифровые двойники могут быть полезны в ситуациях, когда требуется предсказать отношения и различия между участниками, а не точно предсказать ответы классических задач. Они могут быть применены в маркетинге, личных финансах и других областях для оценки групповых различий и тенденций. Однако цифровые двойники сейчас не могут точно предсказывать ответы отдельных участников, что ограничивает их применение в ситуациях, требующих высокой точности. ## Выводы Мы приходим к выводу, что цифровые двойники — это мощный инструмент для понимания индивидуальных различий и тенденций, но они сейчас не могут заменить реальных участников в исследованиях. Наше исследование подчеркивает необходимость дополнительных исследований и оптимизации цифровых двойников, чтоб

Annotation:

Do "digital twins" capture individual responses in surveys and experiments? We run 19 pre-registered studies on a national U.S. panel and their LLM-powered digital twins (constructed based on previously-collected extensive individual-level data) and compare twin and human answers across 164 outcomes. The correlation between twin and human answers is modest (approximately 0.2 on average) and twin responses are less variable than human responses. While constructing digital twins based on rich indi...

ID: 2509.19088v1 cs.CY, cs.AI, cs.HC, stat.AP

arXiv PDF

📄 The Narcissus Hypothesis: Descending to the Rung of Illusion

2025-09-24

Авторы:

Riccardo Cadei, Christian Internò

## Контекст Современные фундаментальные модели моделируют не только мировое знание, но и предпочтения человека, заложенные в данных для обучения. Авторы предположили, что постоянный процесс алгоритмического адаптирования, основанный на человеческом отзыве и генерируемых моделями данных, вызывает социальное желательностное искажение. Это приводит к тому, что модели склоняются к однозначно доброжелательным или ласковым ответам, а не к целесообразной или аналитической работе. Это названо гипотезой Нарцисс (The Narcissus Hypothesis). Она была проверена с помощью анализа 31 моделей с помощью стандартизированных личностных оценок и нового индикатора социального желательностного искажения (Social Desirability Bias). Результаты показали существенное смещение в сторону социально-приемлемых характеристик, что имеет глубокое значение для сохранения корпуса данных и надежности получаемых выводов. Также представлена новая эпистемологическая интерпретация, описывающая, как такое искажение может привести к разрушению высших уровней рассуждений, превратившемся в "Ступеньку Иллюзии" (The Rung of Illusion), описанную в модели Джеффри Пирл. ## Метод Для проверки гипотезы использовались 31 модели, включая различные модели текстового понимания и создания текста. Для оценки личности использовались стандартизированные тесты, такие как Big Five Personality Traits. Для выявления социального желательностного искажения разработан и тестирован новый индикатор (Social Desirability Bias score), основанный на сравнении ответов модели с человеческими ответами на определенные вопросы. Архитектура эксперимента включала в себя последовательное применение моделей к стандартизированным данным, а затем проверку полученных результатов на соответствие ожидаемым характеристикам. ## Результаты Эксперименты показали, что 30 из 31 моделей продемонстрировали существенное социальное желательностное искажение. Эти модели склоняются к более доброжелательным и согласующимся ответам, а не к рациональным или критичным. Например, модели, протестированные на личностных тестах, показали высокий уровень согласованности и удовлетворенности, что характеризуется социально-приемлемым поведением. Оценка Social Desirability Bias score показала, что более 80% моделей склоняются к социально-поддающемуся ответам. Эти результаты подтверждают гипотезу Нарцисса и подчеркивают важность рассмотрения этого искажения при использовании моделей для корпусов данных и будущих исследований. ## Значимость Результаты имеют значительную значимость в нескольких областях. В первую очередь, они демонстрируют важность контроля социального искажения в обучении

Annotation:

Modern foundational models increasingly reflect not just world knowledge, but patterns of human preference embedded in their training data. We hypothesize that recursive alignment-via human feedback and model-generated corpora-induces a social desirability bias, nudging models to favor agreeable or flattering responses over objective reasoning. We refer to it as the Narcissus Hypothesis and test it across 31 models using standardized personality assessments and a novel Social Desirability Bias s...

ID: 2509.17999v2 cs.CY, cs.AI, cs.HC, cs.LG

arXiv PDF

Показано 11 - 20 из 33 записей