📚 Саммари научных статей из arXiv

Найдено 282 результатов по запросу 'cs.CY, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 When the Domain Expert Has No Time and the LLM Developer Has No Clinical Expertise: Real-World Lessons from LLM Co-Design in a Safety-Net Hospital

2025-08-14

Авторы:

Avni Kothari, Patrick Vossler, Jean Digitale, Mohammad Forouzannia, Elise Rosenberg, Michele Lee, Jennee Bryant, Melanie Molina, James Marks, Lucas Zier, Jean Feng

## Контекст В последние годы широко распространяются технологии, основанные на Больших Лингвистических Моделях (LLM), которые могут решать проблемы в области социальных и психологических факторов влияющих на здоровье. Однако использование LLM в ресурсоподдерживающих условиях, где есть серьезные ограничения ресурсов, требует глубокого понимания локального контекста. Однако в таких ситуациях, ни LLM, ни их разработчики не владеют таким контекстом, а грамотные эксперты часто не могут уделить достаточно времени для участия в процессе сотрудничества. Это создает проблему: как можно создавать эффективные LLM-приложения, если отсутствует взаимопонимание между разработчиками и экспертами? Мы исследовали этот вопрос в рамках реального случая, в котором наша команда по данным сотрудничала с социальными работниками бедрочного больницы для разработки приложения, которое автоматически сводит доклады о социальных потребностях пациентов. Наша работа сосредоточена на разработке кадрирующего фреймворка, который позволяет создавать LLM-приложения в условиях недостатка коммуникации с экспертами. ## Метод Мы разработали уникальный подход, основанный на декомпозиции задачи по созданию отчетов о социальных потребностях на независимые атрибуты. Каждый атрибут был оптимизирован и проверен с помощью многоуровневого подхода, включающего в себя несколько этапов. Мы использовали аппаратуру, способную обрабатывать входные данные с помощью LLM, и создали машинное обучение с учителем (supervised learning), чтобы обучать модели к обработке входных данных. Такой подход позволил уменьшить нагрузку на экспертов, тем самым оптимизировав процесс создания данных. Наша методика также включала в себя эффективное использование LLM для получения корректных и полных отчетов, а также разработку методов проверки точности и проверки результатов. ## Результаты Мы проводили ряд экспериментов, в которых применяли нашу модель к реальным данным, полученным из бедрочной больницы. Мы сравнивали результаты с другими алгоритмами и показали, что наш подход дает более точные и полные отчеты о социальных потребностях пациентов. Также мы проверили качество отчетов, проверив их на наличие ошибок и неточностей. Мы получили результаты, показывающие, что наша модель может значительно увеличить точность и полноту отчетов, что важно для практики в области здравоохранения. Эти результаты подтверждают, что наш подход может быть эффективно применен в реальных условиях. ## Значимость Наш подход может быть применен в многих областях, где требуется создание LLM-приложений для обработки необходимых данных в усло

Annotation:

Large language models (LLMs) have the potential to address social and behavioral determinants of health by transforming labor intensive workflows in resource-constrained settings. Creating LLM-based applications that serve the needs of underserved communities requires a deep understanding of their local context, but it is often the case that neither LLMs nor their developers possess this local expertise, and the experts in these communities often face severe time/resource constraints. This creat...

ID: 2508.08504v1 cs.CY, cs.AI, cs.LG

arXiv PDF

📄 AI Agents and the Law

2025-08-14

Авторы:

Mark O. Riedl, Deven R. Desai

## Контекст Современные развития в области искусственного интеллекта (ИИ) приводят к тому, что ИИ-системы adquire a more "agentic" nature, позволяя им автономно выполнять задачи в интересах пользователей. Это расширяет их экономическое потенциал, но также приводит к новым техническим и бюрократическим вызовам. Одним из ключевых вопросов является понимание, как эти новые возможности взаимодействуют с законами и правовыми нормами, определяющими ответственность и юридический статус агентов. Настоящая статья изучает техническую и правовую стороны этого вопроса, а также дает понять, как ИИ-агенты могут изменить существующие правовые рамочные понятия, особенно в сферах электронной коммерции и управления технологическими системами. Изучение этого взаимодействия помогает ответить на вопросы о юридических ответственности, любезности и прозрачности в DEI-системах. ## Метод Для изучения проблемы используется синергетический подход, объединяющий технический анализ и правовые исследования. Для технической части используются модели ИИ, рассматривающиеся как системы, решающие задачи в рамках определенных целей и ограничений. Для правовых аспектов внимание уделяется концепциям агентства, имплементации и обязательств в законе. Ключевая методика состоит в синтезе технических моделей и правовых теорий, чтобы выявить точки совпадения и различий. Эта стратегия позволяет выявить закономерности в поведении ИИ-агентов и спрогнозировать их юридические последствия. Также исследуются кейсы, в которых действия ИИ-агентов могут привести к непредвиденным последствиям. ## Результаты Исследование выявило несколько ключевых различий между техническими и правовыми подходами к понятию агентства. Например, в ИИ-системах часто имеется проблема недостаточной формализации целей, которая может привести к непредвиденному поведению. Также были выявлены недостатки в понимании роли взаимоотношений ИИ-агентов с третьими сторонами, которые могут не соответствовать юридическим нормам, таким как доверие и лояльность. В результате ИИ-системы могут вступить в ситуации, когда их действия не соответствуют ожиданиям пользователей или закона. Например, в электронной коммерции ИИ-агенты могут принять решения, которые не являются в полной мере лояльными к интересам покупателей или продавцов. Это может привести к конфликтам и юридическим спорам. ## Значимость Результаты имеют значительное значение для развития юридических и технических фреймворков

Annotation:

As AI becomes more "agentic," it faces technical and socio-legal issues it must address if it is to fulfill its promise of increased economic productivity and efficiency. This paper uses technical and legal perspectives to explain how things change when AI systems start being able to directly execute tasks on behalf of a user. We show how technical conceptions of agents track some, but not all, socio-legal conceptions of agency. That is, both computer science and the law recognize the problems o...

ID: 2508.08544v1 cs.CY, cs.AI

arXiv PDF

📄 Who pays the RENT? Implications of Spatial Inequality for Prediction-Based Allocation Policies

2025-08-14

Авторы:

Tasfia Mashiat, Patrick J. Fowler, Sanmay Das

## Контекст Современные системы по аллокации ограниченных ресурсов часто полагаются на искусственный интеллект (ИИ) для определения целей, которым необходимы помощь или ресурсы. Однако в случае высокой специфичности целей (например, высокорисковых групп или урбанизированных районов), эффективность таких политик может существенно зависеть от того, как риск или необходимость распределяется в пространстве. Изучение этого взаимодействия становится ключевым для того, чтобы оптимально использовать системы аллокации в ситуациях высокой пространственной неравенства. Например, примитивные политики, ориентированные на неточную сегментацию, могут значительно снизить эффективность в ситуациях, когда необходимы точные индивидуальные действия. С другой стороны, алгоритмы прогнозирования могут использовать пространственную неравенство для рассчитанных моделей. Наша мотивация заключается в изучении этих противоречивых результатов с помощью стилизованного моделирования и применения на реальных данных. ## Метод Для исследования пространственной неравенства и ее влияния на эффективность стратегий аллокации, мы разработали модель на основе Mallows, которая позволяет учитывать географическую концентрацию рисков. Данная модель позволяет визуализировать концентрацию рисков в пространстве и симулировать различные типы стратегий аллокации. Мы ввели **RENT (Relative Efficiency of Non-Targeting)** как метрику для сравнения производительности целевой стратегии (таргетинга) с базовым неточным методом (неточной аллокации). Мы также проводили эксперименты с данными о неточных аллокациях из среднего города США, чтобы оценить эффективность различных стратегий в контексте реальных задач. Эти данные включали юридические записи, такие как заявления о неплатежах и спецификации неблагоприятных кварталов. Модель использовала зависимость риска от местоположения, чтобы оптимизировать решения по аллокации. ## Результаты Наши эксперименты показали, что при высокой концентрации рисков в определенных районах, таргетинговые политики могут значительно повысить эффективность, даже при высоком уровне неравенства. В частности, использование модели Mallows позволяло определять, где именно необходимо сосредоточить усилия, чтобы минимизировать неблагоприятные последствия, такие как неплатежи или вы desjatki. Метрика RENT показала, что стратегии таргетинга могут привести к более высокой целевой эффективности, даже в условиях высокой пространственной неравенства, возникающей в политических, социальных и экономических сегментах города. ## Значимость Наша работа имеет значительные применения в сфере социальных услуг и AI-аллокационных поли

Annotation:

AI-powered scarce resource allocation policies rely on predictions to target either specific individuals (e.g., high-risk) or settings (e.g., neighborhoods). Recent research on individual-level targeting demonstrates conflicting results; some models show that targeting is not useful when inequality is high, while other work demonstrates potential benefits. To study and reconcile this apparent discrepancy, we develop a stylized framework based on the Mallows model to understand how the spatial di...

ID: 2508.08573v1 cs.CY, cs.AI

arXiv PDF

📄 Securing Educational LLMs: A Generalised Taxonomy of Attacks on LLMs and DREAD Risk Assessment

2025-08-14

Авторы:

Farzana Zahid, Anjalika Sewwandi, Lee Brandon, Vimal Kumar, Roopak Sinha

#### Контекст В последние годы большинство организаций, включая образовательные учреждения, начали внедрять большие языковые модели (LLMs) в свои рабочие процессы для улучшения производительности и эффективности. Из-за повышенного интереса к поддержке обучения и управления, большие языковые модели (LLMs) в образовательной сфере, которые включают в себя модели для преподавателей, студентов и учреждений, называются Образовательными Большими Языковыми Моделями (eLLMs). Однако их интеграция в образовательный процесс вызывает значительные проблемы безопасности. Отсутствие полного знакомства с типами, распространенными нападениями на LLMs и их последствиями в образовательных организациях является значительной проблемой. Данная работа предлагает комплексный подход к разработке концептуальной номенклатуры атак на LLMs, который может помочь улучшить их безопасность в образовательной сфере. #### Метод Разработанная методология включает в себя углубленный анализ текущего состояния исследований в области безопасности LLMs. Был разработан специальный спектр атак, направленных на модели и их инфраструктуру. Эти атаки разделены на 50 категорий, которые охватывают различные аспекты безопасности. Далее, для оценки риска атак в образовательной сфере был использован фреймворк DREAD. Этот фреймворк предназначен для оценки уровня риска и потенциального воздействия атак, основываясь на нескольких критериях. Результаты оценки позволяют определить наиболее критичные угрозы для образовательных LLM, чтобы принять меры по их устранению. #### Результаты На основе проведенных экспериментов и оценок было выявлено, что некоторые атаки, такие как token smuggling, adversarial prompts, direct injection и multi-step jailbreak, являются самыми критичными для образовательных LLM. Эти атаки могут привести к значительным последствиям, включая повреждение данных, недостоверность ответов модели и даже пресечение обучения. Оценка риска с помощью DREAD показала, что эти атаки имеют высокий потенциальный уровень вреда и риска. Таким образом, результаты экспериментов подтверждают важность создания конкретных мер для защиты образовательных LLM от этих угроз. #### Значимость Разработанная номенклатура и фреймворк DREAD могут применяться в области образования для разработки более надежных и безопасных LLM. Они подходят для обеспечения безопасности обучения, обучения самостоятельно и управления учебными процессами. Помимо этого, их можно использовать для проверки и создания новых безопасных LLM-решений, которые могут воспользоваться всеми участниками образовательного процесса. Важность этой работы заключается в том, что она предо

Annotation:

Due to perceptions of efficiency and significant productivity gains, various organisations, including in education, are adopting Large Language Models (LLMs) into their workflows. Educator-facing, learner-facing, and institution-facing LLMs, collectively, Educational Large Language Models (eLLMs), complement and enhance the effectiveness of teaching, learning, and academic operations. However, their integration into an educational setting raises significant cybersecurity concerns. A comprehensiv...

ID: 2508.08629v1 cs.CY, cs.AI

arXiv PDF

📄 Urban-STA4CLC: Urban Theory-Informed Spatio-Temporal Attention Model for Predicting Post-Disaster Commercial Land Use Change

2025-08-14

Авторы:

Ziyi Guo, Yan Wang

## Контекст Урбанизация, в сочетании с частыми природными бедствиями, ведущими к изменению паттернов экономической деятельности, представляет собой ключевую проблему для современной планировки городов. Наиболее чувствительными к таким изменениям являются коммерческие земли, так как их величина и расположение тесно связаны с уровнем посещаемости. Однако существующие модели предсказания изменений коммерческих земель не учитывают взаимодействия между человеческими активностями и экономическими переменами после бедствий. Эти взаимодействия лучше всего описаны в теориях устойчивого городского развития, которые до сих пор не были интегрированы в моделирование. Наша исследовательская цель — разработать модель, которая была бы в состоянии эффективно предсказывать изменения коммерческих земель под влиянием последствий бедствий, учитывая теорию. ## Метод Модель Urban-STA4CLC (Urban Theory-Informed Spatio-Temporal Attention Model for Predicting Post-Disaster Commercial Land Use Change) основывается на трех теориях: ресурсной теории, экономической теории и теории распространения. Ее архитектура включает в себя следующие модули: 1. **Disaster-Aware Temporal Attention Module**: Используя устойчивость как гида, этот модуль анализирует динамику посещаемости зданий в ходе и после бедствий. 2. **Multi-Relational Spatial Attention Module**: Основывается на экономической теории для представления взаимодействий между районами. 3. **Diffusion Regularization**: Регуляризационный терм, опирающийся на теорию распространения, контролирует переходы в типах коммерческих земель. Модель обучалась на данных о посещаемости и типах коммерческих земель с целью предсказать их изменения в течение двух лет после бедствий. ## Результаты Мы провели эксперименты на данных, охватывающих несколько городов, поврежденных штормами. Модель Urban-STA4CLC показала улучшение F1-меры в 19% (до 0.8763) по сравнению с не-теоретическими базовыми решениями. Абляционные исследования подтвердили эффективность каждого теоретически подкрепленного модуля. Модель была успешно применена для прогнозирования изменений размера и типа коммерческих земель в условиях повторяющихся бедствий. ## Значимость Результаты имеют практическое значение для управления земельными ресурсами в условиях повторяющихся бедствий. Модель может использоваться в планировании городов, которое учитывает взаимосвязи между гуманитарными активностями и земельными ресурсами. Благодаря интеграции теории, модель предоставляет более точные прогнозы и позволяет разрабатывать стратегии для устойчивого развития городов. ## Выводы Это исследование показывает, что интеграция те

Annotation:

Natural disasters such as hurricanes and wildfires increasingly introduce unusual disturbance on economic activities, which are especially likely to reshape commercial land use pattern given their sensitive to customer visitation. However, current modeling approaches are limited in capturing such complex interplay between human activities and commercial land use change under and following disturbances. Such interactions have been more effectively captured in current resilient urban planning theo...

ID: 2508.08976v1 cs.CY, cs.AI

arXiv PDF

📄 Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams

2025-08-14

Авторы:

Zane Witherspoon, Thet Mon Aye, YingYing Hao

## Контекст Становление широкомасштабных языковых моделей (LLM) определяет новый этап в развитии искусственного интеллекта. Эти модели показали потрясающие возможности в области обработки текста, но ряд вопросов остается открытым, в том числе в области подготовки к профессиональным экзаменам, посвященным тем вопросам, как регулирование конфиденциальности данных и управление ими. Многие компании развернули обучение LLMs с целью повысить эффективность рабочего процесса, но вопрос о достоверности их решений в сфере юридического и технического гуманитарного контроля, в том числе в сфере управления данными и соблюдением законодательства о конфиденциальности, остается актуальным. Поэтому, в данной статье мы рассматриваем возможность использования LLMs в регулировании технологий, путем проведения эксперимента: проверка того, насколько эти модели могут пройти сертификационные экзамены в сфере юридических и технических аспектов конфиденциальности. Эта исследовательская работа ставит целью определить, насколько LLMs могут оказать полезную поддержку для профессионалов в области конфиденциальности и технологического управления, а также понять, насколько эти модели могут стать надежным инструментом в решении управленческих задач. ## Метод Мы провели эксперимент, в котором использовали 10 различных языковых моделей, включая коммерческие и открытые версии, например, GPT-5 от OpenAI, Gemini 2.5 Pro, Claude 2 от Anthropic и другие. Для проверки все модели были подвергнуты экзаменам по темам конфиденциальности, управления данными и технического контроля, в том числе CIPP/US, CIPM, CIPT и AIGP от International Association of Privacy Professionals (IAPP). На экзаменах LLMs отвечали на вопросы, аналогичные тем, которые появляются в экзаменах IAPP. Экзамены проводились в закрытой форме (без доступа к интернету и внешним источникам), чтобы создать эквивалентные условия для людей, сдающих эти экзамены. Результаты были сравнены с пороговыми значениями IAPP для получения сертификата. Это позволило определить, насколько модели LLMs могут быть конкурентоспособными на профессиональных экзаменах. ## Результаты Мы обнаружили, что некоторые модели LLMs показали выдающиеся результаты, превысив пороговые значения IAPP для профессионального сертификата. Например, GPT-5 от OpenAI и Gemini 2.5 Pro получили отметки выше 80% на нескольких экзаменах, что показывает их высокую компетентность в теме регулирования конфиденциальности и технологического управления. Тем не менее, другие модели, такие как Claude 2, оказались менее эффективными в некоторых областях, особенно в особенностях технического контроля. ## Значимость Наша иссле

Annotation:

The rapid emergence of large language models (LLMs) has raised urgent questions across the modern workforce about this new technology's strengths, weaknesses, and capabilities. For privacy professionals, the question is whether these AI systems can provide reliable support on regulatory compliance, privacy program management, and AI governance. In this study, we evaluate ten leading open and closed LLMs, including models from OpenAI, Anthropic, Google DeepMind, Meta, and DeepSeek, by benchmarkin...

ID: 2508.09036v1 cs.CY, cs.AI

arXiv PDF

📄 "Draw me a curator" Examining the visual stereotyping of a cultural services profession by generative AI

2025-08-13

Авторы:

Dirk HR Spennemann

## Контекст Область исследования связана с исследованием влияния генерирующих систем на социальное восприятие профессиональных ролей. Этот вопрос приобрёл актуальность в последние годы, когда генерирующие модели искусственного интеллекта (AI) стали востребованными инструментами для генерации изображений и текстов. В статье рассматривается проблема воспроизведения стереотипов в изображениях, генерируемых моделью ChatGPT4o. Эта модель входит в крупнейшие генерирующие системы и широко используется в различных приложениях. Несмотря на высокую точность AI, она не всегда отражает реальность. Тем более, если речь идёт о профессиональных ролях, профилях которых могут быть основаны на устаревших стереотипах. Такое отношение к генерируемым изображениям может привести к устойчивости фальшивых представлений о профессии. Например, в области культурных услуг, где работники часто сталкиваются с клиентами и партнёрами, некорректное представление может привести к стереотипированному взгляду на конкретную профессию. ## Метод Для анализа использовалась модель ChatGPT4o, генерирующая изображения на основе текстовых запросов. Автор создал 230 текстовых запросов, описывающих профессию культурных работников, и получил 230 изображений. Далее он проанализировал эти изображения на наличие стереотипов, которые могут быть связаны с профессиональными ролями культурных работников. Автор использовал визуальные анализы и статистический анализ, чтобы определить, какие стереотипы воспроизводятся в генерируемых изображениях. Он также сравнил результаты генерируемых изображений с демографическими данными о реальных культурных работниках. ## Результаты В результате анализа выяснилось, что генерирующая модель ChatGPT4o генерирует изображения, которые в основном не отражают реальную демографию культурных работников. Например, они тенденционно представляют национальные меньшинства, такие как Африканцы и Латиноамериканцы, в значительно меньшем количестве, чем они есть в реальности. Также отчётливо выделяются определённые стереотипы, такие как юный возраст (79% изображений), стиль одежды, похожий на модные рекламы, и атрибуты, такие как борода и принадлежности, такие как клипборды или электронные таблетки. Однако изображения не отражают полноту настоящего профессионального состава: женщины во вторичных ролях вообще отсутствуют в генерируемых изображениях, хотя их процент в реальности составляет 49-72%. Это свидетельствует о существующих стереотипах и их влиянии на систему генери

Annotation:

Based on 230 visualisations, this paper examines the depiction of museum curators by the popular generative Artificial Intelligence (AI) model, ChatGPT4o. While the AI-generated representations do not reiterate popular stereotypes of curators as nerdy, conservative in dress and stuck in time rummaging through collections, they contrast sharply with real-world demographics. AI-generated imagery extremely underrepresents women (3.5% vs 49% to 72% in reality) and disregards ethnic communities other...

ID: 2508.07132v1 cs.CY, cs.AI

arXiv PDF

📄 Intersectoral Knowledge in AI and Urban Studies: A Framework for Transdisciplinary Research

2025-08-13

Авторы:

Rashid Mushkani

## Контекст Трансдисциплинарные подходы ad hoc стремятся решать глобальные задачи социального характера, особенно в области Искусственного Интеллекта (ИИ), городских градостроительных процессов и социальных наук. Однако интеграция знаний из различных дисциплин остается трудной задачей. Особенностью этого доклада является рассмотрение этой проблемы через призму социально-социальных знаний и интеллектуальных процессов, которые взаимодействуют в рамках ИИ и градостроительных проектов. Основная цель — разработать новую трансдисциплинарную модель, которая позволит лучше понять интеллектуальные процессы, взаимодействующие с социальным миром. На практике это может быть использовано для развития новых моделей того, как системы ИИ могут участвовать в решении социальных проблем. ## Метод Методология основывается на трансдисциплинарном подходе, который включает классификацию и анализ доносительных знаний с помощью различных критериев. Исследователю предлагается использовать метод актуализации эмпирических данных, применяя множество фильтров и критериев подбора. Архитектура модели включает в себя классификационную структуру, использующую критерии: - **Онтологические** (философия объекта исследования); - **Эпистемологические** (знания и методы их получения); - **Методологические** (методы исследования); - **Телеологические** (цели исследования); - **Аксиологические** (ценности и ценностные ориентации); - **Валидационные** (методы валидации знаний). ## Результаты Исследователь осуществляет классификацию и анализ статей, полученных в течение десятилетия (2014–2024), которые наиболее активно применяются в ИИ и городских исследованиях. При этом применяется ключевый подход к классификации знаний в рамках шести описанных критериев. Результаты показывают, что наиболее часто используются подходы, основанные на критическом реализме (онтология), позитивизме (эпистемология), аналитических методах (методология), консклюэнциализме (телеология), эпистемических знаниях (аксиология) и социально-экономическому ценностному ориентиру (валидация). Редкие ориентации, такие как идеализм, смешанные методы и культурная валидация, также были отобраны, и их потенциал в развитии знаний был оценен. ## Значимость Предлагаемая модель может применяться в различных областях, таких как городское планирование, ИИ, социальные науки, и улучшать интеллектуальные процессы в решении социальных проблем. Ее преимущества заключаются в том, что она позволя

Annotation:

Transdisciplinary approaches are increasingly essential for addressing grand societal challenges, particularly in complex domains such as Artificial Intelligence (AI), urban planning, and social sciences. However, effectively validating and integrating knowledge across distinct epistemic and ontological perspectives poses significant difficulties. This article proposes a six-dimensional framework for assessing and strengthening transdisciplinary knowledge validity in AI and city studies, based o...

ID: 2508.07507v1 cs.CY, cs.AI

arXiv PDF

📄 Advancing Knowledge Tracing by Exploring Follow-up Performance Trends

2025-08-13

Авторы:

Hengyu Liu, Yushuai Li, Minghe Yu, Tiancheng Zhang, Ge Yu, Torben Bach Pedersen, Kristian Torp, Christian S. Jensen, Tianyi Li

## Контекст Квалификационные системы, такие как Massive Open Online Courses (MOOCs), представляют собой новый формат обучения, который позволяет широкому кругу пользователей получать знания онлайн. Одной из важных задач в таких системах является **Knowledge Tracing (KT)** — предсказание познаний учащихся на базе анализа их исторических данных обучения. Это позволяет оценивать их знания в течение времени и адаптировать контент к их потребностям. Однако существующие методы KT часто сталкиваются с проблемами, такими как корреляционные конфликты при анализе последовательностей учебных действий и их влияния на будущие результаты. Эти проблемы могут привести к неточным предсказаниям. Наше исследооание ориентировано на развитие KT-методов, улучшение их точности и учет контекстуальных характеристик учебных последовательностей. ## Метод Мы предлагаем метод **Forward-Looking Knowledge Tracing (FINER)**, который совершенствует KT за счет использования Follow-up Performance Trends (FPTs) — тенденций постфактум производительности учащихся. FINER включает несколько ключевых компонентов. Во-первых, он **строит обучающие шаблоны** для эффективного восстановления FPTs из исторических данных ITS в линейной сложности. Во-вторых, FINER включает **новую агрегационную механизм акцента**, который учитывает как частоту трендов, так и их контекстуальную связь. Эта механика позволяет лучше интегрировать FPTs в процесс предсказания. В-третьих, FINER объединяет FPTs с историческими последовательностями учебных действий, чтобы обеспечить более точные прогнозы будущих результатов. Эта структура позволяет FINER улучшить точность KT и сделать его более устойчивым к корреляционным проблемам. ## Результаты Мы провели эксперименты с восьми реальными данными ITS (Massive Open Online Courses) и сравнили FINER с десятью современными KT-методами. Результаты показали, что FINER превосходит другие методы в широком диапазоне, повысив точность предсказания от 8.74% до 84.85% в зависимости от данных. Эти результаты указывают на эффективность FINER в учете контекстуальных трендов и улучшении предсказания познаний учащихся. Мы также доказали, что FPTs дают существенный вклад в улучшение точности, поскольку они аккуратно учитывают характеристики последовательности учебных действий. ## Значимость FINER может быть применен в различных областях, таких как образовательные платформы, системы учебного анализа и системы экспертного мониторинга. Его преимущества заключаются в улучшении точности прогнозирования, усовершенствовании оценки познаний, а также в устойчивости к ошибкам, связанным с корреляционными проб

Annotation:

Intelligent Tutoring Systems (ITS), such as Massive Open Online Courses, offer new opportunities for human learning. At the core of such systems, knowledge tracing (KT) predicts students' future performance by analyzing their historical learning activities, enabling an accurate evaluation of students' knowledge states over time. We show that existing KT methods often encounter correlation conflicts when analyzing the relationships between historical learning sequences and future performance. To ...

ID: 2508.08019v1 cs.CY, cs.AI, cs.LG

arXiv PDF

📄 Street-Level AI: Are Large Language Models Ready for Real-World Judgments?

2025-08-13

Авторы:

Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das

#### Контекст Область исследования "Street-Level AI" фокусируется на исследовании технологий, которые принимают решения в сферах, требующих социальной ответственности и человеческого вмешательства. Задача LLM (Large Language Models) в этой области — помогать или заменять "street-level bureaucrats", лица, которые принимают решения о присвоении ресурсов и поддержке в условиях ограниченных возможностей. Несмотря на то, что существует обширная литература о философских, этических и юридических аспектах гомонестового браунианского моделирования, есть недостаточно исследований о конкретных реалиях, в которых AI применяется в реальных условиях. Особенно важно рассмотреть, насколько AI может согласовываться с человеческими и официальными методами принятия решений в критически важных областях, таких как распределение ресурсов для бездомных. #### Метод Эксперименты были проведены на реальных данных, маскированных в соответствии с конфиденциальностью, которые отражают реальные ситуации в сфере помощи бездомным. Методология включала сравнение решений LLM с локальным моделированием и человеческими принятием решений. Использовались модели, которые были обучены на регулярных данных и применялись для оценки важности или приоритета. Было изучено соответствие решений, принятых AI моделями, с реальными жизненными ситуациями, включая вопросы несоответствия и упущений. #### Результаты Основные находки показывают, что LLM оказываются непоследовательными в своих решениях, что заметно в разных повторных экспериментах на одних и тех же данных, а также в сравнении решений разных моделей. Эти несоответствия отмечаются как внутри LLM, так и в сравнении с официальными методами, такими как scoring systems, которые используются для оценки возможностей помощи. Однако, в парном тестировании с человеческими решениями, LLM демонстрируют качественную консистентность, в том числе в сравнении с людьми, которые не имеют специальной экспертной подготовки. #### Значимость Находки доказывают, что нынешние LLM еще не готовы к применению в реальных условиях, где решения критически важны. Они могут быть полезны в качестве вспомогательных средств для экспертов, но не для непосредственного принятия решений. Их потенциальное влияние может быть ограничено, пока не будут решены проблемы непоследовательности и несовпадения с методами, которые используются в реальных условиях. Этот подход может быть расширен для других критически важных областей, таких как распределение здравоохранения или услуг в области образования. #### Выводы Основные достижения этих исследований заключаются в том, что невозможность LLM постоянно согласовываться с реальными нуждами и официа

Annotation:

A surge of recent work explores the ethical and societal implications of large-scale AI models that make "moral" judgments. Much of this literature focuses either on alignment with human judgments through various thought experiments or on the group fairness implications of AI judgments. However, the most immediate and likely use of AI is to help or fully replace the so-called street-level bureaucrats, the individuals deciding to allocate scarce social resources or approve benefits. There is a ri...

ID: 2508.08193v1 cs.CY, cs.AI

arXiv PDF

1
2
25
26
27
28
29

Показано 261 - 270 из 282 записей