📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Avni Kothari, Patrick Vossler, Jean Digitale, Mohammad Forouzannia, Elise Rosenberg, Michele Lee, Jennee Bryant, Melanie Molina, James Marks, Lucas Zier, Jean Feng
## Контекст
В последние годы широко распространяются технологии, основанные на Больших Лингвистических Моделях (LLM), которые могут решать проблемы в области социальных и психологических факторов влияющих на здоровье. Однако использование LLM в ресурсоподдерживающих условиях, где есть серьезные ограничения ресурсов, требует глубокого понимания локального контекста. Однако в таких ситуациях, ни LLM, ни их разработчики не владеют таким контекстом, а грамотные эксперты часто не могут уделить достаточно времени для участия в процессе сотрудничества. Это создает проблему: как можно создавать эффективные LLM-приложения, если отсутствует взаимопонимание между разработчиками и экспертами? Мы исследовали этот вопрос в рамках реального случая, в котором наша команда по данным сотрудничала с социальными работниками бедрочного больницы для разработки приложения, которое автоматически сводит доклады о социальных потребностях пациентов. Наша работа сосредоточена на разработке кадрирующего фреймворка, который позволяет создавать LLM-приложения в условиях недостатка коммуникации с экспертами.
## Метод
Мы разработали уникальный подход, основанный на декомпозиции задачи по созданию отчетов о социальных потребностях на независимые атрибуты. Каждый атрибут был оптимизирован и проверен с помощью многоуровневого подхода, включающего в себя несколько этапов. Мы использовали аппаратуру, способную обрабатывать входные данные с помощью LLM, и создали машинное обучение с учителем (supervised learning), чтобы обучать модели к обработке входных данных. Такой подход позволил уменьшить нагрузку на экспертов, тем самым оптимизировав процесс создания данных. Наша методика также включала в себя эффективное использование LLM для получения корректных и полных отчетов, а также разработку методов проверки точности и проверки результатов.
## Результаты
Мы проводили ряд экспериментов, в которых применяли нашу модель к реальным данным, полученным из бедрочной больницы. Мы сравнивали результаты с другими алгоритмами и показали, что наш подход дает более точные и полные отчеты о социальных потребностях пациентов. Также мы проверили качество отчетов, проверив их на наличие ошибок и неточностей. Мы получили результаты, показывающие, что наша модель может значительно увеличить точность и полноту отчетов, что важно для практики в области здравоохранения. Эти результаты подтверждают, что наш подход может быть эффективно применен в реальных условиях.
## Значимость
Наш подход может быть применен в многих областях, где требуется создание LLM-приложений для обработки необходимых данных в усло
Annotation:
Large language models (LLMs) have the potential to address social and
behavioral determinants of health by transforming labor intensive workflows in
resource-constrained settings. Creating LLM-based applications that serve the
needs of underserved communities requires a deep understanding of their local
context, but it is often the case that neither LLMs nor their developers
possess this local expertise, and the experts in these communities often face
severe time/resource constraints. This creat...
📄 AI Agents and the Law
2025-08-14Авторы:
Mark O. Riedl, Deven R. Desai
## Контекст
Современные развития в области искусственного интеллекта (ИИ) приводят к тому, что ИИ-системы adquire a more "agentic" nature, позволяя им автономно выполнять задачи в интересах пользователей. Это расширяет их экономическое потенциал, но также приводит к новым техническим и бюрократическим вызовам. Одним из ключевых вопросов является понимание, как эти новые возможности взаимодействуют с законами и правовыми нормами, определяющими ответственность и юридический статус агентов.
Настоящая статья изучает техническую и правовую стороны этого вопроса, а также дает понять, как ИИ-агенты могут изменить существующие правовые рамочные понятия, особенно в сферах электронной коммерции и управления технологическими системами. Изучение этого взаимодействия помогает ответить на вопросы о юридических ответственности, любезности и прозрачности в DEI-системах.
## Метод
Для изучения проблемы используется синергетический подход, объединяющий технический анализ и правовые исследования. Для технической части используются модели ИИ, рассматривающиеся как системы, решающие задачи в рамках определенных целей и ограничений. Для правовых аспектов внимание уделяется концепциям агентства, имплементации и обязательств в законе.
Ключевая методика состоит в синтезе технических моделей и правовых теорий, чтобы выявить точки совпадения и различий. Эта стратегия позволяет выявить закономерности в поведении ИИ-агентов и спрогнозировать их юридические последствия. Также исследуются кейсы, в которых действия ИИ-агентов могут привести к непредвиденным последствиям.
## Результаты
Исследование выявило несколько ключевых различий между техническими и правовыми подходами к понятию агентства. Например, в ИИ-системах часто имеется проблема недостаточной формализации целей, которая может привести к непредвиденному поведению. Также были выявлены недостатки в понимании роли взаимоотношений ИИ-агентов с третьими сторонами, которые могут не соответствовать юридическим нормам, таким как доверие и лояльность.
В результате ИИ-системы могут вступить в ситуации, когда их действия не соответствуют ожиданиям пользователей или закона. Например, в электронной коммерции ИИ-агенты могут принять решения, которые не являются в полной мере лояльными к интересам покупателей или продавцов. Это может привести к конфликтам и юридическим спорам.
## Значимость
Результаты имеют значительное значение для развития юридических и технических фреймворков
Annotation:
As AI becomes more "agentic," it faces technical and socio-legal issues it
must address if it is to fulfill its promise of increased economic productivity
and efficiency. This paper uses technical and legal perspectives to explain how
things change when AI systems start being able to directly execute tasks on
behalf of a user. We show how technical conceptions of agents track some, but
not all, socio-legal conceptions of agency. That is, both computer science and
the law recognize the problems o...
📄 Who pays the RENT? Implications of Spatial Inequality for Prediction-Based Allocation Policies
2025-08-14Авторы:
Tasfia Mashiat, Patrick J. Fowler, Sanmay Das
## Контекст
Современные системы по аллокации ограниченных ресурсов часто полагаются на искусственный интеллект (ИИ) для определения целей, которым необходимы помощь или ресурсы. Однако в случае высокой специфичности целей (например, высокорисковых групп или урбанизированных районов), эффективность таких политик может существенно зависеть от того, как риск или необходимость распределяется в пространстве. Изучение этого взаимодействия становится ключевым для того, чтобы оптимально использовать системы аллокации в ситуациях высокой пространственной неравенства.
Например, примитивные политики, ориентированные на неточную сегментацию, могут значительно снизить эффективность в ситуациях, когда необходимы точные индивидуальные действия. С другой стороны, алгоритмы прогнозирования могут использовать пространственную неравенство для рассчитанных моделей. Наша мотивация заключается в изучении этих противоречивых результатов с помощью стилизованного моделирования и применения на реальных данных.
## Метод
Для исследования пространственной неравенства и ее влияния на эффективность стратегий аллокации, мы разработали модель на основе Mallows, которая позволяет учитывать географическую концентрацию рисков. Данная модель позволяет визуализировать концентрацию рисков в пространстве и симулировать различные типы стратегий аллокации. Мы ввели **RENT (Relative Efficiency of Non-Targeting)** как метрику для сравнения производительности целевой стратегии (таргетинга) с базовым неточным методом (неточной аллокации).
Мы также проводили эксперименты с данными о неточных аллокациях из среднего города США, чтобы оценить эффективность различных стратегий в контексте реальных задач. Эти данные включали юридические записи, такие как заявления о неплатежах и спецификации неблагоприятных кварталов. Модель использовала зависимость риска от местоположения, чтобы оптимизировать решения по аллокации.
## Результаты
Наши эксперименты показали, что при высокой концентрации рисков в определенных районах, таргетинговые политики могут значительно повысить эффективность, даже при высоком уровне неравенства. В частности, использование модели Mallows позволяло определять, где именно необходимо сосредоточить усилия, чтобы минимизировать неблагоприятные последствия, такие как неплатежи или вы desjatki. Метрика RENT показала, что стратегии таргетинга могут привести к более высокой целевой эффективности, даже в условиях высокой пространственной неравенства, возникающей в политических, социальных и экономических сегментах города.
## Значимость
Наша работа имеет значительные применения в сфере социальных услуг и AI-аллокационных поли
Annotation:
AI-powered scarce resource allocation policies rely on predictions to target
either specific individuals (e.g., high-risk) or settings (e.g.,
neighborhoods). Recent research on individual-level targeting demonstrates
conflicting results; some models show that targeting is not useful when
inequality is high, while other work demonstrates potential benefits. To study
and reconcile this apparent discrepancy, we develop a stylized framework based
on the Mallows model to understand how the spatial di...
📄 Securing Educational LLMs: A Generalised Taxonomy of Attacks on LLMs and DREAD Risk Assessment
2025-08-14Авторы:
Farzana Zahid, Anjalika Sewwandi, Lee Brandon, Vimal Kumar, Roopak Sinha
#### Контекст
В последние годы большинство организаций, включая образовательные учреждения, начали внедрять большие языковые модели (LLMs) в свои рабочие процессы для улучшения производительности и эффективности. Из-за повышенного интереса к поддержке обучения и управления, большие языковые модели (LLMs) в образовательной сфере, которые включают в себя модели для преподавателей, студентов и учреждений, называются Образовательными Большими Языковыми Моделями (eLLMs). Однако их интеграция в образовательный процесс вызывает значительные проблемы безопасности. Отсутствие полного знакомства с типами, распространенными нападениями на LLMs и их последствиями в образовательных организациях является значительной проблемой. Данная работа предлагает комплексный подход к разработке концептуальной номенклатуры атак на LLMs, который может помочь улучшить их безопасность в образовательной сфере.
#### Метод
Разработанная методология включает в себя углубленный анализ текущего состояния исследований в области безопасности LLMs. Был разработан специальный спектр атак, направленных на модели и их инфраструктуру. Эти атаки разделены на 50 категорий, которые охватывают различные аспекты безопасности. Далее, для оценки риска атак в образовательной сфере был использован фреймворк DREAD. Этот фреймворк предназначен для оценки уровня риска и потенциального воздействия атак, основываясь на нескольких критериях. Результаты оценки позволяют определить наиболее критичные угрозы для образовательных LLM, чтобы принять меры по их устранению.
#### Результаты
На основе проведенных экспериментов и оценок было выявлено, что некоторые атаки, такие как token smuggling, adversarial prompts, direct injection и multi-step jailbreak, являются самыми критичными для образовательных LLM. Эти атаки могут привести к значительным последствиям, включая повреждение данных, недостоверность ответов модели и даже пресечение обучения. Оценка риска с помощью DREAD показала, что эти атаки имеют высокий потенциальный уровень вреда и риска. Таким образом, результаты экспериментов подтверждают важность создания конкретных мер для защиты образовательных LLM от этих угроз.
#### Значимость
Разработанная номенклатура и фреймворк DREAD могут применяться в области образования для разработки более надежных и безопасных LLM. Они подходят для обеспечения безопасности обучения, обучения самостоятельно и управления учебными процессами. Помимо этого, их можно использовать для проверки и создания новых безопасных LLM-решений, которые могут воспользоваться всеми участниками образовательного процесса. Важность этой работы заключается в том, что она предо
Annotation:
Due to perceptions of efficiency and significant productivity gains, various
organisations, including in education, are adopting Large Language Models
(LLMs) into their workflows. Educator-facing, learner-facing, and
institution-facing LLMs, collectively, Educational Large Language Models
(eLLMs), complement and enhance the effectiveness of teaching, learning, and
academic operations. However, their integration into an educational setting
raises significant cybersecurity concerns. A comprehensiv...
Авторы:
Ziyi Guo, Yan Wang
## Контекст
Урбанизация, в сочетании с частыми природными бедствиями, ведущими к изменению паттернов экономической деятельности, представляет собой ключевую проблему для современной планировки городов. Наиболее чувствительными к таким изменениям являются коммерческие земли, так как их величина и расположение тесно связаны с уровнем посещаемости. Однако существующие модели предсказания изменений коммерческих земель не учитывают взаимодействия между человеческими активностями и экономическими переменами после бедствий. Эти взаимодействия лучше всего описаны в теориях устойчивого городского развития, которые до сих пор не были интегрированы в моделирование. Наша исследовательская цель — разработать модель, которая была бы в состоянии эффективно предсказывать изменения коммерческих земель под влиянием последствий бедствий, учитывая теорию.
## Метод
Модель Urban-STA4CLC (Urban Theory-Informed Spatio-Temporal Attention Model for Predicting Post-Disaster Commercial Land Use Change) основывается на трех теориях: ресурсной теории, экономической теории и теории распространения. Ее архитектура включает в себя следующие модули:
1. **Disaster-Aware Temporal Attention Module**: Используя устойчивость как гида, этот модуль анализирует динамику посещаемости зданий в ходе и после бедствий.
2. **Multi-Relational Spatial Attention Module**: Основывается на экономической теории для представления взаимодействий между районами.
3. **Diffusion Regularization**: Регуляризационный терм, опирающийся на теорию распространения, контролирует переходы в типах коммерческих земель.
Модель обучалась на данных о посещаемости и типах коммерческих земель с целью предсказать их изменения в течение двух лет после бедствий.
## Результаты
Мы провели эксперименты на данных, охватывающих несколько городов, поврежденных штормами. Модель Urban-STA4CLC показала улучшение F1-меры в 19% (до 0.8763) по сравнению с не-теоретическими базовыми решениями. Абляционные исследования подтвердили эффективность каждого теоретически подкрепленного модуля. Модель была успешно применена для прогнозирования изменений размера и типа коммерческих земель в условиях повторяющихся бедствий.
## Значимость
Результаты имеют практическое значение для управления земельными ресурсами в условиях повторяющихся бедствий. Модель может использоваться в планировании городов, которое учитывает взаимосвязи между гуманитарными активностями и земельными ресурсами. Благодаря интеграции теории, модель предоставляет более точные прогнозы и позволяет разрабатывать стратегии для устойчивого развития городов.
## Выводы
Это исследование показывает, что интеграция те
Annotation:
Natural disasters such as hurricanes and wildfires increasingly introduce
unusual disturbance on economic activities, which are especially likely to
reshape commercial land use pattern given their sensitive to customer
visitation. However, current modeling approaches are limited in capturing such
complex interplay between human activities and commercial land use change under
and following disturbances. Such interactions have been more effectively
captured in current resilient urban planning theo...
📄 Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams
2025-08-14Авторы:
Zane Witherspoon, Thet Mon Aye, YingYing Hao
## Контекст
Становление широкомасштабных языковых моделей (LLM) определяет новый этап в развитии искусственного интеллекта. Эти модели показали потрясающие возможности в области обработки текста, но ряд вопросов остается открытым, в том числе в области подготовки к профессиональным экзаменам, посвященным тем вопросам, как регулирование конфиденциальности данных и управление ими. Многие компании развернули обучение LLMs с целью повысить эффективность рабочего процесса, но вопрос о достоверности их решений в сфере юридического и технического гуманитарного контроля, в том числе в сфере управления данными и соблюдением законодательства о конфиденциальности, остается актуальным.
Поэтому, в данной статье мы рассматриваем возможность использования LLMs в регулировании технологий, путем проведения эксперимента: проверка того, насколько эти модели могут пройти сертификационные экзамены в сфере юридических и технических аспектов конфиденциальности. Эта исследовательская работа ставит целью определить, насколько LLMs могут оказать полезную поддержку для профессионалов в области конфиденциальности и технологического управления, а также понять, насколько эти модели могут стать надежным инструментом в решении управленческих задач.
## Метод
Мы провели эксперимент, в котором использовали 10 различных языковых моделей, включая коммерческие и открытые версии, например, GPT-5 от OpenAI, Gemini 2.5 Pro, Claude 2 от Anthropic и другие. Для проверки все модели были подвергнуты экзаменам по темам конфиденциальности, управления данными и технического контроля, в том числе CIPP/US, CIPM, CIPT и AIGP от International Association of Privacy Professionals (IAPP).
На экзаменах LLMs отвечали на вопросы, аналогичные тем, которые появляются в экзаменах IAPP. Экзамены проводились в закрытой форме (без доступа к интернету и внешним источникам), чтобы создать эквивалентные условия для людей, сдающих эти экзамены. Результаты были сравнены с пороговыми значениями IAPP для получения сертификата. Это позволило определить, насколько модели LLMs могут быть конкурентоспособными на профессиональных экзаменах.
## Результаты
Мы обнаружили, что некоторые модели LLMs показали выдающиеся результаты, превысив пороговые значения IAPP для профессионального сертификата. Например, GPT-5 от OpenAI и Gemini 2.5 Pro получили отметки выше 80% на нескольких экзаменах, что показывает их высокую компетентность в теме регулирования конфиденциальности и технологического управления. Тем не менее, другие модели, такие как Claude 2, оказались менее эффективными в некоторых областях, особенно в особенностях технического контроля.
## Значимость
Наша иссле
Annotation:
The rapid emergence of large language models (LLMs) has raised urgent
questions across the modern workforce about this new technology's strengths,
weaknesses, and capabilities. For privacy professionals, the question is
whether these AI systems can provide reliable support on regulatory compliance,
privacy program management, and AI governance. In this study, we evaluate ten
leading open and closed LLMs, including models from OpenAI, Anthropic, Google
DeepMind, Meta, and DeepSeek, by benchmarkin...
Авторы:
Dirk HR Spennemann
## Контекст
Область исследования связана с исследованием влияния генерирующих систем на социальное восприятие профессиональных ролей. Этот вопрос приобрёл актуальность в последние годы, когда генерирующие модели искусственного интеллекта (AI) стали востребованными инструментами для генерации изображений и текстов. В статье рассматривается проблема воспроизведения стереотипов в изображениях, генерируемых моделью ChatGPT4o. Эта модель входит в крупнейшие генерирующие системы и широко используется в различных приложениях. Несмотря на высокую точность AI, она не всегда отражает реальность. Тем более, если речь идёт о профессиональных ролях, профилях которых могут быть основаны на устаревших стереотипах. Такое отношение к генерируемым изображениям может привести к устойчивости фальшивых представлений о профессии. Например, в области культурных услуг, где работники часто сталкиваются с клиентами и партнёрами, некорректное представление может привести к стереотипированному взгляду на конкретную профессию.
## Метод
Для анализа использовалась модель ChatGPT4o, генерирующая изображения на основе текстовых запросов. Автор создал 230 текстовых запросов, описывающих профессию культурных работников, и получил 230 изображений. Далее он проанализировал эти изображения на наличие стереотипов, которые могут быть связаны с профессиональными ролями культурных работников. Автор использовал визуальные анализы и статистический анализ, чтобы определить, какие стереотипы воспроизводятся в генерируемых изображениях. Он также сравнил результаты генерируемых изображений с демографическими данными о реальных культурных работниках.
## Результаты
В результате анализа выяснилось, что генерирующая модель ChatGPT4o генерирует изображения, которые в основном не отражают реальную демографию культурных работников. Например, они тенденционно представляют национальные меньшинства, такие как Африканцы и Латиноамериканцы, в значительно меньшем количестве, чем они есть в реальности. Также отчётливо выделяются определённые стереотипы, такие как юный возраст (79% изображений), стиль одежды, похожий на модные рекламы, и атрибуты, такие как борода и принадлежности, такие как клипборды или электронные таблетки. Однако изображения не отражают полноту настоящего профессионального состава: женщины во вторичных ролях вообще отсутствуют в генерируемых изображениях, хотя их процент в реальности составляет 49-72%. Это свидетельствует о существующих стереотипах и их влиянии на систему генери
Annotation:
Based on 230 visualisations, this paper examines the depiction of museum
curators by the popular generative Artificial Intelligence (AI) model,
ChatGPT4o. While the AI-generated representations do not reiterate popular
stereotypes of curators as nerdy, conservative in dress and stuck in time
rummaging through collections, they contrast sharply with real-world
demographics. AI-generated imagery extremely underrepresents women (3.5% vs 49%
to 72% in reality) and disregards ethnic communities other...
📄 Intersectoral Knowledge in AI and Urban Studies: A Framework for Transdisciplinary Research
2025-08-13Авторы:
Rashid Mushkani
## Контекст
Трансдисциплинарные подходы ad hoc стремятся решать глобальные задачи социального характера, особенно в области Искусственного Интеллекта (ИИ), городских градостроительных процессов и социальных наук. Однако интеграция знаний из различных дисциплин остается трудной задачей. Особенностью этого доклада является рассмотрение этой проблемы через призму социально-социальных знаний и интеллектуальных процессов, которые взаимодействуют в рамках ИИ и градостроительных проектов. Основная цель — разработать новую трансдисциплинарную модель, которая позволит лучше понять интеллектуальные процессы, взаимодействующие с социальным миром. На практике это может быть использовано для развития новых моделей того, как системы ИИ могут участвовать в решении социальных проблем.
## Метод
Методология основывается на трансдисциплинарном подходе, который включает классификацию и анализ доносительных знаний с помощью различных критериев. Исследователю предлагается использовать метод актуализации эмпирических данных, применяя множество фильтров и критериев подбора. Архитектура модели включает в себя классификационную структуру, использующую критерии:
- **Онтологические** (философия объекта исследования);
- **Эпистемологические** (знания и методы их получения);
- **Методологические** (методы исследования);
- **Телеологические** (цели исследования);
- **Аксиологические** (ценности и ценностные ориентации);
- **Валидационные** (методы валидации знаний).
## Результаты
Исследователь осуществляет классификацию и анализ статей, полученных в течение десятилетия (2014–2024), которые наиболее активно применяются в ИИ и городских исследованиях. При этом применяется ключевый подход к классификации знаний в рамках шести описанных критериев. Результаты показывают, что наиболее часто используются подходы, основанные на критическом реализме (онтология), позитивизме (эпистемология), аналитических методах (методология), консклюэнциализме (телеология), эпистемических знаниях (аксиология) и социально-экономическому ценностному ориентиру (валидация). Редкие ориентации, такие как идеализм, смешанные методы и культурная валидация, также были отобраны, и их потенциал в развитии знаний был оценен.
## Значимость
Предлагаемая модель может применяться в различных областях, таких как городское планирование, ИИ, социальные науки, и улучшать интеллектуальные процессы в решении социальных проблем. Ее преимущества заключаются в том, что она позволя
Annotation:
Transdisciplinary approaches are increasingly essential for addressing grand
societal challenges, particularly in complex domains such as Artificial
Intelligence (AI), urban planning, and social sciences. However, effectively
validating and integrating knowledge across distinct epistemic and ontological
perspectives poses significant difficulties. This article proposes a
six-dimensional framework for assessing and strengthening transdisciplinary
knowledge validity in AI and city studies, based o...
Авторы:
Hengyu Liu, Yushuai Li, Minghe Yu, Tiancheng Zhang, Ge Yu, Torben Bach Pedersen, Kristian Torp, Christian S. Jensen, Tianyi Li
## Контекст
Квалификационные системы, такие как Massive Open Online Courses (MOOCs), представляют собой новый формат обучения, который позволяет широкому кругу пользователей получать знания онлайн. Одной из важных задач в таких системах является **Knowledge Tracing (KT)** — предсказание познаний учащихся на базе анализа их исторических данных обучения. Это позволяет оценивать их знания в течение времени и адаптировать контент к их потребностям. Однако существующие методы KT часто сталкиваются с проблемами, такими как корреляционные конфликты при анализе последовательностей учебных действий и их влияния на будущие результаты. Эти проблемы могут привести к неточным предсказаниям. Наше исследооание ориентировано на развитие KT-методов, улучшение их точности и учет контекстуальных характеристик учебных последовательностей.
## Метод
Мы предлагаем метод **Forward-Looking Knowledge Tracing (FINER)**, который совершенствует KT за счет использования Follow-up Performance Trends (FPTs) — тенденций постфактум производительности учащихся. FINER включает несколько ключевых компонентов. Во-первых, он **строит обучающие шаблоны** для эффективного восстановления FPTs из исторических данных ITS в линейной сложности. Во-вторых, FINER включает **новую агрегационную механизм акцента**, который учитывает как частоту трендов, так и их контекстуальную связь. Эта механика позволяет лучше интегрировать FPTs в процесс предсказания. В-третьих, FINER объединяет FPTs с историческими последовательностями учебных действий, чтобы обеспечить более точные прогнозы будущих результатов. Эта структура позволяет FINER улучшить точность KT и сделать его более устойчивым к корреляционным проблемам.
## Результаты
Мы провели эксперименты с восьми реальными данными ITS (Massive Open Online Courses) и сравнили FINER с десятью современными KT-методами. Результаты показали, что FINER превосходит другие методы в широком диапазоне, повысив точность предсказания от 8.74% до 84.85% в зависимости от данных. Эти результаты указывают на эффективность FINER в учете контекстуальных трендов и улучшении предсказания познаний учащихся. Мы также доказали, что FPTs дают существенный вклад в улучшение точности, поскольку они аккуратно учитывают характеристики последовательности учебных действий.
## Значимость
FINER может быть применен в различных областях, таких как образовательные платформы, системы учебного анализа и системы экспертного мониторинга. Его преимущества заключаются в улучшении точности прогнозирования, усовершенствовании оценки познаний, а также в устойчивости к ошибкам, связанным с корреляционными проб
Annotation:
Intelligent Tutoring Systems (ITS), such as Massive Open Online Courses,
offer new opportunities for human learning. At the core of such systems,
knowledge tracing (KT) predicts students' future performance by analyzing their
historical learning activities, enabling an accurate evaluation of students'
knowledge states over time. We show that existing KT methods often encounter
correlation conflicts when analyzing the relationships between historical
learning sequences and future performance. To ...
Авторы:
Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das
#### Контекст
Область исследования "Street-Level AI" фокусируется на исследовании технологий, которые принимают решения в сферах, требующих социальной ответственности и человеческого вмешательства. Задача LLM (Large Language Models) в этой области — помогать или заменять "street-level bureaucrats", лица, которые принимают решения о присвоении ресурсов и поддержке в условиях ограниченных возможностей. Несмотря на то, что существует обширная литература о философских, этических и юридических аспектах гомонестового браунианского моделирования, есть недостаточно исследований о конкретных реалиях, в которых AI применяется в реальных условиях. Особенно важно рассмотреть, насколько AI может согласовываться с человеческими и официальными методами принятия решений в критически важных областях, таких как распределение ресурсов для бездомных.
#### Метод
Эксперименты были проведены на реальных данных, маскированных в соответствии с конфиденциальностью, которые отражают реальные ситуации в сфере помощи бездомным. Методология включала сравнение решений LLM с локальным моделированием и человеческими принятием решений. Использовались модели, которые были обучены на регулярных данных и применялись для оценки важности или приоритета. Было изучено соответствие решений, принятых AI моделями, с реальными жизненными ситуациями, включая вопросы несоответствия и упущений.
#### Результаты
Основные находки показывают, что LLM оказываются непоследовательными в своих решениях, что заметно в разных повторных экспериментах на одних и тех же данных, а также в сравнении решений разных моделей. Эти несоответствия отмечаются как внутри LLM, так и в сравнении с официальными методами, такими как scoring systems, которые используются для оценки возможностей помощи. Однако, в парном тестировании с человеческими решениями, LLM демонстрируют качественную консистентность, в том числе в сравнении с людьми, которые не имеют специальной экспертной подготовки.
#### Значимость
Находки доказывают, что нынешние LLM еще не готовы к применению в реальных условиях, где решения критически важны. Они могут быть полезны в качестве вспомогательных средств для экспертов, но не для непосредственного принятия решений. Их потенциальное влияние может быть ограничено, пока не будут решены проблемы непоследовательности и несовпадения с методами, которые используются в реальных условиях. Этот подход может быть расширен для других критически важных областей, таких как распределение здравоохранения или услуг в области образования.
#### Выводы
Основные достижения этих исследований заключаются в том, что невозможность LLM постоянно согласовываться с реальными нуждами и официа
Annotation:
A surge of recent work explores the ethical and societal implications of
large-scale AI models that make "moral" judgments. Much of this literature
focuses either on alignment with human judgments through various thought
experiments or on the group fairness implications of AI judgments. However, the
most immediate and likely use of AI is to help or fully replace the so-called
street-level bureaucrats, the individuals deciding to allocate scarce social
resources or approve benefits. There is a ri...
Показано 261 -
270
из 282 записей