📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Delaram Golpayegani, Marta Lasek-Markey, Arjumand Younus, Aphra Kerr, Dave Lewis
## Контекст
Область исследования сосредотачивается на анализе политик и руководящих принципов, сформированных для обеспечения безопасности и доверия к искусственному интеллекту (ИИ). Увеличение числа политик и нормативных документов в этой области привело к расколу ландшафта управления ИИ. Европейский Союз (ЕС) является одним из ключевых акторов в развитии подобных нормативных документов. В 2019 году выпущенные Государственной экспертной группой (HLEG) ЕС руководящие принципы для доверительного ИИ стали одним из важнейших документов в этой области, а в 2024 году вступили в силу нормативы Европейского Закона о ИИ. Несмотря на ожидание, что политики и руководящие принципы ЕС будут гармонично согласованы, они могут отличаться по области применения, объему, нормативности и приоритетам, связанными с ИИ. Данная статья приложила методологические подходы, включающие тематический и тематический моделирование, чтобы выявить основные темы в документах ЕС, включая Закон о ИИ и руководящие принципы HLEG. Цель — получить широкий обзор подходов к управлению ИИ в рамках ЕС и проследить за тенденциями в его развитии.
## Метод
Для достижения целей исследования применялась комбинация квалитативных и квантитативных методов. В качестве квалитативного подхода использовалась тематическая аналитика, которая позволила выявить наиболее значимые темы в документах, включая Закон о ИИ ЕС и руководящие принципы HLEG. Для количественного моделирования использовался BERTopic — модель, разработанная на базе алгоритмов тематического моделирования, которая позволяет выявить тематики в больших объемах текстов. Для получения более полного представления о политиках ЕС в области ИИ авторы расширили объем документов, включив в исследование документы, опубликованные с 2018 года. Эта комбинированная методология позволила выявить тематики в документах ЕС и отслеживать их эволюцию в течение времени.
## Результаты
Применение тематического моделирования BERTopic позволило выявить целый ряд основных тем, связанных с управлением ИИ в документах ЕС. Эти темы включали различные аспекты доверительного ИИ (например, принципы честности, прозрачности и ответственности), технологические аспекты (например, автоматизация и роботизированные системы), а также юридические и регулировательные аспекты. Квалитативный анализ, примененный в дополнение к тематическому моделированию, позволил выявить значимые тенденции в документах, включая упор на гуманный контроль над ИИ и фокус на широком области применения нормативных действий. Экспер
Annotation:
The upsurge of policies and guidelines that aim to ensure Artificial
Intelligence (AI) systems are safe and trustworthy has led to a fragmented
landscape of AI governance. The European Union (EU) is a key actor in the
development of such policies and guidelines. Its High-Level Expert Group (HLEG)
issued an influential set of guidelines for trustworthy AI, followed in 2024 by
the adoption of the EU AI Act. While the EU policies and guidelines are
expected to be aligned, they may differ in their s...
Авторы:
Sandrine R. Schiller, Camilo Miguel Signorelli, Filippos Stamatiou
## Контекст
Появление generative AI стало революционным шагом в интеракции человека с технологиями, другими людьми и самим собой. Системы, такие как Microsoft Copilot, Gemini и ожидаемая интеллектуальная система Apple, во многом преобразили повседневность. Они обладают мощными возможностями по предсказанию поведения и автоматизации решений. Например, AI-помощники могут рекомендовать лучшие варианты для заказа в ресторане или выбрать образ, увеличивающий шансы на успех при выходе с новым знакомством. Эти возможности, на первый взгляд, продолжают рационализировать жизнь, но привлекут внимание к вопросам личности и личного пространства. Разработчики AI стремятся к системам, которые не только помогают, но и предварительно активируются на основе прогнозирования человеческих потребностей. Этот развитий вызовет новые теоретические вопросы, особенно в отношении того, как AI меняет самоотношение и взаимоотношения человека со своим окружением.
## Метод
Работа основывается на концепции "внештатного самого" (the intercepted self), которая иллюстрирует влияние AI на человеческий опыт. Авторы используют идею "кругов самого" (spheres of the self), чтобы разобраться в трех основных сферах:
1. **Внештатный вывод (externalised output):** как AI повышает производительность, снижая трудности в выполнении задач.
2. **Контекстная сфера (contextual sphere):** как AI изменяет взаимодействие с окружающим миром.
3. **Сфера самоотношения (self-relating):** как AI относится к самому человеку, влияя на личность и самопонимание.
Исследование использует теоретические анализы, сравнительный анализ и описательные приемы для раскрытия этих сфер.
## Результаты
Авторы исследовали как generative AI влияет на самоотношение человека в трех сферах. В первой сфере, AI упрощает выполнение задач, но при этом подрывает человеческий самоопределенный характер. Во второй сфере, AI изменяет способ взаимодействия, превращая человека в потребителя решений, сделанных AI. В третьей сфере, AI становится субъектом интерпретации, что может углубить самопонимание, но также может сгладить различия и индивидуальность. На основе экспериментальных данных, авторы показали, как AI не только расширяет возможности, но и выступает в роли активного участника в жизни человека.
## Значимость
Работа показывает, как generative AI может изменить не только технологический стек, но и самоидентификацию и личность. Она может помочь в решении быстрых задач и глубоких проблем, но также может вводить стресс и неопределенность в сфере самоотношения. Эта инновационная идея может быть применена в области психологии, социальных наук, искусственного интеллекта
Annotation:
Generative AI is changing our way of interacting with technology, others, and
ourselves. Systems such as Microsoft copilot, Gemini and the expected Apple
intelligence still awaits our prompt for action. Yet, it is likely that AI
assistant systems will only become better at predicting our behaviour and
acting on our behalf. Imagine new generations of generative and predictive AI
deciding what you might like best at a new restaurant, picking an outfit that
increases your chances on your date with ...
Авторы:
Jamie Cummins
## Контекст
В последние годы широко развиваются исследования, применяющие большие языковые модели для создания "силиконовых выборок" — синтетических данных, которые должны заменить данные, полученные от реальных людей в исследованиях. Этот подход может значительно изменить область исследований, опирающихся на реальных участников. Тем не менее, возникают сложности, связанные с выбором методов и параметров, необходимых для построения таких выборок. Хотя эти решения могут быть обоснованы, их влияние на качество выборок пока не достаточно хорошо понято. Целью данного исследования является изучение этих вопросов и выявления потенциальных рисков, связанных с гибкостью аналитических решений.
## Метод
Исследование основывается на экспериментальном подходе, в рамках которого были проведены 252 конфигурации силиконовых выборок. Автор изучил три ключевых аспекта: (i) ранжирование ответов участников, (ii) распределение ответов и (iii) корреляции между скалярными величинами. Для каждой конфигурации были измерены точность и качество результатов. Это позволило выявить относительные сильные и слабые стороны каждой конфигурации. Исследования проводились на данных, полученных в рамках реальных исследований, чтобы эмпирически оценить качество силиконовых выборок.
## Результаты
Результаты показали, что некоторые конфигурации показали высокую точность в одном аспекте, но сильно худят в других. Например, некоторые конфигурации хорошо воспроизводили ранжирование ответов, но оказались неточными в моделировании распределения ответов. Более того, ни одна конфигурация не показала лучшую общую точность на всех трёх параметрах одновременно. Это указывает на то, что нет оптимального решения, которое может гарантировать хорошую точность во всех аспектах. Эти результаты подтверждают риск аналитической гибкости при использовании больших языковых моделей для создания выборок.
## Значимость
Результаты имеют важное значение для области исследований, основанных на силиконовых выборках. Они указывают на необходимость внимательного подхода к выбору параметров и аналитических решений. Недостаточное внимание к этим вопросам может привести к существенным ошибкам в исследованиях. Это важно для областей, таких как социальные и поведенческие науки, где качество данных является критическим. Более широко, это может способствовать улучшению методов исследований, основанных на синтетических данных.
## Выводы
Исследование выделяет значительный риск, связанный с аналитической гибкостью при создании "силиконовых выборок". Основные выводы: (i) нет од
Annotation:
Social scientists are now using large language models to create "silicon
samples" - synthetic datasets intended to stand in for human respondents, aimed
at revolutionising human subjects research. However, there are many analytic
choices which must be made to produce these samples. Though many of these
choices are defensible, their impact on sample quality is poorly understood. I
map out these analytic choices and demonstrate how a very small number of
decisions can dramatically change the corre...
Авторы:
Sai Suresh Marchala Vasu, Ivaxi Sheth, Hui-Po Wang, Ruta Binkyte, Mario Fritz
#### Контекст
Область исследования связана с использованием бо LARGE LANGUAGE MODELS (LLMs) в процессе peer review, где они помогают рецензентам составлять более подробные и четкие оценки. Хотя это привносит удобство и эффективность, возникают вопросы о справедливости и надежности результатов. Люди и организации хотят понять, насколько честны и беспристрастны рекомендации, сгенерированные LLMs. Мотивация исследования заключается в изучении потенциальных биаса в LLMs, особенно в зависимости от метаданных, таких как авторская аффилиация и пол. Это поможет установить, насколько сильно LLMs закрепляют существующие стереотипы и если ли у них потенциал для свободного от человеческих предубеждений решать задачи.
#### Метод
Исследование основывается на экспериментальной методологии с помощью LLMs. Для тестирования биаса использовались управляемые эксперименты, где метаданные, такие как авторские аффилиации и пол, были скрытыми или измененными. Модель LLM получала фиксированный текст, но с разными метаданными, чтобы оценить, как эти параметры влияют на результаты. Архитектура использовалась "out-of-the-box", без дополнительных адаптаций. Эксперименты проводились на разных наборах данных, чтобы убедиться в общественной значимости результатов.
#### Результаты
Исследование показало существование биаса в отношении авторских аффилиаций, при котором LLMs отдают предпочтение институтам, с высоким рейтингом в общепринятых академических рейтингах. Также выявлены небольшие предпочтения в отношении пола, которые, хотя и незначительны в масштабе, могут усиливаться со временем и при повторных оценках. Особенно выражена эффектность LLMs в формировании "токен-базированных" оценок, где вкрадчиво выраженные предпочтения могут становиться более заметными.
#### Значимость
Результаты имеют важное значение для широкого спектра доменов, включая научное издательство, образование и реализацию ИИ. Этот подход может помочь обнаруживать и корректировать биасы в ИИ-системах, способствуя справедливости и доверию к ИИ-решениям в рецензировании. Преимущества заключаются в том, что исследование предоставляет обоснованные рекомендации по обнаружению и предотвращению биаса в LLMs, а также может способствовать развитию более справедливых моделей.
#### Выводы
На основе полученных результатов, LLMs в peer review не являются полностью свободными от человеческих биаса. Но их можно обучить для более справедливого и глубокого анализа, если принять дополнительные меры. Будущие исследования будут фокусироваться на развитии методов для определения и устранения биаса в глубоком
Annotation:
The adoption of large language models (LLMs) is transforming the peer review
process, from assisting reviewers in writing more detailed evaluations to
generating entire reviews automatically. While these capabilities offer
exciting opportunities, they also raise critical concerns about fairness and
reliability. In this paper, we investigate bias in LLM-generated peer reviews
by conducting controlled experiments on sensitive metadata, including author
affiliation and gender. Our analysis consiste...
Авторы:
Susobhan Ghosh, Bhanu T. Gulapalli, Daiqi Gao, Asim Gazi, Anna Trella, Ziping Xu, Kelly Zhang, Susan A. Murphy
## Контекст
Онлайн-алгоритмы искусственного интеллекта (AI) являются ключевым компонентом цифровых здравоохранных интервенций. Они предназначены для непрерывного обучения и улучшения своих результатов на основе потока данных, собираемых у индивидуумов. Однако развертывание онлайн-AI связано с важной проблемой: сочетанием гибкости этой системы с возможностью ее воспроизведения. Онлайн-AI в цифровых здравоохранных интервенциях находится в быстро развивающейся области, которая порождена прогрессом в алгоритмах, сенсорах, программном обеспечении и устройствах. Разработка и развертывание цифровых здравоохранных интервенций является непрерывным процессом, в котором развертывание, включая алгоритмы принятия решений AI, чередуются с циклами переработки и оптимизации. Каждое развертывание способствует следующему, что делает итеративность определяющей для этой области. Таким образом, репродуцированность является ключевой характеристикой: сбор данных во время развертываний должен быть точным, чтобы иметь научную ценность, поведение алгоритмов должно быть прозрачным для аудита, а результаты должны быть сравнимыми для обеспечения научного прогресса и доверительного совершенствования. Данная работа предлагает репродуцируемую научную рабочую программу для разработки, развертывания и анализа онлайн-AI-алгоритмов принятия решений в цифровых здравоохранных интервенциях. Основываясь на практических опытах из нескольких реальных развертываний, эта работа адресует ключевые проблемы репродуцированности на всех этапах жизненного цикла развития онлайн-AI-алгоритмов.
## Метод
Методология, предлагаемая в этой работе, состоит из следующих элементов: (1) **этап разработки**, включающий разработку алгоритмов, тестирование их на наборах данных, отражающих настоящий мир, и проверку возможности их воспроизведения; (2) **этап развертывания**, включающий непрерывное развертывание алгоритмов в реальной среде с наблюдением за их поведением, а также сбором и хранением данных; (3) **этап анализа**, включающий повторное тестирование, сравнение результатов с предыдущими этапами и документирование всех изменений. Архитектура рабочей программы основывается на трех основных компонентах: (а) **репозитории с кодом и данными** для гарантии доступности и аудитности; (b) **система мониторинга и логирования** для отслеживания поведения AI в реальном времени; (c) **инструменты для визуализации и анализа результатов**, которые позволяют проследить за изменениями в поведении AI в течение времени. Эта методология гара
Annotation:
Online artificial intelligence (AI) algorithms are an important component of
digital health interventions. These online algorithms are designed to
continually learn and improve their performance as streaming data is collected
on individuals. Deploying online AI presents a key challenge: balancing
adaptability of online AI with reproducibility. Online AI in digital
interventions is a rapidly evolving area, driven by advances in algorithms,
sensors, software, and devices. Digital health interventi...
Авторы:
Jack McKinlay, Marina De Vos, Janina A. Hoffmann, Andreas Theodorou
#### Контекст
**Value alignment** — это ключевый аспект в исследованиях машинного обучения и искусственного интеллекта, означающий процесс привязки алгоритмов и систем к ценностям и приоритетам человеческого общества. Однако в научной литературе словосочетание "value alignment" используется в разном контексте, часто без четкой характеристики. Это может привести к неточностям в понимании и реализации этого понятия. Целью данной работы является определение более точного определения "value alignment" и изучение его тематического контекста в современной научной литературе.
#### Метод
Для анализа была проведена систематическая литературная рецензия, включающая 172 статей, посвященных теме value alignment. Методология основывается на тематическом анализе, позволяющем выявить ключевые темы и характеристики в литературе. Авторы использовали библиографические источники, фильтрацию по темам и синтезирование выводов для построения более точной схемы знаний в области.
#### Результаты
Результатом работы была выявлена шесть тематик, связанных с value alignment:
1. **Драйверы и подходы к value alignment** — факторы, влияющие на процесс привязки ценностей.
2. **Проблемы в value alignment** — трудности в процессе балансировки ценностей.
3. **Ценности в value alignment** — различные виды ценностей, влияющих на решения в AI.
4. **Когнитивные процессы у людей и AI** — способность людей и систем обрабатывать ценности.
5. **Human-agent teaming** — взаимодействие людей и агентов AI в командных системах.
6. **Designing and developing value-aligned systems** — технические и этические аспекты создания ценностно-аллигенированных систем.
#### Значимость
Выявленные темы имеют широкое применение в различных областях, включая промышленность, здравоохранение, робототехнику и другие. Основное преимущество данного исследования в том, что оно предлагает четкую терминологию и понимание ценностного выравнивания, что помогает облегчить развитие технологий, соответствующих человеческим ценностям. Потенциальное влияние заключается в улучшении значимости и эффективности разработки AI-систем.
#### Выводы
Авторы определили value alignment как динамический процесс, в котором люди и AI-системы сотрудничают для выражения и реализации ценностей в разных контекстах. Они также выделили основные трудности и возможности для будущих исследований, включая необходимость развития методов для управления когнитивными ограничениями, балансировки этических точек зрения и улучшения технологий human-agent teaming. Будущие исследования должны ориентироваться на улучшение направленности систем AI на ценности человечества.
Annotation:
Background: Value alignment in computer science research is often used to
refer to the process of aligning artificial intelligence with humans, but the
way the phrase is used often lacks precision. Objectives: In this paper, we
conduct a systematic literature review to advance the understanding of value
alignment in artificial intelligence by characterising the topic in the context
of its research literature. We use this to suggest a more precise definition of
the term. Methods: We analyse 172 v...
Авторы:
Simon Wallace, Sean Rehaag
## Контекст
Область исследования рассматривает технологическое воздействие на систему правосудия и доступность судебных решений. Это важно не только для юридических специалистов, но и для широкой публики, так как доступ к судебной информации является ключевым фактором в обеспечении справедливости и гарантии прав. Однако существуют обстоятельства, которые существенно ограничивают этот доступ.
В глобальной правовой системе существуют несколько институтов, предоставляющих доступ к судебным решениям, однако их модели лицензирования и уровень открытости варьируются. Например, в США существует доступ к судебным решениям через сервисы, такие как PACER, однако он не является полностью открытым. В Европейском Союзе существуют ресурсы, такие как EUR-Lex, которые предоставляют широкий доступ к юридической информации, но их реализация может отличаться в разных странах.
В Канаде этот вопрос приобрел актуальный харастер в связи с работой Доступа к Алгоритмической Жизни (Access to Algorithmic Justice, A2AJ). Это проект, представляющий собой открытую альтернативу Канадскому Институту Правовой Информации (CanLII). Несмотря на то, что CanLII была основана с целью обеспечить бесплатный доступ к судебным решениям, оно ограничивает большинство программных и массовых запросов к судебных данных, что создает цифровой разрыв. Этот разрыв затрудняет участие в развитии новых технологий в сфере правосудия, таких как машинное обучение и аналитика текста.
## Метод
Проект A2AJ призван решить эти проблемы, предоставляя открытый доступ к юридическим данным. Для этого используется разработка открытого интерфейса программного обеспечения (API), позволяющего пользователям получать доступ к базе данных с судебными решениями и законами. База данных включает период начиная с 1800 года и содержит более 116 000 судебных решений и 5 000 законов.
Основой технологического подхода является интеграция средств машинного обучения и искусственного интеллекта. Это позволяет анализировать данные, используя оптимизированные алгоритмы для выделения интересующей информации. Более того, A2AJ предлагает различные форматы данных, включая JSON, XML и CSV, что обеспечивает гибкость в их использовании для различных целей.
## Результаты
На основе проведенных экспериментов исследователи показали, что открытый доступ к судебным решениям может способствовать повышению эффективности судебных процессов. Например, осуществляя быстрый поиск по судебным решениям, судьи могут быстрее принимать решения, основываясь на предыдущих
Annotation:
The Access to Algorithmic Justice project (A2AJ) is an open-source
alternative to the Canadian Legal Information Institute (CanLII). At a moment
when technology promises to enable new ways of working with law, CanLII is
becoming an impediment to the free access of law and access to justice
movements because it restricts bulk and programmatic access to Canadian legal
data. This means that Canada is staring down a digital divide: well-resourced
actors have the best new technological tools and, bec...
Авторы:
Xiaofan Zhou, Zisu Wang, Janice Krieger, Mohan Zalake, Lu Cheng
## Контекст
Clinical trials (CT) являются крайне важной частью медицинских исследований, помогая развивать новые методы лечения и становясь ключевым инструментом в улучшении здоровья. Однако важность CT не означает простоты их проведения. Одной из самых сложных задач в этом процессе является поиск подходящих для участия в экспериментах пациентов. Они должны соответствовать сложному набору критериев, что часто становится причиной задержек или ошибок.
На данный момент, работники в этой области используют в основном традиционные методы, такие как рекламные объявления или анализ электронных карточек пациентов. Однако эти подходы обычно требуют много времени, имеют ограниченную географическую доступность и не всегда эффективны. В этой работе предлагается использовать современные технологии, а именно ларже ларже language models (LLMs), для улучшения процесса поиска подходящих кандидатов.
LLMs, развившиеся в последние годы, имеют возможность тонкого понимания текста и возможность его анализа. Это делает их подходом, который может помочь в поиске и анализе данных на социальных сетях. Данная работа основывается на использовании двух коллекций данных из социальных медиа, относящихся к различным заболеваниям, и исследует возможности LLMs в том, чтобы выявлять потенциальных участников для CT.
## Метод
Для этого исследования были использованы две коллекции данных, полученные из социальных сетей Reddit. Эти коллекции относятся к двум различным тематикам: колоректальному рака и простатическому рака. Каждая коллекция содержит посты и комментарии, в которых пользователи обсуждают свои здоровье и, возможно, выражают интерес к участию в kliniческих испытаниях.
Для исследования использовались 7 различных моделей LLMs. Эти модели были обучены на данных TRIALQA, которая является собственной набором данных, созданного для этого исследования. Здесь включены два основных типа задач: определение, соответствует ли пользователь элигибильным критериям, и определение, почему пользователь заинтересован в участии в CT.
Для обучения использовались различные стратегии, включая подходы, ориентированные на точность, настройку гиперпараметров и анализ разных моделей. Эти модели были поданы на разные данные, чтобы изучить их уровень точности и способность решать задачи, связанные с поиском подходящих участников.
## Результаты
В результате экспериментов был показан том, что LLMs действительно могут быть эффективными в выполнении некоторых задач, связанных с поиском подходящих участников для CT. Однако эти модели сталкиваются с ограничениями при выполнении более сложных задач, включающих многош
Annotation:
Clinical trials (CT) are essential for advancing medical research and
treatment, yet efficiently recruiting eligible participants -- each of whom
must meet complex eligibility criteria -- remains a significant challenge.
Traditional recruitment approaches, such as advertisements or electronic health
record screening within hospitals, are often time-consuming and geographically
constrained. This work addresses the recruitment challenge by leveraging the
vast amount of health-related information i...
Авторы:
Betty Mayeku, Sandra Hummel, Parisa Memarmoshrefi
## Контекст
Машинное обучение (ML) широко применяется в образовательных системах для анализа данных, персонализации обучения и поддержки принятия решений. Однако эти системы имеют ряд проблем, включая защиту пассивности, уязвимость к атакам адверсариальных входов, систематический биас и невозможность адаптации к изменениям в обучающих контекстах. Machine Unlearning (MU), технология способная удалять конкретные данные из обученного модели, появляется как потенциальный способ решения этих проблем. Однако по сей день недостаточно исследований по использованию MU в образовательных приложениях. Целью данной работы является показать, что MU может стать ключевым инструментом для создания устойчивых, правильных и адаптивных AI-систем в образовательных системах, способных укрепить доверие к искусству искусственного интеллекта в образовательных системах.
## Метод
Мы проводим подробный обзор 42 научных работ, структурированный по четырём основным областям, в которых MU может принести пользу: протекцию пассивности, устойчивость к атакам адверсариальных входов, уменьшение систематического биаса и адаптабельность в учебных системах. Мы рассмотрим, как каждая из этих областей может быть адресована с помощью MU, особое внимание уделяя техническим решениям, методологиям и архитектурам. Далее, мы предлагаем концептуальную модель Machine Unlearning Application Architecture for Responsible and Adaptive AI in Education (MU-RAAI), которая может стать основой для future work в этой области.
## Результаты
Распространенные проблемы в ML-системах, такие как защита пассивности, атаки адверсариальных входов, систематический биас и неадаптивность, могут быть адресованы с помощью MU. Мы установили, что MU может улучшить защиту пассивности, обеспечив безопасность данных и защиту от несанкционированного доступа. Также, MU может снизить влияние атак адверсариальных входов, обеспечив более надежную оценку моделей. Благодаря MU, модели могут более эффективно учитывать и уменьшать систематические биасы, повышая справедливость результатов. Наконец, MU позволяет моделям быстрее адаптироваться к изменениям в обучающих контекстах, улучшая их применимость в разных учебных ситуациях. Мы представили концептуальную модель MU-RAAI, которая может стать основой для создания практических решений в образовательных системах.
## Значимость
MU может использоваться в различных областях, таких как защита пассивности, борьба с атаками адверсариальных входов, уменьшение биаса и адаптабельность в обучении. Эти возможности могут существенно повысить доверие к AI-системам в образовательных системах, улучшить их эффективность и справедливость. Мы видим потенци
Annotation:
The concept of Machine Unlearning (MU) has gained popularity in various
domains due to its ability to address several issues in Machine Learning (ML)
models, particularly those related to privacy, security, bias mitigation, and
adaptability. With these abilities, MU is evolving into a promising technology
in upholding Responsible AI principles and optimizing ML models' performance.
However, despite its promising potential, the concept has not received much
attention in the education sector. In a...
📄 Assisting the Grading of a Handwritten General Chemistry Exam with Artificial Intelligence
2025-09-17Авторы:
Jan Cvengros, Gerd Kortemeyer
## Контекст
Актуальным для современной образовательной системы является вопрос автоматизации процессов контроля и оценки учебных показателей студентов. Особым вниманием заслуживает решение проблем, связанных с оценкой рукописных экзаменов, где требуется высокая степень точности и объективности. Развитие искусственного интеллекта (ИИ) предлагает новые возможности для автоматизации таких задач, но при этом возникают вопросы о надежности и честности таких систем. Одной из таких задач является оценка рукописных экзаменов по химии, где необходимо учесть различные типы вопросов, включая текстовые, химические реакции, формулы, рисунки и графики.
## Метод
Для оценки точности и надежности AI-системы были использованы изображения рукописных экзаменов, углубленно проанализированы различные виды вопросов, такие как текстовые ответы, формулы, рисунки и графики. Оценка проводилась с использованием линейных регрессионных анализов и психометрических методов. Были выделены следующие типы вопросов: текстовые ответы, химические реакции, формулы, рисунки и графики. Для каждого типа вопросов измерялась точность выдачи AI в сравнении с оценками человеческих экспертов.
## Результаты
На основе проведенных экспериментов были получены следующие результаты. Для текстовых ответов и химических реакций AI показал высокую точность и согласованность с оценками человеческих экспертов. Однако для задач, требующих вычислений или графических отображений, точность была значительно ниже. Это связано с тем, что AI имеет трудности в понимании сложных графических структур и выполнении точных вычислений. Таким образом, необходима постоянная надзорная оценка человеком для обеспечения точности и честности результатов.
## Значимость
Полученные результаты открывают широкие перспективы для применения AI в образовательных процессах, особенно в автоматизации процессов контроля и оценки рукописных экзаменов. Использование AI может существенно сократить время, необходимое для оценки больших объемов работ, а также обеспечить более унифицированную оценку. Несмотря на это, требуется внимательное рассмотрение вопросов справедливости и доверия студентов к таким системам. Будущие исследования должны быть направлены на улучшение надежности AI в области графических и вычислительных задач.
## Выводы
В целом, результаты показывают, что AI может быть эффективным инструментом для автоматизации оценки рукописных тестов в области химии, особенно для текстовых и химических реакций. Однако необходимо сохранить роль че
Annotation:
We explore the effectiveness and reliability of an artificial intelligence
(AI)-based grading system for a handwritten general chemistry exam, comparing
AI-assigned scores to human grading across various types of questions. Exam
pages and grading rubrics were uploaded as images to account for chemical
reaction equations, short and long open-ended answers, numerical and symbolic
answer derivations, drawing, and sketching in pencil-and-paper format. Using
linear regression analyses and psychometri...
Показано 171 -
180
из 282 записей