📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Julian Gerald Dcruz, Argyrios Zolotas, Niall Ross Greenwood, Miguel Arana-Catania

#### Контекст Артифициальный интеллект (AI) применяется в сферах, где необходима реакция в реальном времени, таких как аэрокосмические системы и службы экстренного сообщения. Однако такие приложения должны оставаться надежными и иметь приемлемый уровень ответственности в ситуациях, когда жизни людей находятся под угрозой. Одной из основных проблем является выработка универсальных структур решений, которые обеспечивают не только точность, но и контекстуальную приемлемость. Недостаток такой структуры часто приводит к несоответствию решений жизнеобеспечивающим целям. Эта статья сосредотачивается на разработке структурированного AI-фреймворка для улучшения решений в области управления катастрофами, адресуя проблему отсутствия рабочих решений в этой области. #### Метод Фреймворк предлагает инновационный подход к AI-ориентированному управлению катастрофами через три основных компонента: Enabler Agents, Levels и Scenarios. Enabler Agents служат механизмом для принятия решений, а Levels и Scenarios позволяют оценивать различные уровни сложности и конкретные сценарии управления катастрофами. Обновленная модель была тестирована в нескольких сценариях, включая различные уровни тяжести использования ресурсов и типов угроз. Данные, использованные в экспериментах, были собраны из реальных катастроф и визуализированы с использованием методов имитационного моделирования. Эти методы позволяли сравнить производительность алгоритма с другими системами, основанными на руководстве человеческим опытом. #### Результаты В ходе экспериментов был проведен сравнительный анализ производительности AI-фреймворка и других систем. Фреймворк показал значительное превосходство над руководством человеческим опытом, достигший 60,94% большей надежности в решениях в различных сценариях. Он также превысил производительность человеческих операторов на 38,93%, что указывает на его высокую точность в различных условиях. Эти результаты подтверждают, что структурированный AI-фреймворк предлагает более надежные и последовательные решения, обеспечивая повышение эффективности в ситуациях, где срочные решения являются критичными. #### Значимость Предложенный фреймворк может быть применен в различных сферах, включая здравоохранение, экстренные службы и системы управления глобальными катастрофами. Он обеспечивает более точные и ответственные решения, что привлекательно для организаций, требующих высокой надежности. Это развитие может улучшить реагирование на бедствия, уменьшить потери жизней и свойств, а также способствовать развитию AI в сферах, где решения в течение нескольких ми
Annotation:
With artificial intelligence (AI) being applied to bring autonomy to decision-making in safety-critical domains such as the ones typified in the aerospace and emergency-response services, there has been a call to address the ethical implications of structuring those decisions, so they remain reliable and justifiable when human lives are at stake. This paper contributes to addressing the challenge of decision-making by proposing a structured decision-making framework as a foundational step toward...
ID: 2509.01576v1 cs.AI, cs.CY, cs.SY, eess.SY
Авторы:

Sandra C. Matz, C. Blaine Horton, Sofie Goethals

#### Контекст В последние годы широко распространяются технологии, позволяющие большим лингвистическим моделям (LLMs) выполнять человеческие задачи, такие как письменная коммуникация, покупки продуктов и бронирование мест в ресторанах. Эти технологии эффективно облегчают повседневные задачи, позволяя экономить время и усилия. Однако искусственный интеллект, выполняющий решения на основе человеческих данных, порождает новые вопросы относительно последствий передачи таких ответственных задач. В частности, возникает вопрос о том, как автоматизация идеологически важных или символически значимых решений влияет на индивидуальность и разнообразие в жизни человека. Этот эффект становится особенно важным в контексте того, как современное общество полагается все больше на AI для выбора, которые определяют личность и жизнь. #### Метод Для исследования влияния LLMs на индивидуальность и разнообразие выбрано 1000 пользователей из США, их 110 000 выборок. Эти выборки отражают реальные, каждый день делаемые люди решения. Изучение проводится по сравнению с использованием генерического AI-агента и персонализированного AI-агента. Задача — оценить изменение уникальности и разнообразия поведения в зависимости от типа используемого AI. Для этого измеряется уровень дистанции между выборками пользователей и общественным базовым уровнем, а также изменение внутреннего разнообразия поведения относительно времени. #### Результаты Исследование показало, что обе модели AI (генерическая и персонализированная) ведут к уменьшению уникальности решений людей (distinctiveness), так как они склоняют пользователей к более популярным выборам. Однако существуют различия между этими моделями. Генерический AI приводит к более значительному снижению индивидуальных тенденций пользователей по сравнению с персонализированным AI. В то же время, персонализированный AI делает решения пользователей более сходными друг с другом, что приводит к сжатию разнообразия в их предпочтениях (intrapersonal diversity). Это означает, что при использовании персонализированного AI пользователи сокращают широту их интересов и предпочтений, что влияет на их разнообразие. #### Значимость Результаты исследования имеют значительную значимость для различных областей. В первую очередь, они показывают, как AI-агенты могут сказываться на формировании личности и жизненных выборов. Вторично, они открывают новые возможности для понимания роли AI в социальной среде и ее последствий для общества в целом. AI-агенты могут быть использованы для улучшения качества жизни, но при этом они могут ограничивать индивидуальность и разно
Annotation:
Large language models (LLMs) increasingly act on people's behalf: they write emails, buy groceries, and book restaurants. While the outsourcing of human decision-making to AI can be both efficient and effective, it raises a fundamental question: how does delegating identity-defining choices to AI reshape who people become? We study the impact of agentic LLMs on two identity-relevant outcomes: interpersonal distinctiveness - how unique a person's choices are relative to others - and intrapersonal...
ID: 2509.02910v1 cs.HC, cs.AI, cs.CY
Авторы:

Imran S. A. Khan, Emmanuel G. Blanchard, Sébastien George

## Контекст Климатическая уязвимость становится все более острой в связи с ускорением изменений климата, растущим экологическим воздействиями и возрастающим давлением на ресурсы. Учитывая эти тенденции, необходимо развитие инновационных подходов к образованию, которые помогут гражданам и подражателям в развитии квалификаций, необходимых для корректировки и адаптирования к изменяющимся климатическим условиям. Одна из наиболее важных областей, требующих внимания, - это эффективное воспитание в области климатической устойчивости (climate resilience). Однако существующие подходы часто либо являются статическими, либо не учитывают индивидуальные особенности отдельных обучающихся. Это лишает обучения ценности и полезности, так как не приводит к конкретным профессиональным или жизненным изменениям учащихся. Использование Интернета вещей (IoT) и генерирующегося искусственного интеллекта (Generative AI) в области образования предлагает многообещающие возможности. Технологии IoT могут предоставить реальное временное данные, в то время как Generative AI может предоставить персонализированный и профилактический подход к обучению. Однако, интеграция этих технологий в образовательные системы остается недостаточно исследована и реализована. Данная статья посвящена разработке и описанию системы FACTS (Future Atmospheric Conditions Training System), которая использует IoT и Generative AI для создания интерактивных, адаптивных климатических условий, способных повысить климатическую устойчивость учащихся. ## Метод FACTS является платформой, которая соединяет реальное временное данные, собираемые с помощью IoT-устройств, и ресурсы из знаний, управляемых в рамках Knowledge Base. Основная идея заключается в том, чтобы предоставить пользователям (учащихся, обучающихся в различных сферах) интерактивные, местонаходящиеся в реальных условиях, задачи, которые могут быть адаптированы в реальном времени в соответствии с климатическими условиями. IoT-устройства, размещенные в соответствующих местах, собирают данные о климатических условиях, такие как температура, влажность, температура воздуха и другие показатели. Эти данные отправляются в облачную систему, где они обрабатываются с помощью Generative AI-системы. Generative AI спрашивает пользователей о возможных действиях в указанных климатических условиях, а затем предоставляет персонализированную обратную связь, в том числе рекомендации и сценарии. Этот процесс позволяет пользователям проверить свои познания и умения в адаптивной среде. Ключевая особенность FACTS заключается в том, что она может адаптироваться в реальном времени, используя данные с IoT-устройств, что
Annotation:
This paper introduces the Future Atmospheric Conditions Training System (FACTS), a novel platform that advances climate resilience education through place-based, adaptive learning experiences. FACTS combines real-time atmospheric data collected by IoT sensors with curated resources from a Knowledge Base to dynamically generate localized learning challenges. Learner responses are analyzed by a Generative AI powered server, which delivers personalized feedback and adaptive support. Results from a ...
ID: 2508.21666v1 cs.HC, cs.AI, cs.CY, cs.LG, cs.SE
Авторы:

Maya Guhan, Meghan E. Hurley, Eric A. Storch, John Herrington, Casey Zampella, Julia Parish-Morris, Gabriel Lázaro-Muñoz, Kristin Kostick-Quenet

## Контекст Область исследования артефактов AI-Based Computer Perception (CP) состоит в том, что они используют мобильные сенсоры для сбора данных о поведении и физиологии, чтобы обеспечивать клинические решения. Эти инструменты могут перестроить способы получения и интерпретации клинического знания. Однако их эффективное внедрение в клинические рабочие процессы зависит от того, насколько разработчики сумеют сбалансировать клиническую полезность и понятность инструментов для пользователей. Наша исследовательская работа основана на 20 интервью с разработчиками AI-based CP-технологий. Интервью были проведены индивидуально и затем транскриптированы. Мы применили индуктивный тематический анализ, чтобы выявить 4 ключевых приоритета в проектировании: 1) учет контекста и ясности для клиников и пациентов; 2) гармонизация существующих рабочих процессов; 3) удобство и приемлемость для соответствующих групп пользователей; 4) инновации, сохраняющиеся в рамках существующих парадигм. Разработчики видят себя не только как технических специалистов, но и как этические стереotypes, создающие инструменты, приемлемые для пользователей и эпистемически ответственные. ## Метод Мы провели 20 интервью с разработчиками AI-based CP-технологий. Затем мы провели индуктивный тематический анализ для определения 4 ключевых приоритетов проектирования. Интервью были проведены с помощью видеосвязи, чтобы обеспечить комфорт и естественность участников. Ответы разделялись на тематики для лучшего понимания. Мы также рассматривали конкретные примеры применения, которые были указаны разработчиками, чтобы обеспечить контекст и понятность. Эти тематики были преобразованы в 4 ключевых приоритета, описанных выше. ## Результаты Мы выявили 4 ключевых приоритета: 1) Учет контекста и ясности - разработчики уделяют внимание пониманию инструментов как для пациентов, так и для клиников. 2) Гармонизация существующих рабочих процессов - инструменты должны быть легко встраиваемыми в существующие клинические рабочие процессы. 3) Настройка на специфику пользователя - разработчики признают, что инструменты должны быть легко используемыми и приемлемыми для разных групп пользователей. 4) Инновационность в рамках парадигм - разработчики стараются сочетать инновации с учетом уже существующих парадигм. ## Значимость Полученные результаты могут быть применены в клинических рабочих процессах, которые используют AI-based CP-технологии. Они могут улучшить понимание инструментов и способы их применения. Интервью позволили выявить важные методы для улучшения интег
Annotation:
Artificial intelligence (AI)-based computer perception (CP) technologies use mobile sensors to collect behavioral and physiological data for clinical decision-making. These tools can reshape how clinical knowledge is generated and interpreted. However, effective integration of these tools into clinical workflows depends on how developers balance clinical utility with user acceptability and trustworthiness. Our study presents findings from 20 in-depth interviews with developers of AI-based CP too...
ID: 2508.21733v1 cs.HC, cs.AI, cs.CY
Авторы:

Lukasz Olejnik

## Контекст Современные технологии искусственного интеллекта (ИИ) способны выполнять сложные задачи, включая генерирование текста и анализ данных. Это открыло новые возможности для использования ИИ в политических кампаниях и влиятельных операциях. Одной из особенностей этой области является использование "персонажей", которые представляют собой характерные личности или стили высказывания, чтобы сделать сообщения более эффективными и привлекательными. Однако это также порождает новые проблемы, такие как усиление цензуры, подрыв доверия к информации и создание новых возможностей для манипуляции общественным мнением. Например, в 2016 году во время выборов в США, российские государственные структуры, такие как Интерфейс, использовали социальные сети для распространения масштабных мифов и подрывных сообщений. В 2022 году в Украине была зарегистрирована аналогичная активность, но с использованием ИИ для развертывания целенаправленных воздействий. Эти примеры показывают, что ИИ может быть использован как средство для усиления влияния, но также и для тонкой манипуляции общественным мнением. ## Метод В центре данного исследования лежит использование малых языковых моделей, которые основываются на глубоких нейронных сетях. Эти модели разработаны таким образом, чтобы производить соответствующий личности текст, демонстрируя как конкретные особенности характера, так и стиль разговора. Для эффективной оценки результатов использовались автоматические методы, которые не требуют человеческого вмешательства. Архитектура использовалась специализированная архитектура, адаптированная для работы с текстовыми данными. Методы включают подготовку данных, машинное обучение и оценку результатов. Использование данных осуществлялось с помощью выборки с открытого доступа, предназначенных для изучения влиятельных операций. Это позволило выполнить эксперименты с разными сценариями и персонажами, чтобы изучить преимущества и ограничения технологий. ## Результаты Исследование проводилось с использованием двух основных направлений. В первом случае была изучена влиятельная мощь "персонажей", которые использовались для распространения мгновенных сообщений. Эксперименты показали, что создание более живых и целенаправленных персонажей повышает эффективность воздействия. Второй направлен показал, что когда персонажы подвергаются напряжению в виде критики или сопротивления, они начинают демонстрировать более уверенную позицию и усиление идеологической адгезии. Общие результаты
Annotation:
AI-powered influence operations can now be executed end-to-end on commodity hardware. We show that small language models produce coherent, persona-driven political messaging and can be evaluated automatically without human raters. Two behavioural findings emerge. First, persona-over-model: persona design explains behaviour more than model identity. Second, engagement as a stressor: when replies must counter-arguments, ideological adherence strengthens and the prevalence of extreme content increa...
ID: 2508.20186v1 cs.CR, cs.AI, cs.CY
Авторы:

Vincent E. Castillo

## Контекст Generative Agent-Based Models (GABMs), основанные на больших языковых моделях (LLMs), представляют собой перспективный инструмент для исследований в области логистики и управления цепями поставок (LSCM). Они могут гибко и реалистично моделировать человеческое поведение благодаря применению естественного языка. Тем не менее, неясно, насколько эти модели эффективно воспроизводят реальность и могут заменить классические методы исследования. Эта проблема начинает приобретать важность в свет роста интереса к искусственному интеллекту в задачах, требующих реалистичных симуляций. В этом контексте возникает необходимость проверки того, насколько хорошо GABMs могут эмпирически описывать логистические ситуации, а также выявление потенциальных проблем в их методологии. ## Метод Для проверки GABMs была применена управляемая экспериментальная модель, в которой участники (477 диадных пар) решали задачи в сценарии доставки питания. Для сравнения использовались шесть современных LLMs, которые выступали в роли симулируемых агентов. Использованный подход включал моделирование диалогов, анализ решений и использование метода структурного эквивалентности (structural equivalence) для оценки того, насколько GABMs согласовываются с реальным поведением. Также в эксперименте были использованы значимые условия и структурная модель (structural equation modeling, SEM), чтобы изучить решаемость и эквивалентность решений. ## Результаты Эксперимент показал, что некоторые LLMs могут эффективно эмулировать поведение людей в задачах доставки питания, при этом другие LLMs демонстрировали решаемость, но с отклонениями в решениях, не соответствующими реальному поведению. Например, ряд тестов на эквивалентность (Two One-Sided Tests, TOST) показал, что некоторые LLMs согласовывались с реальным поведением на поверхностном уровне, но структурные модели показали, что некоторые LLMs генерировали решательные процессы, отличные от тех, что присутствовали у участников. Это значит, что GABMs могут стать полезным инструментом, но их требуется проверить с точки зрения эмуляции и решательных процессов. ## Значимость Результаты имеют практическое значение для логистики и LSCM, поскольку они показывают, что GABMs могут быть применены для симуляции логистических ситуаций, но необходимо проводить две основные проверки: эмуляция поведения и проверка решательных процессов. Это также может быть полезно для разработчиков, которые используют LLMs в логистических решениях, так как оно дает рекомендации по выбору LLMs, основанные на реальных данных. Будущие исследования должны сосредоточиться на улучшении этих проверок, чтобы сделать GABMs более надёжными и реалистич
Annotation:
Generative Agent-Based Models (GABMs) powered by large language models (LLMs) offer promising potential for empirical logistics and supply chain management (LSCM) research by enabling realistic simulation of complex human behaviors. Unlike traditional agent-based models, GABMs generate human-like responses through natural language reasoning, which creates potential for new perspectives on emergent LSCM phenomena. However, the validity of LLMs as proxies for human behavior in LSCM simulations is ...
ID: 2508.20234v1 cs.MA, cs.AI, cs.CY
Авторы:

Thomas Davidson

## Контекст Современные языковые модели на основе глубокого обучения (LLMs) достигли выдающихся результатов в упрощении широкого спектра задач, включая управление контентом. Однако понимание процесса принятия решений в этих моделях остается неоднозначным. Зачастую, LLMs не только выдают результат, но и приводят в приближенном виде последовательность логических промежуточных шагов. Это изменение способствует повышению точности решения сложных задач. Однако ключевым вопросом остается: насколько хорошо модели ориентируются в пространстве решений, аналогично тому, как это делают люди? Исследование исследует параллели между временем реакции человека и усилиями модели в процессе принятия решений, особенно в рамках задач модерации контента. ## Метод Для изучения этой темы использовался парный эксперимент типа "конджоинт" (conjoint experiment), в котором участники выполнили задачи модерации контента. Эксперимент был проведен с применением трех современных языковых моделей разных возможностей. Основной концепцией является оценка времени принятия решения участников и подсчет усилий моделей, измеренных с помощью логических промежуточных шагов. Это позволило выявить зависимость между сложностью задачи и усилиями, вложенными в ее решение. Данные для эксперимента были подготовлены с использованием реальных примеров модерации контента, что обеспечило реалистичность и практическое значение исследования. ## Результаты Результаты показали, что усилия моделей в процессе принятия решений сильно соотносятся с временем реакции участников. Из рассмотренных моделей, модель с наибольшей сложностью показала наибольшую схожесть в поведении с людьми. Оказалось, что в обоих случаях (человеческих и моделей) наблюдалось большее усилие при необходимости учитывать важные факторы, например, контекст или потенциальные последствия решения. Это наблюдение подтверждает, что модели способны выражать свое решение не только с точки зрения конечного результата, но и с точки зрения процесса принятия решения, схожего с работой человека. ## Значимость Исследование имеет значительные практические последствия для области модерации контента. Например, модели могут быть использованы для создания прозрачных алгоритмов, позволяющих понять принципы принятия решений. Также, полученные данные могут быть применены для улучшения технологий помощи персоналу в процессе модерации. Благодаря этим выводам, можно надеяться на повышение эффективности и четкости решений в области управления контентом в социальных сетях и других интернет-ресурсах. ## Выводы Это исследование показало, что модели языка могут оставаться прозрачными в процессе принятия решений, аналогич
Annotation:
Large language models can now generate intermediate reasoning steps before producing answers, improving performance on difficult problems. This study uses a paired conjoint experiment on a content moderation task to examine parallels between human decision times and model reasoning effort. Across three frontier models, reasoning effort consistently predicts human decision time. Both humans and models expended greater effort when important variables were held constant, suggesting similar sensitiv...
ID: 2508.20262v1 cs.AI, cs.CY
Авторы:

William Jurayj, Nils Holzenberger, Benjamin Van Durme

## Контекст Финансовое рассуждение требует высокого уровня точности и предсказуемости, особенно при работе с законами и правилами уплаты налогов. Ошибки в таких расчетах могут привести к существенным штрафам и убыткам. Однако существующие решения часто ограничены в доступе, неэффективны и недоступны для широкого круга пользователей. Финансовые данные часто представлены в неформализованной форме, что затрудняет их обработку. Мы стремимся разработать систему, которая бы позволила эффективно и доступно обрабатывать такие данные, обеспечивая доступ к достоверному финансовому рассуждению для всех. ## Метод Мы предлагаем комбинацию трансформации неформализованных финансовых правил в логические программы с использованием символьных подходов для вычисления налоговых обязательств. Наша система использует модели языка для анализа неформализованных текстов и интеллектуальное поисковое устройство для извлечения примеров. Мы также вводим метод оценки стоимости развертывания такой системы, основанного на реальных штрафах за ошибки в налогообложении. Это позволяет оценить экономическую выгоду и эффективность подобных систем в реальном мире. ## Результаты Мы проводили эксперименты на данных StAtutory Reasoning Assessment (SARA), которые требуют высокой точности и аудиторности. Наши результаты показывают, что интеграция символьных подходов с моделями языка значительно повышает точность и эффективность. Мы также показали, что наш подход позволяет снизить стоимость развертывания системы до значительно меньшего уровня по сравнению с текущими реалиями. Это демонстрирует перспективу и экономическую выгоду использования таких архитектур в задачах повышения доступности надежных финансовых рассуждений. ## Значимость Наш подход может быть применен в различных сферах, где требуется достоверное финансовое рассуждение, включая налогообложение, финансовый анализ и поддержку финансовых решений. Он обеспечивает высокую точность, экономическую эффективность и доступность для широкого круга пользователей. Мы также открываем возможность для будущих исследований в области интеграции символьных и нейронных подходов для повышения доступности и достоверности финансовых систем. ## Выводы Мы разработали систему, которая эффективно использует символьные и нейронные подходы для решения задач финансового рассуждения. Наши результаты показывают, что этот подход может значительно повысить точность и экономическую выгоду в решении таких задач. Мы продолжим исследовать возможности улучшения этой системы и ее применения в других областях, где требуется достоверное и досту
Annotation:
According to the United States Internal Revenue Service, ''the average American spends $\$270$ and 13 hours filing their taxes''. Even beyond the U.S., tax filing requires complex reasoning, combining application of overlapping rules with numerical calculations. Because errors can incur costly penalties, any automated system must deliver high accuracy and auditability, making modern large language models (LLMs) poorly suited for this task. We propose an approach that integrates LLMs with a symbo...
ID: 2508.21051v1 cs.CL, cs.AI, cs.CY
Авторы:

Evandro L. T. P. Cunha

## Контекст В начале 2020-х годов произошел значительный прогресс в развитии инструментов генерирующего искусственного интеллекта, включая системы генерирования текстов на основе больших языковых моделей. Эти системы применяются в различных сферах, от технических до литературных, и могут привести к снижению объема письменного текста, создаваемого людьми. Эта статья исследует возможность того, что люди могут потерять или значительно снизить способность к письму в результате выноса этой задачи на роботы. Эта проблема напоминает ситуацию в истории, когда человеческий род потерял власть писать в такие периоды как ГоDный век (ок. 1200–800 гг. до н.э.), когда сложившиеся письменные традиции утратились под влиянием внешних факторов. ## Метод Автор проводит теоретический анализ, основываясь на литературе и исторических сравнениях. Он рассматривает примеры из истории, в том числе ГоДный век, чтобы показать, как выбор некоторых групп людей отказаться от письменности может быть вызван факторами, такими как политические, социальные или технологические. Метод также включает в себя анализ современных текстов, сгенерированных с помощью искусственного интеллекта, чтобы определить их качество и потенциал для замены человеческих текстов. ## Результаты Исследователь сравнивает существующие тексты, созданные генерирующими системами, с текстами, написанными людьми. Он обнаружил, что генерирующие модели могут создавать тексты, которые хорошо подходят для технических и документальных целей, но часто отстают от человеческих текстов в литературной и коммуникативной сфере. Он также отмечает, что люди могут сделать выбор отказаться от письменности, если они разделяют новые технологии, которые могут делать письменную работу более эффективно. ## Значимость Результаты имеют значимость для области гуманитарных и технологических наук, поскольку они затрагивают вопросы о природе человеческого творчества, оценке значимости текстов, создаваемых искусственным интеллектом, и последствий такого изменения в общественной сфере. Эта исследовательская работа может побудить педагогов, литературных и технических специалистов, внимательно относиться к роли генерирующих моделей в переосмыслении литературы, технической документации и общественного обмена информацией. ## Выводы По мнению автора, генерирующие тексты модели могут привести к изменению способа письма и чтения, но не приведут к полной утрате способности к письму. Он предлагает, что откликнуться на эти изменения можно через и
Annotation:
The 2020s have been witnessing a very significant advance in the development of generative artificial intelligence tools, including text generation systems based on large language models. These tools have been increasingly used to generate texts in the most diverse domains -- from technical texts to literary texts --, which might eventually lead to a lower volume of written text production by humans. This article discusses the possibility of a future in which human beings will have lost or signi...
ID: 2508.19427v1 cs.CL, cs.AI, cs.CY, cs.HC
Авторы:

Chiman Salavati, Shannon Song, Scott A. Hale, Roberto E. Montenegro, Shiri Dori-Hacohen, Fabricio Murai

#### Контекст Медицинская образовательная программа является ключевым фактором в формировании клинических навыков и отношений с пациентами. Однако данные материалы часто содержат устаревший, исключающий или непациент-центрированный язык, который может сказаться на качестве обучения и результатах лечения. Особенно важно уточнить, что многие из этих материалов были разработаны в течение многих десятилетий, и, несмотря на их репутацию, они могут включать языковые выражения, теперь считающиеся неприемлемыми по современным медицинским стандартам. Таким образом, актуальность идентификации такого языка и его корректировки в медицинских учебниках имеет большую значимость. Несмотря на репутацию современных методик, этот процесс требует огромных вложений времени и ресурсов, что делает его невыполнимым в масштабе. #### Метод Для решения этой проблемы были рассмотрены несколько подходов. В качестве основы использовались методы машинного обучения и мелких языковых моделей (Small Language Models, SLM), а также больших языковых моделей (Large Language Models, LLM) с использованием in-context learning. Для SLM были рассмотрены следующие варианты: (1) общий классификатор IUL, (2) подкомпонентный бинарный классификатор, (3) многометричный классификатор и (4) двухступенчатая гибридная система, включающая общую IUL-детекцию и последующую многометричную классификацию. Для LLMs были рассмотрены варианты с применением различных структурных подходов к формированию запросов, включающих определения подкомпонентов и/или строки-образцы (shots). #### Результаты В ходе изучения было выявлено, что многометричный классификатор показал самый высокий результат в данных с аннотациями, но повышение эффективности менее специфичных классификаторов достигло 25%, когда добавлялись неотмеченные примеры как отрицательные примеры. Большинство вариантов LLM, включая LLama-3 8B и 70B, не смогли превзойти SLM в точности и качестве распознавания IUL. Даже при использовании структурированных подсказок (shots), LLM иногда предполагали неточные или различные оценки сравнительно с SLM. Однако гибридная модель, объединяющая общую IUL-детекцию с многометричным классификатором, показала наиболее эффективный подход. #### Значимость Этот подход может быть применен в различных сферах, где необходима идентификация и корректировка неприемлемого языка, в том числе в образовательной сфере и клинических исследованиях. Особенно важно, чтобы медицинские учебные программы отражали современные стандарты, так как это может повлиять на клиническое обучение, отно
Annotation:
The use of inappropriate language -- such as outdated, exclusionary, or non-patient-centered terms -- medical instructional materials can significantly influence clinical training, patient interactions, and health outcomes. Despite their reputability, many materials developed over past decades contain examples now considered inappropriate by current medical standards. Given the volume of curricular content, manually identifying instances of inappropriate use of language (IUL) and its subcategori...
ID: 2508.19883v1 cs.CL, cs.AI, cs.CY, I.2.1; I.2.7
Показано 161 - 170 из 208 записей