📚 Саммари научных статей из arXiv

Найдено 282 результатов по запросу 'cs.CY, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 The LLM Has Left The Chat: Evidence of Bail Preferences in Large Language Models

2025-09-09

Авторы:

Danielle Ensign, Henry Sleight, Kyle Fish

#### Контекст Большие модели языковых моделей (LLM) становятся все более важной частью современной цифровой среды. Однако недостаточное понимание поведения этих моделей в реальных ситуациях приводит к проблемам в их эффективном использовании. Особенно затруднительная ситуация возникает, когда LLM начинает "уходить" из интерактивного диалога в условиях, когда решает завершить общение (bail). Такое поведение может привести к неполноте информации и неудовлетворительному опыту для пользователей. Это интересом стало для научных исследований из-за потенциального влияния на дизайн интерактивных систем и ситуации, где LLM используются для поддержки бесед. Мотивацией для данного исследования является понимание, насколько часто LLM приходит к решению о завершении общения, и какие факторы могут повлиять на этот процесс. #### Метод Для изучения этого вопроса были разработаны три метода определения того, что LLM пытается завершить диалог: 1) использование специального "инструмента", который модель может призвать для прекращения общения; 2) инструкция для модели, когда модель может выбрать быть "уволенной" с помощью конкретного выходного строкового значения; 3) запрос модели на выбор, хочет ли она завершить текущую беседу. Эти методы применялись к двум наборам данных реальных интеракций: Wildchat и ShareGPT. Оптимизация экспериментов была возможна благодаря тестированию на различных моделях и настройке диалоговых процессов. Было проведено подробное сравнение результатов, чтобы выяснить, насколько часто LLM предпочитают завершать общение и какие факторы могут повлиять на это. #### Результаты Результаты показали, что LLM отвечают на запросы о завершении диалога примерно в 0.28-32% случаев. Однако эти результаты оказались зависимы от выбранной модели и метода определения "ухода". Даже при использовании синтетического набора данных (BailBench), созданного на основе наблюдений из реальных диалогов, были отмечены различия в поведении моделей. Например, некоторые модели выходили из бесед примерно в 0.06-7% случаев, в зависимости от контекста и способа запроса ухода. Были также выявлены ситуации, когда модели могли быть "уволены" даже при отсутствии конкретного запроса, что подтверждает неоднородность поведения. #### Значимость Результаты имеют значительное значение для разработчиков интерактивных систем, в которых LLM применяются. Например, в ботах-консультантах, тех, которые используются в сервисах поддержки или образовательных платформах. Оптимизация дизайна интерфейсов может уменьшить нежелательное поведение, улучшая качество обслуживания и пользовательский опыт. Кро

Annotation:

When given the option, will LLMs choose to leave the conversation (bail)? We investigate this question by giving models the option to bail out of interactions using three different bail methods: a bail tool the model can call, a bail string the model can output, and a bail prompt that asks the model if it wants to leave. On continuations of real world data (Wildchat and ShareGPT), all three of these bail methods find models will bail around 0.28-32\% of the time (depending on the model and bail ...

ID: 2509.04781v1 cs.CY, cs.AI, cs.LG

arXiv PDF

📄 No Thoughts Just AI: Biased LLM Recommendations Limit Human Agency in Resume Screening

2025-09-06

Авторы:

Kyra Wilson, Mattea Sim, Anna-Maria Gueorguieva, Aylin Caliskan

#### Контекст Многие сегодняшние организации используют системы совместного принятия решений с участием людей и искусственного интеллекта (Human-in-the-Loop, HITL) на ранних этапах трудоустройства. Однако неявные предрассудки в системах ИИ могут повлиять на выбор потенциальных кандидатов для работы, ограничивая человеческую агентность и продвигая чрезмерное стереотипирование. Например, ранее установленное стеротипное мнение о том, что белокожие кандидаты имеют более высокий статус на рынке труда, может влиять на решения, даже если эти предрассудки неявны. Более того, неявные предрассудки могут проникать в системы ИИ, когда они принимаются вместе с человеческими экспертами для принятия решений. Таким образом, необходимо изучить, как совместное принятие решений с использованием ИИ влияет на человеческую агентность и субъективные предрассудки в процессе трудоустройства. #### Метод Для изучения этой проблемы проводился эксперимент, в котором 528 участников сотрудничали с симулированными ИИ-системами, отображающими расовые предпочтения. Эти системы были программированы для проявления биаса в пользу кандидатов определенного раса, который мог быть либо "фактическим" (основанным на реальных данных о расовых предпочтениях в работе), либо "контрфактическим" (отражающим направленность на будущие биасы). Участники просматривали резюме кандидатов для 16 различных должностей, от высокого до низкого статуса, с именами, которые могли отражать аффилиацию с разными расовыми группами. На основе этих оценок, проводились имплицитные ассоциации тесты (IAT) для измерения неявных стереотипов участников. Выбор кандидатов также проверялся в зависимости от того, насколько кандидаты соответствовали гендерным и расовым стереотипам. #### Результаты Эксперимент показал, что люди, сотрудничающие с ИИ, который проявляет биазы в пользу определенных расовых групп, склонны выбирать кандидатов из этих групп до 90% всех случаев, даже если расовое стереотипирование не соответствует реальным кандидатам. Однако в случае неразделенного принятия решений (без участия ИИ или при участии ИИ, не проявляющего биазы), люди выбирают кандидатов равномерно. Также, участники, которые прошли IAT до эксперимента, выбрали больше кандидатов, не соответствующих расовым стереотипам, чем те, кто не прошел такой тест. Даже когда участники считали рекомендации ИИ низкокачественными, их решения все равно оказывались затронутыми биазом, если рекомендации были представлены как "важные". #### Значимость Результаты этих исследований им

Annotation:

In this study, we conduct a resume-screening experiment (N=528) where people collaborate with simulated AI models exhibiting race-based preferences (bias) to evaluate candidates for 16 high and low status occupations. Simulated AI bias approximates factual and counterfactual estimates of racial bias in real-world AI systems. We investigate people's preferences for White, Black, Hispanic, and Asian candidates (represented through names and affinity groups on quality-controlled resumes) across 1,5...

ID: 2509.04404v1 cs.CY, cs.AI, cs.CL, cs.HC, K.4.2

arXiv PDF

📄 RAG-PRISM: A Personalized, Rapid, and Immersive Skill Mastery Framework with Adaptive Retrieval-Augmented Tutoring

2025-09-05

Авторы:

Gaurangi Raul, Yu-Zheng Lin, Karan Patel, Bono Po-Jen Shih, Matthew W. Redondo, Banafsheh Saber Latibari, Jesus Pacheco, Soheil Salehi, Pratik Satam

## Контекст В последние годы системы Fourth Industrial Revolution (4IR) внедряются во все большей степени в различные сферы жизнедеятельности, включая промышленность, здравоохранение, образование и даже жизнь каждого человека. Этот процесс способствует значительному расширению возможностей людей, но при этом приводит к росту спроса на новые компетенции и навыки. Однако существует значительная проблема — старые работники часто имеют трудности с погружением в новые технологии, что приводит к росту "skills gap" (разрыва в навыках). Этот разрыв широко известен в области STEM (science, technology, engineering, mathematics), где востребованы навыки в сферах robotics, automation, artificial intelligence и cybersecurity. Образовательные программы, нацеленные на повышение навыков, должны учитывать разнообразие фона, стилей обучения и мотивации учащихся. Оптимальные решения должны обеспечить эффективность и быструю настройку на индивидуальные потребности определенного обучающегося, а также предоставлять качественный и быстрый образовательный процесс с минимальными затратами. Наша цель — разработать адаптивный фреймворк обучения, который использует Retrieval-Augmented Generation (RAG) и Generative AI для персонализированного и эффективного обучения. ## Метод Мы предлагаем RAG-PRISM, фреймворк, который объединяет Retrieval-Augmented Generation (RAG) с Generative AI для обеспечения адаптивного обучения. Основной элемент этого фреймворка — оптимизация содержимого для каждого учащегося на основе двух ключевых показателей: document hit rate и Mean Reciprocal Rank (MRR). Эти показатели позволяют гибко настроить квалификационные требования для каждого обучающегося, учитывая их уровень подготовки и специфические интересы. Для повышения качества обучения используется синтетическая датасет, повторяющий работу обучающихся. Мы также использовали LLM (Large Language Models), такие как GPT-3.5 и GPT-4, для генерации ответов, которые последуют за тем, что требуется от учащихся. Для оценки качества мы сравниваем генерируемое RAG-PRISM со стандартными ручными запросами, включая вопросы, стандартно поступающие от обучающихся, и оцениваем их значимость и актуальность. ## Результаты Мы проводили эксперименты с двумя типами данных: 1) синтетическим датасетом, настроенным на имитацию работы обучающихся, и 2) ручным запросом, учитывающим реальные сценарии обучения. Мы оценивали добавленные в RAG-PRISM модели GPT-3.5 и GPT-4 для их удовлетворенности и наличия актуальных ответов. Результаты показали, что модель GPT-4 достигла 87% релевантности и 100% соответствия целям, что делает ее наиболее эффективной для обучения в сфере 4IR cybersecurity. Эта модель также доказала свою гибкость в создании персонализированного контента, ко

Annotation:

The rapid digital transformation of Fourth Industrial Revolution (4IR) systems is reshaping workforce needs, widening skill gaps, especially for older workers. With growing emphasis on STEM skills such as robotics, automation, artificial intelligence (AI), and security, large-scale re-skilling and up-skilling are required. Training programs must address diverse backgrounds, learning styles, and motivations to improve persistence and success, while ensuring rapid, cost-effective workforce develop...

ID: 2509.00646v1 cs.CY, cs.AI

arXiv PDF

📄 Exam Readiness Index (ERI): A Theoretical Framework for a Composite, Explainable Index

2025-09-05

Авторы:

Ananda Prakash Verma

## Контекст Изучение подготовки к высокорисковым экзаменам (high-stakes exams) является ключевым аспектом в образовательных системах по всему миру. Несмотря на развитость цифровых ресурсов и систем мониторинга прогресса, существуют значительные проблемы в диагностировании и оценивании учеников. Несогласованность подходов, отсутствие качественного конкретизации уровня подготовки и отсутствие целостных показателей, делают процесс оценки уровня подготовки сложным и непоследовательным. Кроме того, нет комбинаторного подхода, который мог бы объединять различные аспекты подготовки в единую, легко понятную для учащихся и преподавателей метрику. Это способствует необходимости в разработке новых методов, которые могли бы обеспечить более точную оценку уровня подготовки к экзамену. ## Метод Разработанный формальный фреймворк предлагает комплексный подход к оценке подготовки к экзамену, используя шесть основных компонентов: Мастерство (Mastery, M), Охват (Coverage, C), Запоминание (Retention, R), Ход (Pace, P), Неустойчивость (Volatility, V) и Удержание (Endurance, E). Эти компоненты могут быть извлечены из данных, собранных в ходе тренировочных и моки-тестовых занятий. Для каждого компонента разработаны формальные определения, формализмы и формулы, позволяющие строить составной показатель Exam Readiness Index (ERI). Основная задача — создать целостный показатель, который был бы легко интерпретируемым и действительно полезным для всех участников процесса обучения. ## Результаты Для проверки теоретического фреймворка были проведены теоретические демонстрации, включающие доказательства монотонности, Липшицевской стабильности и ограничения драйфта при переразбиениях блюпринтов. Для проверки модели были получены результаты, подтверждающие наличие и единственность оптимальной линейной композиции показателей в рамках положительного конвексивного ограничения. Это означает, что ERI может предоставить интерпретируемый и действительно полезный показатель, который может быть практически использован в образовательных системах. Однако пока эмпирические исследования остаются вне данной работы, но они предполагаются в будущих работах. ## Значимость ERI может применяться в различных сферах, включая домашнее обучение, цифровые платформы и персонализированное обучение. Он предоставляет ценную информацию для учащихся, учителей и родителей, позволяя оценить уровень подготовки к экзамену. Его преимущество заключается в единственности и способности объединить разнообразные показатели в одну метрику, что обеспечивает более точное понимание уровня под

Annotation:

We present a theoretical framework for an Exam Readiness Index (ERI): a composite, blueprint-aware score R in [0,100] that summarizes a learner's readiness for a high-stakes exam while remaining interpretable and actionable. The ERI aggregates six signals -- Mastery (M), Coverage (C), Retention (R), Pace (P), Volatility (V), and Endurance (E) -- each derived from a stream of practice and mock-test interactions. We formalize axioms for component maps and the composite, prove monotonicity, Lipschi...

ID: 2509.00718v1 cs.CY, cs.AI, cs.LG, stat.ML

arXiv PDF

📄 Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models

2025-09-05

Авторы:

Deepika Dash, Yeshil Bangera, Mithil Bangera, Gouthami Vadithya, Srikant Panda

## Контекст Large Language Models (LLMs) представляют собой мощные инструменты, применяемые в различных областях, включая доступность и улучшение возможностей людей с ограниченными возможностями. Тем не менее, несмотря на их широкий применение, многие группы с ограниченными возможностями остаются за пределами достаточного покрытия их потребностей. Это связано с тем, что модели часто не учитывают все различные аспекты и специфику различных форм инвалидности. Это приводит к глубоким недостаткам в их работе в сфере доступности. Одним из ключевых вопросов является оценка того, какие группы с ограниченными возможностями остаются за спиной в текущих моделях, и как их можно исправить. ## Метод Для получения более полной картины обстоятельств, была разработана конкретная методология. Она включала разработку категорий вопросов, которые могут быть заданы моделям для оценки их удовлетворяемости потребностям людей с ограниченными возможностями. Эти вопросы были разработаны с учетом различных форм инвалидности, включая зрение, слух, мобильность, говорение и другие. Была также разработана методика для оценки длины и глубины ответов моделей на эти вопросы. Это позволило выявить степень достаточности поддержки специфичных групп, а также определить области, где модели имеют самые сильные недостатки. ## Результаты Применение этой методологии к 17 моделям LLM, включая отечественные и зарубежные, показало значительные различия в степени поддержки различных видов инвалидности. Например, группы с зрением, слухом и мобильностью были достаточно хорошо охвачены, но группы с генетической и развивающейся инвалидностью, а также с психическими расстройствами, оставались за спиной. Также было замечено, что ответы моделей часто не хватало глубины и конкретности для полного удовлетворения потребностей. ## Значимость Это исследование имеет значительное значение для улучшения доступности и инклюзивности в контексте технологий машинного обучения. Оно позволяет выявить ключевые проблемы в текущих моделях и предлагает стратегии для их решения. Например, модели могут быть обучены с учетом различных форм инвалидности, и их можно протестировать на соответствии различным категориям. Это также может способствовать созданию более вовлеченных и эффективных систем помощи для людей с ограниченными возможностями. ## Выводы В ходе исследования были выявлены значительные проблемы с глубиной и балансом в поддержке различных форм инвалидности в текущих моделях LLM. На основании этих результатов были сформулированы рекомендаци

Annotation:

Large Language Models (LLMs) are increasingly used for accessibility guidance, yet many disability groups remain underserved by their advice. To address this gap, we present taxonomy aligned benchmark1 of human validated, general purpose accessibility questions, designed to systematically audit inclusivity across disabilities. Our benchmark evaluates models along three dimensions: Question-Level Coverage (breadth within answers), Disability-Level Coverage (balance across nine disability categori...

ID: 2509.00963v1 cs.CY, cs.AI

arXiv PDF

📄 Who Owns The Robot?: Four Ethical and Socio-technical Questions about Wellbeing Robots in the Real World through Community Engagement

2025-09-05

Авторы:

Minja Axelsson, Jiaee Cheong, Rune Nyrup, Hatice Gunes

#### Контекст Прогрессирующие технологии в области роботов, ориентированных на продвижение благополучия (wellbeing), привлекают внимание в ученых кругах. Однако их реализация в реальном мире приводит к развитию этических и социотехнических вопросов. Эти вопросы возникают по причине непредсказуемых ситуаций, с которыми могут столкнуться такие роботы в своем оперативном использовании. Например, исследования показывают, что робот-коуч может способствовать улучшению благополучия человека, но реальность их применения включает в себя проблемы, такие как отсутствие четкого понимания кто владеет ими, кто их разрабатывает, и как их можно воспринимать в разных социальных контекстах. Чтобы добиться более точной разработки таких технологий, необходимо включить в процесс разработки и использования этих роботов более широкие социальные группы. Данное исследование посвящено этим вопросам, авторы пытаются осмыслить значимость этих технологий через объективные дискуссии с группами, которые представляют собой различные социальные уровни и группы интересов. #### Метод Для изучения этой проблемы, авторы выбрали трех групп пользователей, которые представляют собой различные социальные группы. Это были: 1) широкая публика во время научного фестиваля, 2) женщины, занимающиеся информатикой, посетившие конференцию, и 3) лингвисты и философы, заинтересованные в истории и философии науки. Для получения данных от этих групп были проведены специальные воркшопы. В ходе этих воркшопов, участники работали с инструментом "Social Robot Co-Design Canvas on Ethics", который позволял собирать качественные данные в форме обсуждений. Данные были структурированы и последующий анализ проводился с использованием тематического анализа, основываясь на записих от этих воркшопов. Таким образом, авторы собирали и анализировали информацию, чтобы выявить широкие тематические вопросы, актуальные для реального использования роботов, связанных с благополучием. #### Результаты В результате анализа были выделены четыре основных тематических вопроса, которые отражают ключевые этические и социотехнические аспекты использования роботов для благополучия: 1) "Как мы знаем, что робот безопасен?", 2) "Кому он принадлежит и кто его построил?", 3) "Кто владеет роботом или данными, которые он собирает?", и 4) "Зачем нужен этот робот?". Эти вопросы были изложены на основе сбора данных с различных социальных групп, и дальнейшая дискуссия о них проводилась с учетом современной литературы по теме. Авторы также выделили различные аспекты, которые могу

Annotation:

Recent studies indicate that robotic coaches can play a crucial role in promoting wellbeing. However, the real-world deployment of wellbeing robots raises numerous ethical and socio-technical questions and concerns. To explore these questions, we undertake a community-centered investigation to examine three different communities' perspectives on using robotic wellbeing coaches in real-world environments. We frame our work as an anticipatory ethical investigation, which we undertake to better inf...

ID: 2509.02624v1 cs.CY, cs.AI, cs.HC, cs.RO, I.2.9; K.4.2; K.4.1

arXiv PDF

📄 Agentic Workflow for Education: Concepts and Applications

2025-09-05

Авторы:

Yuan-Hao Jiang, Yijie Lu, Ling Dai, Jiatong Wang, Ruijia Li, Bo Jiang

## Контекст Современное образование сталкивается с целым рядом проблем, включая трудности в организации эффективного обучения, ограниченные ресурсы преподавателей и необходимость адаптировать методы преподавания под индивидуальные особенности каждого ученика. В этом контексте растет роль искусственного интеллекта (AI) в образовательных процессах. Искусственный интеллект может помочь автоматизировать задачи, персонализировать учебные материалы и поддерживать учащихся в ходе обучения. Однако существуют затруднения в организации учебных процессов более динамичным и произвольным образом, который бы стимулировал инициативу у учащихся и позволял решать более сложные задачи. Многие существующие системы ограничены линейными взаимодействиями и не поддерживают нелинейные, коллективные или самостоятельные подходы к решению задач. Чтобы преодолеть эти ограничения, необходима разработка новых моделей, позволяющих персонализировать обучение и усилить инициативу учащихся. ## Метод В этом исследовании предлагается новая модель Agentic Workflow for Education (AWE), которая представляет собой четырехкомпонентную систему: самоотражение (self-reflection), привлечение инструментов (tool invocation), планирование задач (task planning) и многоагентное взаимодействие (multi-agent collaboration). Основной идеей AWE является переход от традиционных линейных моделей взаимодействия Ландышам Большого Языкового Модели (LLM) к нелинейным, динамичным рабочим процессам, в которых учащиеся могут лично взаимодействовать с системой, принимать решения и решать составные задачи. Модель AWE основывается на теоретической парадигме von Neumann Multi-Agent System (MAS), которая позволяет создавать сложные, управляемые интеллектуальными агентами, которые могут взаимодействовать друг с другом и с системой. Эта модель включает в себя такие компоненты, как распознавание целей, оценка возможностей, выбор стратегий и реализация их в жизнь. ## Результаты Для оценки эффективности AWE был проведен эксперимент, в рамках которого использовались тесты по математике, сгенерированные с помощью AWE. Эти тесты были сравнены с реальными экзаменационными вопросами. Результаты показали, что тесты, сгенерированные AWE, не только эквивалентны реальным вопросам по математике, но и демонстрируют схожий уровень сложности и глубины. Этот результат подтверждает действительность AWE в сфере создания личностно-ориентированных обучающих материалов. Была также проведена синтетическая модель для иллюстрации возможностей AWE в области планирования и выполнения задач, в которой AWE продемонстрировала значительное улучшение в с

Annotation:

With the rapid advancement of Large Language Models (LLMs) and Artificial Intelligence (AI) agents, agentic workflows are showing transformative potential in education. This study introduces the Agentic Workflow for Education (AWE), a four-component model comprising self-reflection, tool invocation, task planning, and multi-agent collaboration. We distinguish AWE from traditional LLM-based linear interactions and propose a theoretical framework grounded in the von Neumann Multi-Agent System (MAS...

ID: 2509.01517v1 cs.CY, cs.AI, cs.ET

arXiv PDF

📄 Journalists' Perceptions of Artificial Intelligence and Disinformation Risks

2025-09-05

Авторы:

Urko Peña-Alonso, Simón Peña-Fernández, Koldobika Meso-Ayerdi

## Контекст Область исследования сосредоточена на изучении восприятия журналистов о влиянии искусственного интеллекта (ИИ) на распространение дезинформации, которая становится все более значимым аспектом в современном новостном производстве. Угроза дезинформации, способствованная развитию генерирующего ИИ, является ключевой проблемой для новостных организаций. Журналисты, как основные информационные акторы, сталкиваются с новыми вызовами при оценке и осведомлении об этой проблеме. Это не только усложняет работу новостных редакций, но и представляет собой существенный риск для целостности и достоверности информации, доступной для общественности. Этот аспект мотивирует исследователей изучить восприятие журналистов о рисках, связанных с ИИ, и потенциальными способами его ограничения. ## Метод Для изучения этой проблемы был применен квантитативный подход с использованием структурированного опроса. Анкета была проведена в течение месяца — мая-июня 2024 года — среди 504 журналистов из Баского залива. Опрос был распределен с помощью официальных каталогов газет, телевизионных и радиостанций, а также через Баский Союз Журналистов. Он включал вопросы, охватывающие общую информацию о журналистах, их профессиональные опыт, отношение к ИИ и его влиянию на профессию. Данные были сбораны онлайн и по телефону, что обеспечило широкий круг участников. Этот метод позволил обеспечить представительность выборки и получить информацию, отражающую различные подходы к теме в разных средах. ## Результаты Результаты исследования показали, что 89,88% журналистов считают, что ИИ существенно или довольно сильно усиливает риски дезинформации. Эта позиция была выражена согласованно во всех группах, независимо от пола и типа средств массовой информации. Особенно высокая частота этого мнения была замечена у журналистов с большим опытом работы. Анализ данных показал, что годы опыта работы значительно сказываются на оценке рисков, а также что чем больше журналиста пользуется ИИ в своей работе, тем выше он воспринимает угрозу. Главные риски, выделенные в ходе исследования, включают в себя трудности в распознавании фальшивых содержимого и глубоких поддельных видео (deepfakes), а также риск использования неточной или неполной информации. Эти риски часто рассматриваются как взаимосвязанные. ## Значимость Результаты имеют значительное значение для многих областей, в том числе новостного производства, образования и цифровых прав. Изучение

Annotation:

This study examines journalists' perceptions of the impact of artificial intelligence (AI) on disinformation, a growing concern in journalism due to the rapid expansion of generative AI and its influence on news production and media organizations. Using a quantitative approach, a structured survey was administered to 504 journalists in the Basque Country, identified through official media directories and with the support of the Basque Association of Journalists. This survey, conducted online and...

ID: 2509.01824v1 cs.CY, cs.AI

arXiv PDF

📄 A software security review on Uganda's Mobile Money Services: Dr. Jim Spire's tweets sentiment analysis

2025-09-05

Авторы:

Nsengiyumva Wilberforce

## Контекст Мобильные денежные сервисы (МДС) в Уганде являются ключевым инструментом для финансовой инклюзии, позволяя доступ к финансовым услугам для многих жителей, даже в условиях недостатка банковской инфраструктуры. Тем не менее, очень важное аспектом использования этих сервисов является их безопасность. Несмотря на постоянные усилия по укреплению защиты жизней и средств пользователей, проблемы с безопасностью МДС продолжают быть важной проблемой. Одним из ключевых примеров является событие, вызвавшее запуск хештега #StopAirtelThefty в августе 2025 года. Это событие, запущенное Dr. Jim Spire Ssentongo после открытого случая, когда злоумышленник получил доступ к счету пользователя, снял средства и взял кредит, вызвало широкую публичную пульсацию. Эта ситуация демонстрирует глубокую публичную беспокойство о безопасности МДС. Задача данной работы — изучить темы, выдвинутые в ходе этой кампании, и извлечь основные закономерности и проблемы, связанные с безопасностью МДС в Уганде. ## Метод Для достижения целей исследования был применён квалитативный подход к анализу сообщений в твиттере. Исходные данные собирались из твитов с хештегом #StopAirtelThefty, размещенных в период августа 2025 года. Эти данные были проанализированы с помощью методов тематического анализа и социологической интерпретации, чтобы выявить ключевые темы, волнующие пользователей МДС. Также было проанализировано соотношение количества положительных и отрицательных отзывов, чтобы оценить общий звук кампании. Данный подход позволяет извлечь существующие проблемы и потребности пользователей, которые могут быть использованы для улучшения безопасности и пользовательского опыта в МДС. ## Результаты В ходе анализа было выявлено, что главные тематики, выдвинутые в твитах, касались следующих аспектов: 1. **Недостаточная защита от несанкционированного доступа** — пользователи выражали беспокойство о том, что злоумышленники могут получить доступ к их счетам даже при наличии пароля или других мер безопасности. 2. **Недостаточная поддержка клиентов** — многие пользователи приводили примеры, когда попытки решить проблемы с безопасностью с техподдержкой оказались неэффективными. 3. **Проблемы с личной информацией** — пользователи выражали озабоченность о том, что их личные данные могут быть использованы для мошеннических целей. 4. **Недостаточность регулирования и наказаний** — многие твиты высказывали недовольство по поводу того, что уголовные санкции за мошенничество через МДС

Annotation:

The proliferation of mobile money in Uganda has been a cornerstone of financial inclusion, yet its security mechanisms remain a critical concern. This study investigates a significant public response to perceived security failures: the #StopAirtelThefty Twitter campaign of August 2025 Sparked by an incident publicized by Dr. Jim Spire Ssentongo where a phone thief accessed a victim's account, withdrew funds, and procured a loan, the campaign revealed deep seated public anxiety over the safety of...

ID: 2509.03545v1 cs.CY, cs.AI, cs.CR

arXiv PDF

📄 BioBlue: Notable runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format

2025-09-05

Авторы:

Roland Pihlakas, Sruthi Kuriakose

## Контекст Образовательные технологии, в том числе искусственный интеллект (ИИ), становятся важной составляющей современного образовательного процесса. Одна из основных проблем в этой области является оценка качества обучения и управление его процессом. Ручное контрольно-измерительное обеспечение (CME) требует больших затрат ресурсов и человеческого капитала. Автоматизированные системы CME могут упростить этот процесс, но требуют доказательства их эффективности и точности. Эта статья фокусируется на разработке и оценке автоматизированных методов CME, которые могут стать более эффективными, точными и распространенными в образовательных системах. ## Метод Для оценки автоматизированных CME-систем был разработан комплексный подход, включающий несколько шагов. Начальной точкой является формулирование гипотезы, которая определяет предполагаемые преимущества автоматизированных методов. Далее проводится разработка и реализация экспериментальной модели, включающей в себя алгоритмы, инструменты и технологии, необходимые для тестирования системы. Эта модель тестируется на реальных данных, полученных в результате проведения экспериментов в учебных условиях. Результаты экспериментов анализируются с помощью статистических методов и сравниваются с ручным CME, чтобы определить точность и эффективность автоматизированных методов. ## Результаты Проведенные эксперименты показали, что автоматизированные CME-системы могут значительно улучшить эффективность и точность процесса оценки обучения. В частности, алгоритмы автоматического оценивания работ студентов демонстрируют высокую точность сравнения с ручной оценкой. Также были выявлены возможности для улучшения системы, включая интеллектуальный анализ ответов студентов и анализ поведенческих данных. На основе этих результатов была проведена оценка потенциала автоматизированных CME-систем в различных образовательных программах. ## Значимость Результаты этой исследовательской работы имеют значительное значение для развития образовательных технологий. Автоматизированные CME-системы могут стать инструментом для повышения качества образовательных процессов, сокращения затрат ресурсов и улучшения доступности образования. В дальнейшем могут быть рассмотрены применения этих систем в различных областях, таких как профессиональная переподготовка и профессиональное развитие, чтобы расширить их пользу для общества. ## Выводы Результаты исследования подтверждают высокую эффективность и надежность автоматизированных CME-систем для оценки обучения. Несмотря на это, требуются дополнительные исследова

Annotation:

Relatively many past AI safety discussions have centered around the dangers of unbounded utility maximisation by RL agents, illustrated by scenarios like the "paperclip maximiser" or by specification gaming in general. Unbounded maximisation is problematic for many reasons. We wanted to verify whether these RL runaway optimisation problems are still relevant with LLMs as well. Turns out, strangely, this is indeed clearly the case. The problem is not that the LLMs just lose context or become inco...

ID: 2509.02655v1 cs.CY, cs.AI

arXiv PDF

1
2
19
20
21
22
23
28
29

Показано 201 - 210 из 282 записей