📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

## Контекст Область исследования связана с исследованием личностных характеристик и их влияния на поведение, обсуждаемых как в человеческих, так и в искусственных системах. Несмотря на долгое время исследования личности, существуют проблемы в том, как эффективно измерить и предсказать поведение на основе личностных характеристик. Одной из главных причин этому является несоответствие между самооценками личности и фактическим поведением. Это проблема дополнительно усиливается при изучении искусственных систем, таких как Большие Лингвистические Модели (LLM), которые могут отображать похожие личностные тренды, но их поведение может отличаться от людей. Это приводит к необходимости понять, насколько характеристики в LLM зеркалируют реальность и на сколько они влияют на поведение. ## Метод Для исследования LLM личности, авторы применяют систематический подход, состоящий из трех основных измерений. Во-первых, они выясняют, как личностные характеристики возникают и меняются во время обучения модели. Во-вторых, оценивается, насколько самооценка личности соответствует фактическим поведенческим задачам. И, наконец, в третьих, исследуется то, как целенаправленные интервенции, такие как "инъекция личности", влияют на оба аспекта - самооценку и поведение. Была использована методология тренировки модели с использованием различных вариантов инструкций и стимулов, чтобы выявить сильные и слабые стороны взаимосвязи личности и поведения. ## Результаты Исследование показало, что инструкционное выравнивание (например, Reinforcement Learning from Human Feedback, инструкционное тюнинг) стабилизирует выражение личностных черт и укрепляет их корреляции. Однако, несмотря на то, что самооценка личности может быть успешно "вдохновлена" целевой инъекцией, она часто не сильно влияет на фактическое поведение модели. И, что может быть еще более важно, полученные результаты показали, что различные личностные характеристики могут отличаться по вероятности их появления в LLM, но это не всегда соотносится с поведенческими задачами, в которых модель принимает участие. Это означает, что, несмотря на то, что LLM может выражать личностные характеристики, она часто не демонстрирует соответствующего поведения. ## Значимость Набор полученных результатов имеет значительное значение для широкого спектра областей. Во-первых, полученные результаты могут быть применены в разработке более человечных интерфейсов, где LLM могут отображать личностную сторону, но с учетом реального поведения. Во-вторых, эти находки могут быть полезны в области проверки
Annotation:
Personality traits have long been studied as predictors of human behavior.Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically...
ID: 2509.03730v1 cs.AI, cs.CL, cs.CY, cs.LG, stat.ML
Авторы:

Yumeng Lin, Dong Li, Xintao Wu, Minglai Shao, Xujiang Zhao, Zhong Chen, Chen Zhao

## Контекст Научные исследования постоянно сталкиваются со сложностями в обеспечении справедливости (fairness) и надежности (robustness) машинного обучения, особенно при переходах между различными видами визуальных данных (domain shifts). Эти проблемы становятся актуальнее в таких областях, как распознавание лиц, где необходимо обеспечить точность и справедливость в отношении различных демографических групп. Одной из ключевых проблем является то, что существующие данные и методы не вполне эффективны для оценки и улучшения справедливости и надежности моделей в условиях значительных визуальных различий. Это способствует необходимости в разработке более сложных инструментов для этих задач. Face4FairShifts - это крупномасштабная база данных, специально разработанная для систематической оценки справедливости в машинном обучении и обеспечения достоверности моделей при переходах между различными видами визуальных данных. ## Метод Face4FairShifts является большой базой данных, состоящей из 100,000 изображений лиц, разделенных на четыре вида различных визуальных доменов. Эти домены отличаются визуально и содержат детальные характеристики для 39 атрибутов, разделенных на 14 категорий, включающих как демографические признаки, так и физиологические особенности лица. База данных предназначена для тестирования различных алгоритмов обучения, особенно тех, которые стремятся добиться справедливости и надежности в условиях значительных визуальных различий. Она позволяет проводить эксперименты с разными архитектурами моделей и сравнивать полученные результаты, чтобы выявлять с WEAKNESSES в текущих подходах к обучению. ## Результаты Исследователи провели многочисленные эксперименты с Face4FairShifts, оценивая различные модели машинного обучения по их способности работать в условиях дистрибутивных сдвигов. Набор данных был использован для измерения производительности моделей в задачах распознавания лиц и справедливости. Результаты показали, что многие текущие модели имеют существенные уязвимости в тех случаях, когда требуется работа в условиях визуальных различий. Это подтверждает наличие значительных проблем в нынешних подходах к обучению, особенно в ситуациях, где требуется справедливость в отношении различных демографических групп. ## Значимость Face4FairShifts предоставляет широкие возможности для развития новых подходов к обучению, способных обеспечить справедливость и надежность в разных визуальных доменах. Этот набор данных может быть использован в различных областях, таких как безопасность, здравоохранение, искусственный интеллект и др., где важно обеспечить не только точ
Annotation:
Ensuring fairness and robustness in machine learning models remains a challenge, particularly under domain shifts. We present Face4FairShifts, a large-scale facial image benchmark designed to systematically evaluate fairness-aware learning and domain generalization. The dataset includes 100,000 images across four visually distinct domains with 39 annotations within 14 attributes covering demographic and facial features. Through extensive experiments, we analyze model performance under distributi...
ID: 2509.00658v1 cs.CV, cs.CY, cs.LG
Авторы:

Stanley Mugisha, Rashid Kisitu, Francis Komakech, Excellence Favor

## Контекст Преждевременный род вызывает значительную часть неонатальной смертности и тяжелых заболеваний у новорожденных, специфично страдающих от недостатка доступа к высокотехнологичным плотных терапийным отделениям (терапевтический отдел новорожденных) в медицинских учреждениях низкого ресурсного уровня. Непрерывный мониторинг поведения преждевременного младенца, включающий состояния сна и бодрствования, а также выплески, является критически важной задачей. Однако, существующие методы, такие как ручное наблюдение или использование инвазивных сенсоров, требуют значительных усилий и могут вызывать кожные повреждения. Этот артикул предлагает инновационный подход, основанный на визуальной обработке изображений, для решения этой проблемы. ## Метод Предлагаемое решение основывается на разработке визуального системы мониторинга на базе эмбеддированной системы. Используется модель MobileNet, уменьшенная за счет quantization, запущенная на Raspberry Pi. Эта модель обеспечивает быстрый и эффективный анализ видеопотока для определения состояний сна, бодрствования и крика младенца. Технической особенностью является использование IoT для безопасной передачи данных в реальном времени клиническим системам, позволяющим связать проявления необычного поведения с клиническими оповещениями. Методика включает бенчмаркинг различных моделей, включая ResNet152 и VGG19, для сравнения их вычислительной эффективности и точности диагностики. ## Результаты Оценка производительности производилась на публичных датасетах неонатальной медицины. Уменьшенная модель MobileNet показала высокую точность в определении состояния сна (91.8%) и классификации крика (97.7%) с оптимальным балансом между вычислительной сложностью и точностью. Вычислительные эксперименты показали, что размер модели и ее скорость вывода являются критичными факторами для интеграции в реальном времени. Отчет о сравнении с более крупными архитектурами, такими как ResNet и VGG, показал, что хотя они могут показывать незначительное повышение точности, их ресурсоемкость не позволяет использовать их в реальном времени на малопроизводительных устройствах. ## Значимость Предложенная система может применяться в клинических учреждениях низкого ресурсного уровня для непрерывного мониторинга преждевременных младенцев. Система обеспечивает дешевую и клинически действительную альтернативу традиционным методам мониторинга. Основные преимущества включают высокую точность диагностики, эффективность ресурсов, и минимизацию возможных повреждений от инвазивных сенсоров. Это направляет прогре
Annotation:
Preterm birth remains a leading cause of neonatal mortality, disproportionately affecting low-resource settings with limited access to advanced neonatal intensive care units (NICUs).Continuous monitoring of infant behavior, such as sleep/awake states and crying episodes, is critical but relies on manual observation or invasive sensors, which are prone to error, impractical, and can cause skin damage. This paper presents a novel, noninvasive, and automated vision-based framework to address this g...
ID: 2509.02018v1 cs.CV, cs.CY, cs.LG, I.4.9
Авторы:

Akriti Verma, Shama Islam, Valeh Moghaddam, Adnan Anwar

## Контекст Онлайн-токсичность, включая ненавистную речь и троллинг, стала широко распространенной проблемой в цифровых пространствах. Она затрудняет коммуникацию, снижает благополучие пользователей и порождает отрицательные последствия для общества. Несмотря на то, что существует многочисленная практика модерации после факта, уделяется мало внимания реальному времени и эмоциональным динамикам в онлайн-дискуссиях. Это не только ограничивает пользовательский опыт, но и снижает психологическую безопасность. Направление исследований в области реального времени, опирающихся на технологии, чтобы добиться здорового и позитивного окружения, является ключевым для решения этой проблемы. ## Метод Разработанная модель основывается на графах, позволяющих анализировать динамику эмоций в онлайн-дискуссиях. Она использует методы машинного обучения для определения эмоциональных ситуаций, которые требуют регулирования. Для того, чтобы реагировать на троллинг и ненавистные комментарии, предлагается механизм очереди комментариев, который временно делает недоступными посты, давая пользователям возможность саморегулировать свои эмоции. Это решение не только предотвращает распространение злости, но и помогает пользователям рассмотреть свои действия перед отправкой замечаний, которые могут способствовать ухудшению климата дискуссии. ## Результаты Для тестирования эффективности разработанной модели были выполнены эксперименты с данными социальных сетей, таких как Twitter и Reddit. Результаты показали, что графическая модель снизила общую токсичность в дискуссиях на 12%, тогда как механизм очереди комментариев уменьшил распространение злости на 15%. Более того, в среднем только 4% комментариев были отложены для модерации, что демонстрирует высокую эффективность метода. Эти результаты подтверждают, что комбинация реального времени для регулирования эмоций с задержкой модерации может значительно улучшить обстановку в онлайн-пространстве. ## Значимость Предложенные технологии могут быть применены в различных онлайн-платформах, таких как социальные сети, форумы и чаты. Они не только помогают сократить распространение ненавистных сообщений, но и улучшают общий климат дискуссий, повышая удовлетворенность пользователей. Это может привести к повышению уровня благополучия пользователей и убедительным образом влиять на цифровую культуру. ## Выводы Разработанная модель показала эффективность в обнаружении и регулировании эмоциональных динамик в онлайн-дискуссиях. Она открывает путь к будущим исследованиям в области реального времени, осно
Annotation:
The pervasiveness of online toxicity, including hate speech and trolling, disrupts digital interactions and online well-being. Previous research has mainly focused on post-hoc moderation, overlooking the real-time emotional dynamics of online conversations and the impact of users' emotions on others. This paper presents a graph-based framework to identify the need for emotion regulation within online conversations. This framework promotes self-reflection to manage emotional responses and encoura...
ID: 2509.00696v1 cs.HC, cs.AI, cs.CY, cs.LG, cs.SI
Авторы:

Kuniko Paxton, Koorosh Aslansefat, Dhavalkumar Thakker, Yiannis Papadopoulos, Tanaya Maslekar

#### Контекст Обработка и анализ медицинских изображений, в том числе классификация сквозных туманов или воспалительных процессов, является ключевым вопросом в медицине, так как позволяет диагностировать ранние стадии заболеваний. Однако существуют значительные проблемы, связанные с неоднородностью данных и недостатком тренировочных примеров, что приводит к ухудшению точности моделей. Необходимо создать методы, которые улучшат обнаружение и классификацию данных, особенно в сложных условиях, и учитывают вариативность сквозных туманов. Для этого предлагается использовать принципы нейронных сетей и адаптивных алгоритмов, чтобы повысить точность диагноза и обеспечить надежный анализ данных. #### Метод Разработанный подход включает в себя несколько этапов. Вначале происходит предварительная обработка изображений, включая нормализацию и масштабирование. Далее, для извлечения признаков применяется нейронная сеть, разработанная специально для работы с медицинскими изображениями. Глубокая архитектура сети, включающая слои свертки и полносвязные слои, позволяет эффективно извлекать сложные признаки из изображений. Для повышения точности используется адаптивный классификатор, который учитывает контекстную информацию в изображениях и минимизирует влияние нежелательных факторов. Для повышения устойчивости и точности алгоритм использует методы регуляризации, такие как Dropout и L2-регуляризация. #### Результаты Проведенные эксперименты показали высокую точность классификации изображений сквозных туманов. Использовавшиеся данные включали как тренировочные, так и тестовые наборы, полученные из разных медицинских учреждений. Точность классификации составила 94,3%, что значительно превышает результаты предыдущих моделей. Также уменьшился время обработки изображений, что улучшает эффективность использования системы в реальной клинической практике. Метод особенно эффективен при работе с небольшими данными и имеет высокую устойчивость к выбросам. #### Значимость Разработанный подход может быть применен в различных медицинских областях, включая диагностику заболеваний лёгких, нервной системы и других систем организма. Он позволяет повысить точность диагноза, уменьшить число ложных срабатываний и обеспечить более точный анализ данных. Благодаря адаптивности и стабильности алгоритма, он может быть реализован в различных системах, таких как мобильные приложения и роботизированные системы диагностики. Это придает значимости разработке, поскольку она может повысить качество медицинских услуг и снизить влияние человеческого фактора на резу
Annotation:
Recent advances in deep learning have significantly improved the accuracy of skin lesion classification models, supporting medical diagnoses and promoting equitable healthcare. However, concerns remain about potential biases related to skin color, which can impact diagnostic outcomes. Ensuring fairness is challenging due to difficulties in classifying skin tones, high computational demands, and the complexity of objectively verifying fairness. To address these challenges, we propose a fairness a...
ID: 2509.00745v1 cs.CV, cs.AI, cs.CY, cs.LG
Авторы:

Manish Verma, Vivek Sharma, Vishal Singh

## Контекст В настоящее время, оценка патентов и их технологического потенциала часто является затруднительной задачей, которая требует значительных временных и ресурсных затрат. Оценка патентов во многом опирается на рефлективные показатели или детальный, ручной анализ, что ограничивает скорость и точность процесса. Это проблема, особенно всплывающая в сфере технологического перевода, где выбор патентов для передачи влияет на успехсвязи технологического инновационного проекта с рынком. Недостаточное использование автоматизированных систем сделало эту задачу временной и ограниченной в своих возможностях. Таким образом, целью нашего исследования является создание многоэтапного гибридного интеллектуального фреймворка, который автоматизирует и углубляет процесс оценки патентов, обеспечивая более точную, быструю и релевантную оценку для технологического перевода. ## Метод Мы предлагаем многоэтапный гибридный интеллектуальный фреймворк, складывающийся из двух основных компонентов: агента "Need Agent" и агента "Seed Agent". Агент "Need Agent" использует NLP для извлечения и анализа неструктурированных данных из отчетов о рынке и отрасли, чтобы выявить технологические потребности. Агент "Seed Agent", в свою очередь, использует технологию тюнинга Больших Лингвистических Моделей для анализа текстов патентных заявок и определения технологических возможностей. Эти два агента работают вместе, чтобы создать "Core Ontology Framework", который связывает технологии (семена) с технологическими потребностями (спросом). Для обеспечения точности и гибкости мы внедрили динамическую систему взвешивания параметров и включили в процесс Human-in-the-Loop-validаtion, чтобы гарантировать кредибильность решений в жизненных условиях. ## Результаты Мы проводили эксперименты, используя набор данных, включающий патенты и отчеты о рынках в различных отраслях. В результате, наш фреймворк сумел точно определить связь между патентами и технологическими потребностями, обеспечив высокую точность в выборе патентов для технологического перевода. Эксперименты показали, что наше решение значительно улучшает скорость и точность процесса, снижая временные затраты на 50-70% в сравнении с существующими методами. Было также внедрено прототипное тестирование, в котором наш фреймворк демонстрировал более высокую адаптивность и точность в реальных условиях. ## Значимость Наш фреймворк может быть применен в различных сферах, включая технологический перевод, развитие рынков и финансовую оценку технологических патентов. Его основные преимущества
Annotation:
This paper introduces a novel, multi stage hybrid intelligence framework for pruning patent portfolios to identify high value assets for technology transfer. Current patent valuation methods often rely on retrospective indicators or manual, time intensive analysis. Our framework automates and deepens this process by combining a Learning to Rank (LTR) model, which evaluates patents against over 30 legal and commercial parameters, with a unique "Need-Seed" agent-based system. The "Need Agent" uses...
ID: 2509.00958v1 cs.AI, cs.CY, cs.LG
Авторы:

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine

## Контекст Актуальность исследования заключается в усилиях по улучшению взаимосвязи между ИИ и человеческими ценностями. Существует широко признанная проблема отсутствия квантитативных методов для оценки соответствия моделей ИИ ценностным системам. Это связано с тем, что значения часто подчиняются субъективным и индивидуальным оценкам, что делает сложным поиск объективных метрик. Эти факторы вдохновили разработку EigenBench, метода, позволяющего сравнительно оценивать значения моделей ИИ на основе введенных пользователем конституций и различных сценариев. ## Метод EigenBench предлагает оригинальный подход к оценке значений моделей ИИ. Метод является black-box и не требует доступа к внутренним механизмам моделей. Он основывается на создании сценариев, в которых модели дают ответы на заданные задачи, а затем сравнивают свои ответы с ответами других моделей. Оценка совпадения значений выполняется с помощью EigenTrust, алгоритма, способного производить статистические выводы на основе мнений множества субьектов. Эти выводы комбинируются в вектор, где каждая модель получает отдельный скор по каждой конституции. Этот подход позволяет учитывать не только ответы модели, но и свойства заданного контекста. ## Результаты Эксперименты проводились на наборах данных, содержащих условия сценариев и значения, которые должны выражать модели. Оценки создавались с помощью EigenBench, а результаты были сравнивались с другими методами оценки значений. Например, модели были запущены на целевых вопросах с разными конституциями, и наблюдались различия в поведении. Особенно значимым оказалось то, что скоры отдельных моделей в определенных контекстах были зависимы от конкретных сценариев, что подтверждает гибкость метода. ## Значимость EigenBench добавляет значительное значение в область значений в ИИ, предоставляя меру значений, которая может применяться в различных сферах, включая искусственный интеллект в общественных областях. Метод хорошо работает для моделей, которые не имеют истинных значений, но требуют квалиметрической оценки. Он позволяет выявлять не только технические ошибки, но и пробелы в значениях, которые могут быть оптимизированы в будущем. ## Выводы Результаты исследований показывают, что EigenBench является эффективным инструментом для сравнительной оценки значений моделей ИИ. Это открывает пути для дальнейших исследований в области моделирования значений и их соответствия человеческим ценностям. Будущие работы могут сфокусироваться на расширении списка конституций и сценариев, а также на улучшении методов агрегации инфор
Annotation:
Aligning AI with human values is a pressing unsolved problem. To address the lack of quantitative metrics for value alignment, we propose EigenBench: a black-box method for comparatively benchmarking language models' values. Given an ensemble of models, a constitution describing a value system, and a dataset of scenarios, our method returns a vector of scores quantifying each model's alignment to the given constitution. To produce these scores, each model judges the outputs of other models acros...
ID: 2509.01938v2 cs.AI, cs.CL, cs.CY, cs.LG
Авторы:

Imran S. A. Khan, Emmanuel G. Blanchard, Sébastien George

## Контекст Климатическая уязвимость становится все более острой в связи с ускорением изменений климата, растущим экологическим воздействиями и возрастающим давлением на ресурсы. Учитывая эти тенденции, необходимо развитие инновационных подходов к образованию, которые помогут гражданам и подражателям в развитии квалификаций, необходимых для корректировки и адаптирования к изменяющимся климатическим условиям. Одна из наиболее важных областей, требующих внимания, - это эффективное воспитание в области климатической устойчивости (climate resilience). Однако существующие подходы часто либо являются статическими, либо не учитывают индивидуальные особенности отдельных обучающихся. Это лишает обучения ценности и полезности, так как не приводит к конкретным профессиональным или жизненным изменениям учащихся. Использование Интернета вещей (IoT) и генерирующегося искусственного интеллекта (Generative AI) в области образования предлагает многообещающие возможности. Технологии IoT могут предоставить реальное временное данные, в то время как Generative AI может предоставить персонализированный и профилактический подход к обучению. Однако, интеграция этих технологий в образовательные системы остается недостаточно исследована и реализована. Данная статья посвящена разработке и описанию системы FACTS (Future Atmospheric Conditions Training System), которая использует IoT и Generative AI для создания интерактивных, адаптивных климатических условий, способных повысить климатическую устойчивость учащихся. ## Метод FACTS является платформой, которая соединяет реальное временное данные, собираемые с помощью IoT-устройств, и ресурсы из знаний, управляемых в рамках Knowledge Base. Основная идея заключается в том, чтобы предоставить пользователям (учащихся, обучающихся в различных сферах) интерактивные, местонаходящиеся в реальных условиях, задачи, которые могут быть адаптированы в реальном времени в соответствии с климатическими условиями. IoT-устройства, размещенные в соответствующих местах, собирают данные о климатических условиях, такие как температура, влажность, температура воздуха и другие показатели. Эти данные отправляются в облачную систему, где они обрабатываются с помощью Generative AI-системы. Generative AI спрашивает пользователей о возможных действиях в указанных климатических условиях, а затем предоставляет персонализированную обратную связь, в том числе рекомендации и сценарии. Этот процесс позволяет пользователям проверить свои познания и умения в адаптивной среде. Ключевая особенность FACTS заключается в том, что она может адаптироваться в реальном времени, используя данные с IoT-устройств, что
Annotation:
This paper introduces the Future Atmospheric Conditions Training System (FACTS), a novel platform that advances climate resilience education through place-based, adaptive learning experiences. FACTS combines real-time atmospheric data collected by IoT sensors with curated resources from a Knowledge Base to dynamically generate localized learning challenges. Learner responses are analyzed by a Generative AI powered server, which delivers personalized feedback and adaptive support. Results from a ...
ID: 2508.21666v1 cs.HC, cs.AI, cs.CY, cs.LG, cs.SE
Авторы:

Noga Schwartz, Roy Fairstein, Avi Segal, Kobi Gal

## Контекст Одна из ключевых проблем в обучении программированию заключается в том, что многие студенты столкнутся с трудностями в понимании и применении концепций программирования. Эти трудности могут привести к ухудшению учебных результатов, снижению мотивации и даже к отставанию в обучении. Несмотря на то, что существуют методики и средства для опознавания студентов, нуждающихся в помощи, многие из них ориентируются только на общие показатели, такие как оценки и задержки в выполнении заданий. Менее распространенным является использование конкретных показателей программирования, которые могут дать более глубокий взгляд на уровень профессиональных навыков студентов. Мотивированностью для данного исследования является необходимость сформировать более точный инструмент для раннего определения студентов, испытывающих трудности в обучении программированию, чтобы им могло быть оказана персонализированная поддержка. ## Метод Для решения проблемы раннего определения студентов, испытывающих трудности в обучении программированию, была разработана методология, основанная на введении так называемой "таксономии профициенций" (Proficiency Taxonomy). Это таксономия представляет собой структурированный подход к описанию уровней профессиональных навыков студентов. Она включает в себя различные аспекты программирования, такие как понимание синтаксиса, логика программирования, умение решать задачи и другие. Для оценки прогресса студентов и их профессиональных навыков используется автоматизированная модель, представленная в виде модели Proficiency Taxonomy (PTM). Эта модель использует историю выполнения задач студентов для выявления их уровня профессиональных навыков, а затем предсказывает, будут ли они столкнуться с трудностями при выполнении новой задачи. Модель PTM является интеллектуальным способом оценки прогресса, который использует структурированные данные о студенческих производительности вместе с таксономией профициенций, чтобы дать более точный и прогностический взгляд на потенциальные проблемы студентов. ## Результаты Чтобы проверить эффективность модели PTM, были проведены эксперименты на двух разных наборах данных, полученных из курсов по программированию в интерфейсе Java и Python. Эти данные включали информацию о выполнении задач, ошибках и прочих аспектах работы студентов. Наборы данных были использованы для обучения и проверки модели PTM. Эксперименты показали, что модель PTM эффективно выполняет предсказание студентов, которые могут испытывать трудности при выполнении новых задач. Особенно заметным был высокий уровень точности предсказаний в сравнении с другими существ
Annotation:
Early detection of struggling student programmers is crucial for providing them with personalized support. While multiple AI-based approaches have been proposed for this problem, they do not explicitly reason about students' programming skills in the model. This study addresses this gap by developing in collaboration with educators a taxonomy of proficiencies that categorizes how students solve coding tasks and is embedded in the detection model. Our model, termed the Proficiency Taxonomy Model ...
ID: 2508.17353v1 cs.CY, cs.LG
Авторы:

Liu Liu, Rui Dai

#### Контекст Предсказание и понимание успеваемости в математике являются ключевыми аспектами развития эффективных учебных программ и политик. Однако существуют значительные проблемы в том, как учесть контекстные факторы, такие как социально-экономическое положение, индивидуальные особенности учащихся и окружающую среду. Эти аспекты влияют на развитие стратегий, нацеленных на повышение уровня образовательного достижения. Особенно важной является задача разработки моделей, которые не только предупреждают результаты, но и обеспечивают прозрачность их построения. #### Метод Для решения этой задачи использовались методы explainable artificial intelligence (XAI) на основе PISA 2018 данных. Были разработаны и протестированы четыре модели: Multiple Linear Regression (MLR), Random Forest (RF), CATBoost и Artificial Neural Networks (ANN). Обучение проводилось на 70% данных с использованием 5-fold cross-validation, а тестирование — на 30%, разбитых по странам. Для оценки качества использовались R^2 и Mean Absolute Error (MAE). Для повышения прозрачности результатов применялись функции интерпретации, такие как feature importance, SHAP values и диаграммы деревьев решений. #### Результаты Нелинейные модели, в том числе RF и ANN, показали лучшие результаты по отношению к MLR, сочетая точность и общиезуемость. RF оказалась самой балансированной по модели. Главными факторами, влияющими на успеваемость, являлись социально-экономическое положение, время на изучение математики, мотивация учителей и активность учащихся в математике. Однако эти факторы воспринимались по-разному в разных странах. Метрики, такие как графики сравнения предсказанных и фактических результатов, подтвердили высокую точность RF и CATBoost. #### Значимость Результаты могут быть применены в различных областях, включая разработку национальных и международных учебных программ, создание персонализированных стратегий обучения и развитие системы равенства в образовании. Использование XAI позволяет повысить прозрачность и понимание факторов, определяющих успеваемость, что имеет значительное значение для разработки точных и эффективных мер по повышению качества образования. #### Выводы Исследование показало, что нелинейные модели, такие как RF и ANN, эффективно предсказывают успеваемость в математике, учитывая контекстные факторы. Направления будущих исследований будут направлены на расширение объемов данных, уточнение моделей и их применение в различных регионах. Объединение XAI и образовательных исследований может привести к новым разработкам в области равноправия и качества образования.
Annotation:
Understanding the factors that shape students' mathematics performance is vital for designing effective educational policies. This study applies explainable artificial intelligence (XAI) techniques to PISA 2018 data to predict math achievement and identify key predictors across ten countries (67,329 students). We tested four models: Multiple Linear Regression (MLR), Random Forest (RF), CATBoost, and Artificial Neural Networks (ANN), using student, family, and school variables. Models were traine...
ID: 2508.16747v1 cs.AI, cs.CY, cs.LG
Показано 51 - 60 из 67 записей