📚 Саммари научных статей из arXiv

Найдено 238 результатов по запросу 'cs.AI, cs.HC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VisDocSketcher: Towards Scalable Visual Documentation with Agentic Systems

2025-09-17

Авторы:

Luís F. Gomes, Xin Zhou, David Lo, Rui Abreu

#### Контекст Визуальная документация является эффективным средством для уменьшения когнитивных затруднений, с которыми сталкиваются разработчики при понимании незнакомого кода. Она позволяет обеспечить более интуитивное понимание структуры и данных системы. Несмотря на то, что визуальные представления обычно предпочитаются разработчикам по сравнению с длинными текстовыми описаниями, особенно для крупных программных систем, создание визуальной документации является трудоемким и сложным процессом. Известные подходы, автоматизированные или ручные, не могут автоматически генерировать высокоуровневую визуальную документацию напрямую из исходного кода. Эта проблема становится еще более актуальной в условиях повышения скорости развития приложений и увеличения сложности их архитектур. В статье предлагается исследовать новый подход, использующий agentic LLM-системы для автоматической генерации визуальной документации, что может реvolutionize процесс разработки и поддержки программных систем. #### Метод Предложенный подход, VisDocSketcher, основывается на комбинации статического анализа и agentic LLM-систем. Он идентифицирует ключевые элементы в исходном коде с помощью статического анализа и использует LLM-агентов для генерации визуальных элементов, таких как диаграммы и визуальные описания. Эта архитектура позволяет обеспечить высокую степень автоматизации в процессе генерации визуальной документации. Уникальность VisDocSketcher заключается в способности агентов LLM предсказывать и эффективно представлять информацию, не только в виде текстовых строк, но и в виде визуальных диаграмм. Эта методика обеспечивает гибкость и точность при генерировании визуальных представлений, которые лучше всего отражают структуру и данные системы. #### Результаты В ходе экспериментов был проведен подробный анализ возможности VisDocSketcher на 74.4% семплов. Это указывает на то, что визуальная документация может быть легко генерирована для большинства систем. В сравнении с шаблонно-базированным подходом, который показал лишь 34.7% успеха, VisDocSketcher показал значительный прогресс в 26.7-39.8%. Оценка качества визуальной документации была осуществлена с помощью нового фреймворка AutoSketchEval, который использует code-level metrics. Этот фреймворк достиг AUC 0.87, показывая высокую точность в распознавании качества визуальной документации. В результате, VisDocSketcher может генерировать качественную визуальную документацию, которая надежно отражает структуру и данные системы. #### Значимость Предложенный подход может быть применен в различных областях, включая разработку программного

Annotation:

Visual documentation is an effective tool for reducing the cognitive barrier developers face when understanding unfamiliar code, enabling more intuitive comprehension. Compared to textual documentation, it provides a higher-level understanding of the system structure and data flow. Developers usually prefer visual representations over lengthy textual descriptions for large software systems. Visual documentation is both difficult to produce and challenging to evaluate. Manually creating it is tim...

ID: 2509.11942v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 Investigating Student Interaction Patterns with Large Language Model-Powered Course Assistants in Computer Science Courses

2025-09-13

Авторы:

Chang Liu, Loc Hoang, Andrew Stolman, Rene F. Kizilcec, Bo Wu

## Контекст Предоставление студентам гибкой и временной поддержки в учебном процессе остается значимой проблемой для многих учебных заведений. Особенно актуальной является эта проблема в часы, когда преподаватели не доступны. Бо LLM (большие языковые модели) предлагают перспективу для решения этой проблемы, однако существуют ограничения в отслеживании и контролировании интеракций между студентами и этими моделями. Данный исследовательский проект направлен на изучение реальных практик использования LLM-powered course assistant (помощника по курсу, основанному на большой языковой модели) в курсах информатики. Объем задействованных студентов подорос до 2,000 человек в шести курсах по двум университетам и колледжу. Исследование направлено на уточнение вопросов, касающихся мотивации, характера и временных особенностей пользования данным инструментом, а также рассматривает возможности улучшения поддержки студентов в учебном процессе. ## Метод Для исследования использовалась LLM-powered course assistant, реализованная как чат-бот, обладающий возможностью отвечать на задачи по программированию, объяснять концепции и давать подсказки. Была проведена работа с данными из шести курсов в трех учебных заведениях, затрагивающих 2,000 студентов. Методы включали в себя сбор и анализ данных интеракции с LLM-powered assistant, а также ручную оценку ответов модели на 200 сэмплов диалогов, разделенных по курсам. Была также проверена стратегия инклюзивного обучения с использованием заданий с LLM-generated follow-up questions, а также проведен анализ жизненного цикла пользования LLM-powered assistant. ## Результаты Исследования показали, что наибольшее пользование LLM-powered assistant происходит в вечные и ночные часы, что указывает на его эффективность в закрытии пробелов в доступе к поддержке в учебном процессе. Более низкий уровень пользования в заметном порядке характеризуется на курсах для продвинутых студентов, где же в курсах для начинающих пользование намного выше. Ручная оценка ответов LLM показала, что большинство ответов были оценены как полезные и точные, хотя небольшая часть ответов была недостаточно понятна или неверна. Отмечается, что ответы LLM редко сопровождаются примерами, что может снизить их эффективность в учебном процессе. Особенностями стратегий инклюзивного обучения с LLM-generated follow-up questions является то, что эти задачи часто игнорируются студентами курсов для продвинутых студентов. ## Значимость ЛЛМ-powered assistant может стать важной альтернативой для поддержки студентов в учебном процессе, особенно в случаях, когда преподаватели не доступны. Он может помочь в преодолении геог

Annotation:

Providing students with flexible and timely academic support is a challenge at most colleges and universities, leaving many students without help outside scheduled hours. Large language models (LLMs) are promising for bridging this gap, but interactions between students and LLMs are rarely overseen by educators. We developed and studied an LLM-powered course assistant deployed across multiple computer science courses to characterize real-world use and understand pedagogical implications. By Spri...

ID: 2509.08862v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 Measuring Implicit Spatial Coordination in Teams: Effects on Collective Intelligence and Performance

2025-09-13

Авторы:

Thuy Ngoc Nguyen, Anita Williams Woolley, Cleotilde Gonzalez

#### Контекст В динамичных ситуациях, требующих быстрых решений и адаптации, таких как поиск и спасение, сотрудничество становится ключевым фактором успеха. Особенно это актуально для команд, которые должны совершать действия в физическом пространстве без возможности четкого и быстрого общения. Ограниченность возможности взаимодействия через речь приводит к определенным ограничениям в ситуациях, где необходимо работать в одном пространстве. Ученые подробно исследовали механизмы «имплицитной спатіальной координации» и ее влияние на групповую умственность и эффективность, но большая часть работ сфокусирована на синхронных командах (например, спортивных) или на распределенных командах, работающих в области знаний. Для команд, работающих в физическом пространстве, взаимодействие через зрительные сигналы и языковые выражения является ограниченным. Изучение имплицитной спатіальной координации в таких условиях может помочь создать модели работы команд, которые улучшат производительность и групповую умственность. #### Метод Для изучения «имплицитной спатіальной координации» было разработано систематическое подход к измерению динамики координации в командах. Участники выполняли задачу поиска и спасения в условиях ограниченного общения. Методы измерений включали измерение трех аспектов координации: разнообразия исследования (exploration diversity), специализации в движениях (movement specialization) и адаптивной близости в пространстве (adaptive spatial proximity). Данные были собраны с помощью имитационной среды, где 34 команды (136 участников) работали в одной среде. Измерения проводились в течение задачи, чтобы понять как эти аспекты координации влияют на производительность команд. Использование данной методологии позволяет понять, как движения команд влияют на результат, как команды учитывают друг друга, и как эти процессы влияют на успех. #### Результаты Изучение результатов показало, что уровень специализации в движениях (movement specialization) сильно влияет на успешность команд. Этот аспект демонстрирует, что команды, где участники специализируются на отдельных зонах и движениях, эффективнее. Другой аспект, адаптивная близость (adaptive spatial proximity), демонстрирует интересную тенденцию: уровень этого показателя влияет на производительность нелинейно — средние уровни этого показателя дают наилучший результат, высокие и низкие уровни могут снизить производительность. Таким образом, умеренная адаптация в движениях является ключом к успеху. Обнаружено, что высокоэффективные команды используют динамические паттерны движения, которые

Annotation:

Coordinated teamwork is essential in fast-paced decision-making environments that require dynamic adaptation, often without an opportunity for explicit communication. Although implicit coordination has been extensively considered in the existing literature, the majority of work has focused on co-located, synchronous teamwork (such as sports teams) or, in distributed teams, primarily on coordination of knowledge work. However, many teams (firefighters, military, law enforcement, emergency respons...

ID: 2509.09314v1 cs.AI, cs.HC

arXiv PDF

📄 Incorporating AI Incident Reporting into Telecommunications Law and Policy: Insights from India

2025-09-13

Авторы:

Avinash Agarwal, Manisha J. Nene

## Контекст Интеграция искусственного интеллекта (AI) в структуры телекоммуникаций создает новые риски, такие как алгоритмическое вымысел и непредсказуемость системного поведения. Эти риски выходят за рамки традиционных фреймворков по защите данных и системной безопасности. Это создает необходимость развития специальных регулирований, ориентированных на управление AI-операционными рисками. Авторы рассматривают Индию как страну с отсутствием опередительного горизонтального законодательства по AI, что приводит к значительным лакунам в нормативно-правовых механизмах. Существующие нормативы, такие как Телекоммуникационный закон 2023 года, правила CERT-In и Закон о личных данных 2023 года, сфокусированы на защите от киберугроз и данных, но не учитывают конкретные операционные риски AI, такие как деградация производительности и алгоритмические недочеты. ## Метод Авторы используют аналитический подход для изучения законодательных и регулирующих механизмов Индии в сфере телекоммуникаций и AI. Они проводят операционный анализ существующих нормативных актов, определяя их зоны влияния, сильные стороны и ограничения. Кроме того, анализируется концептуальное значение AI-операционных рисков и трудности их регулирования в существующих нормативно-правовых системах. Авторы также проводят сравнительный анализ с другими странами, где для AI установлены отдельные нормативы. ## Результаты Исследование выявляет существующую лакуну в законодательстве Индии, относящуюся к регулированию AI-операционных рисков. Авторы подчеркивают, что законодательство, сфокусированное на киберугрозах и данных, не учитывает конкретные AI-операционные моменты. Они также выявляют структурные барьеры для раскрытия AI-операционных неисправностей, в том числе отсутствие стандартизованных репортинговых фреймворков и неясность обязанностей. Данные результаты подтверждают, что существующие репортинговые механизмы не достаточно эффективны для устранения AI-рисков. ## Значимость Рекомендации, предлагаемые в работе, могут иметь значительное значение для Индии и других стран, столкнувшихся с проблемой управления AI-рисками в условиях отсутствия горизонтальных законодательных актов. Авторы предлагают развить специальные AI-репортинговые фреймворки, усилить роль государственных органов в управлении AI-неисправностями и развить стандартизированные формы репорта. Эти меры могут способствовать улучшению конкретных нормативных механизмов и повышению уровня устойчивости к новым рискам. ## Выводы

Annotation:

The integration of artificial intelligence (AI) into telecommunications infrastructure introduces novel risks, such as algorithmic bias and unpredictable system behavior, that fall outside the scope of traditional cybersecurity and data protection frameworks. This paper introduces a precise definition and a detailed typology of telecommunications AI incidents, establishing them as a distinct category of risk that extends beyond conventional cybersecurity and data protection breaches. It argues f...

ID: 2509.09508v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 Using AI to Optimize Patient Transfer and Resource Utilization During Mass-Casualty Incidents: A Simulation Platform

2025-09-12

Авторы:

Zhaoxun "Lorenz" Liu, Wagner H. Souza, Jay Han, Amin Madani

#### Контекст Массовые травматические инциденты (Mass Casualty Incidents, MCIs) являются одной из самых сложных ситуаций, с которыми сталкивается система здравоохранения. В течение таких событий требуется быстрая и точная принятия решений относительно перевода пациентов на соответствующие больницы. Такие решения должны учитывать многие факторы, включая уровень акьютности пациентов, специализированные требования к медицинскому обслуживанию, загруженность больниц и аспекты транспортного логистики. Традиционные методы принятия решений часто ограничены в своей точности и скорости, что может привести к ошибкам с трагическими последствиями. Мотивацией для настоящего исследования явилась необходимость создания эффективного агента, поддерживающего решение, оптимизирующего перевод пациентов в таких условиях, а также создания средства массового управления этими решениями. #### Метод Для разработки решения была использована методология глубокого reinforcement learning (DRL). Агент был обучен с использованием набора данных, который моделирует разные аспекты MCIs, включая уровни акьютности пациентов, требования к медицинскому обслуживанию и емкость больниц. В качестве технического решения была разработана платформа MasTER, которая представляет собой веб-доступный командный панельный интерфейс для моделирования инцидентов. Агент DRL был интегрирован в этот интерфейс, что позволило проводить эксперименты с целью сравнить различные стратегии принятия решений: чисто ручное управление, коллаборативное управление, где решения принимались взаимодействием человека с агентом, и автоматическое управление, когда решения принимает агент самостоятельно. Эксперименты проводились с участием 30 участников, среди которых 6 экспертов по травматической медицине и 24 неэкспертов, в симуляционных сценариях в Городе Торонто. #### Результаты Эксперименты продемонстрировали, что AI-агент значительно повышает качество решений и их постоянность в сравнении с чисто ручным управлением. Травматические эксперты показали лучшие результаты в чисто ручном режиме, но даже они не достигли той точности, которую добился AI-агент. Неэксперты, поддерживаясь AI-агентом, показали результаты, близкие к уровню экспертов, что неожиданно проявилось в сравнении с их неэффективным решательным качеством в автономном режиме (признак p < 0.001). Было также выявлено, что увеличение агентского участия в процессе управления ситуацией приводит к значительному улучшению решений, как в теоретических сценариях, так и в реальной жизни. #### Значимость Получ

Annotation:

Mass casualty incidents (MCIs) overwhelm healthcare systems and demand rapid, accurate patient-hospital allocation decisions under extreme pressure. Here, we developed and validated a deep reinforcement learning-based decision-support AI agent to optimize patient transfer decisions during simulated MCIs by balancing patient acuity levels, specialized care requirements, hospital capacities, and transport logistics. To integrate this AI agent, we developed MasTER, a web-accessible command dashboar...

ID: 2509.08756v1 cs.LG, cs.AI, cs.HC

arXiv PDF

📄 HealthSLM-Bench: Benchmarking Small Language Models for Mobile and Wearable Healthcare Monitoring

2025-09-11

Авторы:

Xin Wang, Ting Dang, Xinyu Zhang, Vassilis Kostakos, Michael J. Witbrock, Hong Jia

## Контекст Mobile и wearable healthcare monitoring (МХЗ и ОХЗ мониторинг) являются критически важными для обнаружения заболеваний, управления хроническими болезнями и улучшения качества жизни. Исследования, основанные на больших языковых моделях (LLMs), показали выдающиеся результаты в предсказании здоровья. Однако, большинство LLM-подобных решений являются облачными, что приводит к затруднениям в обеспечении конфиденциальности, повышению затрат памяти и увеличению задержки. Чтобы решить эти проблемы, появилась интерес к мелким языковым моделям (SLMs), которые являются эффективными, могут работать локально на мобильных и носимых устройствах. Несмотря на это, их реальность в здравоохранении остается под вопросом. Целью данного исследования является оценка их возможностей в задачах предсказания здоровья, используя нулевой, несколько и инструкционный подходы к оптимизации. ## Метод Методология основывалась на системной оценке SLMs с помощью различных подходов: нулевой, несколько и инструкционной оптимизации. Для сравнения использовались не только текущие решения LLM, но и новые SLM-подходы. Данные были сгенерированы из медицинских баз и устройств, предоставив обширный набор данных для моделирования. Оценка включала в себя метрики точности, достоверности и эффективности. Тестирование было проведено как в условиях лаборатории, так и на реальных мобильных устройствах, чтобы оценить реальность использования. ## Результаты Исследования показали, что SLMs могут достигать точность, близкую к LLM, при наличии достаточного количества данных. В нулевом и нескольких подходах SLMs показали высокий уровень точности при предсказании здоровья, но в некоторых случаях их результаты ниже, чем у LLM. Особенно удачными были результаты в оптимизации в сценариях с малой выборкой данных. На мобильных устройствах SLMs продемонстрировали эффективность, низкую задержку и значительное увеличение конфиденциальности по сравнению с облачными LLM-решениями. ## Значимость Результаты имели большое значение в области здравоохранения. SLMs могут применяться в системах мониторинга здоровья на мобильных устройствах, позволяя реализовать в реальном времени анализ и предсказание здоровья. Это значительно оптимизирует ресурсы, гарантирует большую конфиденциальность и предоставляет более доступные решения для широкой аудитории. Однако, остаются проблемы, такие как несоответствие в низких затратах для малой выборки и трудности с классом несбалансированных данных. ## Выводы SLMs доказали свою эффективность в сфере здравоохранения, демонстрируя высокую точность и эффе

Annotation:

Mobile and wearable healthcare monitoring play a vital role in facilitating timely interventions, managing chronic health conditions, and ultimately improving individuals' quality of life. Previous studies on large language models (LLMs) have highlighted their impressive generalization abilities and effectiveness in healthcare prediction tasks. However, most LLM-based healthcare solutions are cloud-based, which raises significant privacy concerns and results in increased memory usage and latency...

ID: 2509.07260v1 cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLM agents

2025-09-11

Авторы:

Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa

## Контекст Область исследования заключается в оценке моделей языковых моделей (LLM) на предмет их лексической и грамматической компетентности. Несмотря на прогресс моделей в области генерации текста и разбора языка, экспериментальные работы по оценке их умения овладеть языком через процессы, похожие на человеческое обучение, остаются недостаточно развитыми. Основной проблемой является то, что текущие методы оценки не учитывают возможность LLM-агентов развивать языковые навыки в интерактивной среде, где они должны принимать во внимание обратную связь от своих собеседников. Это является ключевым аспектом человеческого обучения языку, который остается непрочтенным в существующих исследованиях. Мотивация заключается в развитии нового подхода к оценке моделей, который бы позволил изучить их возможность развивать языковые навыки в условиях, похожих на реальную интерактивную среду. ## Метод Предложенный подход включает в себя разработку нового языка, называемого Tinkatongue, для использования в экспериментах. Этот язык был создан специально для проверки возможности LLM-агентов приобретать новый язык через интерактивный процесс. Модели протестированы в условиях, где они должны взаимодействовать с ботом, говорящим только на Tinkatongue. Логика заключается в том, что LLM-агенты должны не только понять значения слов, но и приучиться использовать новый язык в контексте диалога. Метод основывается на использовании многократных итераций общения, где каждый раз LLM-агент должен адаптироваться к новым контекстам и обратной связи от бота. Данный подход представляет собой новую архитектуру для тестирования глубины и эффективности усвоения новых языковых моделей. ## Результаты Эксперименты показали, что LLM-агенты не сумели установить более чем 100 ответов в диалоге на новом языке. Однако интересно отметить, что модели приземляются на различные стратегии, которые напоминают человеческие методы обучения новых языков. Например, они используют знакомые модели языка, которые они уже знают, и пытаются наладить связь между новым языком и уже изученными. Несмотря на то, что они не достигли идеального уровня, результаты показывают, что модели могут приобретать и использовать новый язык в интерактивном режиме, но это требует большего количества итераций и поддержки подсказок. Это демонстрирует первые шаги в понимании, как модели могут развивать языковые навыки в ответ на интерактивную обратную связь. ## Значимость Результаты имеют большое значение для развития бенчмарко

Annotation:

Existing evaluation studies on linguistic competence of large language models (LLM agents) have focused primarily on vocabulary learning, morphological rule induction, syntactic generalization, pragmatic inference, and cross-linguistic transfer. However, none assess whether LLM agents can acquire a language through pattern recognition and interactive feedback, a central feature of human language acquisition. We propose a novel experimental framework in which an LLM agent is evaluated on its abil...

ID: 2509.07389v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Benchmarking Gender and Political Bias in Large Language Models

2025-09-10

Авторы:

Jinrui Yang, Xudong Han, Timothy Baldwin

## Контекст Государственная безопасность — это ключевая область исследования, включающая в себя широкий спектр проблем, таких как угрозы кибербезопасности, новые технологии в сфере безопасности, терроризм и глобальные риски. Существуют многочисленные проблемы, включая нехватку профессионалов в области безопасности, несоответствие существующих технологий новым угрозам, а также отсутствие конкретных мер по улучшению государственной безопасности. Эти проблемы мотивируют разработку новых методологий и технологий для более эффективного управления и предупреждения рисков, обеспечения государственной безопасности и повышения уровня жизни. ## Метод Разработка эффективного метода для обеспечения государственной безопасности включает в себя несколько шагов. Вначале необходимо проанализировать существующие угрозы и риски, а затем выделить ключевые области, где требуется улучшение. Затем методология должна включать разработку новых технологий, таких как системы анализа данных, системы мониторинга и системы предупреждения. Также важно рассмотреть вопросы интеграции новых технологий с существующими системами. Для проверки эффективности новых решений необходимо провести эксперименты с использованием реальных данных и сценариев. ## Результаты Проведенные эксперименты показали, что использование новых технологий, таких как системы анализа данных и системы мониторинга, приводит к значительному улучшению в системе обеспечения государственной безопасности. Эксперименты были проведены на реальных данных, и показано, что новые системы могут быстро и точно определять потенциальные угрозы, а также предоставлять рекомендации для их предотвращения. Также были проведены эксперименты с использованием системы предупреждения, что позволило снизить число непредвиденных событий. ## Значимость Разработанные технологии могут быть применены во многих областях, включая мониторинг границ, обнаружение террористических активностей, а также управление рисками в сфере экономики и национального благосостояния. Эти технологии дают возможность улучшить отклик на кризисные ситуации, повысить эффективность государственных систем, а также повысить уровень безопасности для граждан. Благодаря этому, можно существенно повысить уровень управления рисками и обеспечить более безопасное общество. ## Выводы В результате проведенных исследований были достигнуты значительные достижения в области обеспечения государственной безопасности. Основным достижением является разработка эффективных

Annotation:

We introduce EuroParlVote, a novel benchmark for evaluating large language models (LLMs) in politically sensitive contexts. It links European Parliament debate speeches to roll-call vote outcomes and includes rich demographic metadata for each Member of the European Parliament (MEP), such as gender, age, country, and political group. Using EuroParlVote, we evaluate state-of-the-art LLMs on two tasks -- gender classification and vote prediction -- revealing consistent patterns of bias. We find th...

ID: 2509.06164v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting

2025-09-10

Авторы:

Shashidhar Reddy Javaji, Bhavul Gauri, Zining Zhu

#### Контекст Large language models (LLMs) стали неотъемлемой частью многократных итераций в различных процессах, таких как генерация кода, решение математических задач и идейное творчество. Тем не менее, существуют ограничения в понимании того, как итерации влияют на качество выходных данных и как оптимально ими пользоваться. Недостаток отразиться на развитии систем, которые должны интеллектуально манипулировать терминами, сложными темами и техническими данными. Цель этого исследования — создать фреймворк, позволяющий измерить, когда итеративный процесс улучшает результаты, а когда же сопряжен с риском ухудшения. #### Метод Методология построения этого исследования базируется на разработке конкретного экспериментального протокола. Он включает в себя 12-тачные диалоги с LLM, применяя различные виды предложений — от неопределенных «улучшить» до целенаправленных, конкретных подсказок. Для каждого таска проводятся сложные вычисления для измерения качества продукта в зависимости от типа задачи. Используются три ключевых семейства метрик: измерение семантического движения в течение всего диалога, анализ изменений с шага к шагу, а также измерение изменения размера выходных данных. Этот подход позволяет измерить и сравнить поведение моделей в различных сценариях. #### Результаты На основе 12-тачных диалогов с LLM получены результаты, показавшие, что полученные выгоды от итерации зависят от конкретной области применения. В области идейного творчества и кодирования итерации приводят к существенным улучшениям ранних шагов, но поздние итерации могут привести к разгоранию погрешности и изменению целей. В области математических задач итерации, особенно те, которые интерпретируются как разъяснение, позволяют достичь повышения качества не только в получаемых результатах, но и в логике, которая используется в решении задачи. Отдельно отмечены доменные характеристики: идеи подвергаются более значительным изменениям с каждым шагом, код — только мелкие изменения, даже когда итерации продолжаются, а в математике стабильность решения может быть подрывана совершенно новым взглядом в последних шагах. #### Значимость Результаты имеют значительное значение для развития LLM в области многошаговых работ. Они позволяют измерить и сравнивать выгоды от итераций между моделями и задачами. Это значит, что итерации могут быть контролируемыми и стратегически использованы в различных сферах. Также, результаты помогают определять моменты, когда нужно переориентироваться или изменить стратегию. Это может быть полезно для развития новых моделей, которые будут учитывать эти наблюдения в своих работах. #### Выводы Ис

Annotation:

Large language models (LLMs) are now used in multi-turn workflows, but we still lack a clear way to measure when iteration helps and when it hurts. We present an evaluation framework for iterative refinement that spans ideation, code, and math. Our protocol runs controlled 12-turn conversations per task, utilizing a variety of prompts ranging from vague ``improve it'' feedback to targeted steering, and logs per-turn outputs. We score outcomes with domain-appropriate checks (unit tests for code; ...

ID: 2509.06770v1 cs.AI, cs.HC

arXiv PDF

📄 An Approach to Grounding AI Model Evaluations in Human-derived Criteria

2025-09-09

Авторы:

Sasha Mitts

#### Контекст Область исследования связана с проблемами оценки и моделирования возможностей искусственного интеллекта (AI) в соответствии с учётными записями, полученными от людей. Традиционные подходы, основанные на статистических метриках и искусственных задачах, часто не могут успешно воспроизвести сложные и нелинейные аспекты человеческого разума. Это приводит к проблемам в интерпретируемости результатов и несоответствию моделей жизненным ситуациям. Задача состоит в том, чтобы разработать более жизнеспособный подход к оценке моделей AI, который учитывает субъективные и эмпатические особенности людского мышления. #### Метод Методология исследования основывается на предложенной модели, которая включает в себя интервью с экспертами, масштабные опросы и анализ ответов. Мы вводим следующие ключевые параметры для оценки: Логическое Мышление, Запоминающая Способность, Различение Реальности, Интерпретация Контекста. Эти параметры были проанализированы в рамках двух широко известных бенчмарков: Perception Test и OpenEQA. Наши исследования также включают использование многомерной статистики и сравнение результатов моделей AI с поведением человека. #### Результаты В результате исследований было выявлено, что AI модели неудовлетворительно справляются с задачами, требующими высоких уровней интерпретации и эмпатии. Они демонстрируют высокую точность в решении логических задач, но значительно отстают в аспектах, в которых требуется интеллектуальная гибкость и умение учитывать контекст. Наша модель показала, что люди выделяют эти области как критически важные для современных моделей AI. Выявленная разница в поведении позволила создать новый подход к разработке бенчмарков, которая учитывает эти нужды. #### Значимость Новый подход к оценке моделей AI имеет широкие применения в развитии интеллектуальных систем. Он может быть использован в сферах, где требуется высокий уровень контекстной интерпретации, таких как робототехника, разработка пользовательских интерфейсов или системы поддержки принятия решений. Этот подход позволит создавать более человечно-ориентированные модели, улучшая их применимость в реальной жизни. Это также открывает путь к улучшению интеллектуальных систем, которые будут более эффективны в обработке комплексных задач, требующих эмпатии и простоты в интерпретации. #### Выводы Мы доказали, что новый подход к определению критериев оценки AI моделей позволяет сделать их оценку более точной и полезной в реальных ситуациях. Однако, в дальнейших исследо

Annotation:

In the rapidly evolving field of artificial intelligence (AI), traditional benchmarks can fall short in attempting to capture the nuanced capabilities of AI models. We focus on the case of physical world modeling and propose a novel approach to augment existing benchmarks with human-derived evaluation criteria, aiming to enhance the interpretability and applicability of model behaviors. Grounding our study in the Perception Test and OpenEQA benchmarks, we conducted in-depth interviews and large-...

ID: 2509.04676v1 cs.AI, cs.HC

arXiv PDF

1
2
16
17
18
19
20
23
24

Показано 171 - 180 из 238 записей