📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Nefeli Manoudaki, Mert Toka, Iason Paterakis, Diarmid Flatley

## Контекст Simulacra Naturae — это инновационная данно-ориентированная медиа-инсталляция, которая исследовала взаимосвязь между поддержкой, экологическими системами и искусственным интеллектом. Она подает новый взгляд на системы, в которых традиционно определялся человеческий вклад. Исследование основывается на использовании биологических вычислений, материальных экологий и генерируемых систем. Основная проблема, которую адресует работа, заключается в том, что традиционные средства визуализации часто ограничиваются человеческим познанием и не учитывают динамику, присущую нечеловеческим субъектам. Эта ограниченность может привести к упущению важности экосистемных отношений, ценности живых организмов и экологических взаимодействий. ## Метод Simulacra Naturae работает через искусственные нейронные сети, которые преобразуют биологические сигналы биологических органов в цифровые формы. Эти сигналы используются для управления генерируемым экосистемным системным поведением, включая визуальные эффекты, аудиокомпозиции и обстановку в пространстве. Метод заключается в том, чтобы создать интерактивную среду, где нейрооргановые сигналы не только влияют на живые растения и артефакты, но также могут сами изменяться под влиянием них. Это достигается с помощью современных технологий, таких как ЖК-дисплеи, а также звуковых и визуальных эффектов, которые взаимодействуют динамически. ## Результаты В результате исследования была создана интерактивная среда, где живые растения, генерируемые визуальные эффекты и звуковые составляющие создавались в реальном времени. Эти элементы были основаны на биологических сигналах, поступающих от нейроорганов. Эксперименты показали, что система воспринимает нейрооргановые сигналы как сигналы управления, но в то же время, эти сигналы могут повлиять на собственную структуру и поведение системы. Например, визуализации могли менять свою форму в зависимости от уровня активности нейроорганов. Результаты показали, что система может значительно улучшить понимание технических систем, если они включают учет биологических факторов. ## Значимость Simulacra Naturae может применяться в различных областях, таких как экологическое искусство, дизайн интерактивных сред, интеллектуальные системы. Она предлагает новый подход к взаимодействию с живыми организмами и технологиями, включая моделирование сложных экосистемных процессов. Ее потенциал заключается в том, что она может способствовать развитию этических отношений к природе и системам
Annotation:
Simulacra Naturae is a data-driven media installation that explores collective care through the entanglement of biological computation, material ecologies, and generative systems. The work translates pre-recorded neural activity from brain organoids, lab-grown three-dimensional clusters of neurons, into a multi-sensory environment composed of generative visuals, spatial audio, living plants, and fabricated clay artifacts. These biosignals, streamed through a real-time system, modulate emergent a...
ID: 2509.02924v1 cs.MM, cs.AI, cs.HC
Авторы:

Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles

## Контекст На сегодняшний день существуют Video Large Language Models (Video LLMs), которые в наибольшей степени обладают пониманием динамических видеозаписей. Однако они сталкиваются с рядом ограничений при решении задач, затрагивающих спатиотмениальные ссылки в средством обычного видеопонимания. Такие модели не умеют работать с запросами, которые требуют легкого интерпретирования положения объектов в пространстве, а также временальных ссылок для понимания их расположения во времени. Более того, они не могут распространяться на сложные задачи в контексте реальных условий. В этом контексте возникает потребность в развитии Video LLMs, которые бы могли также работать с конкретными спатиотмениальными задачами и ситуациями. ## Метод Для этого была разработана новая синтетическая фреймворка Strefer. Она основывается на подходе, который генерирует инструкции на основе видеометаданных. Данные фреймворка позволяют получить масштабируемый набор данных, содержащий информацию о расположении и действиях объектов в пространстве и времени. Метод Strefer использует данные о масклетах, временных диапазонах, объектах, их свойствах и действиях. Такой подход позволяет создавать синтетический набор данных, который может корректно интерпретировать видео-LLMs для работы с запросами, требующими определенных спатиотмениальных ссылок. ## Результаты Результаты испытаний и экспериментов показали, что с помощью фреймворка Strefer модели Video LLMs становятся более точными в понимании спатиотмениальных характеристик. Модели, обученные на данных, сгенерированных Strefer, показали значительное улучшение в выполнении задач, которые требуют различения спатиотмениальных ссылок, сопоставления объектов и расположения в течение времени. Эти модели показали свое превосходство в сравнении с базовыми моделями в задачах решения спатиотмениальных проблем. ## Значимость Полученные модели могут быть применены в различных областях, в том числе в сфере робототехники, видеомониторинга, здравоохранения и развитии AI-компаньонов. Strefer обеспечивает моделям Video LLMs более тонкий интерпретации пространственных и временных связей, что позволяет им быть более удобными в сложных и реальных условиях. Этот подход также снижает затраты на аннотацию данных, так как основывается на синтетической генерировании метаданных вместо ручной работы. ## Выводы Выводы, сделанные на основе экспериментов, показали, что модели, обученные на данных, сгенерированных фреймворком Strefer, обладают более развитыми возможностями в спатиотмениальном рассуждении. Это стало новым шагом в развитии Video LLMs для использования в реальных ситуациях. В бу
Annotation:
Next-generation AI companions must go beyond general video understanding to resolve spatial and temporal references in dynamic, real-world environments. Existing Video Large Language Models (Video LLMs), while capable of coarse-level comprehension, struggle with fine-grained, spatiotemporal reasoning, especially when user queries rely on time-based event references for temporal anchoring, or gestural cues for spatial anchoring to clarify object references and positions. To bridge this critical g...
ID: 2509.03501v1 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil

## Контекст Ключевое слово recognition (KWS) широко используется в различных системах, включая персональные помощников и умные дома. Однако существуют уникальные проблемы при распознавании речи детей из-за их характерных акустических и лингвистических характеристик. Эти проблемы часто приводят к повышенным ошибкам в сравнении с распознаванием речи взрослых. До сих пор было предложено множество методов для улучшения KWS в разговорах взрослых, но для распознавания речи детей эти подходы не всегда подходят. Данная работа предлагает использовать новый подход к KWS для детей, основанный на self-supervised learning (SSL) моделях, таких как Wav2Vec2, HuBERT и Data2Vec. Мы извлекаем леса слоёв как признаков для обучения DNN-системы под управлением Kaldi. Этот подход позволяет использовать штатные модели SSL для KWS без дополнительной подготовки данных. Это означает, что мы можем эффективно распознавать речь детей, даже если у нас нет доступа к их речи в обучающих наборах. Мы проверяем нашу модель на двух разных данных: WSJCAM0 (для моделирования взрослых) и PFSTAR (для моделирования речи детей). ## Метод Мы используем три различных модели SSL: Wav2Vec2, HuBERT и Data2Vec для извлечения признаков. Из каждой модели мы извлекаем признаки выходов каждого слоя (layer-wise features). Затем, эти признаки используются для обучения DNN-системы под управлением Kaldi. Для обучения мы использовали WSJCAM0 (для моделирования взрослых), а для тестирования — PFSTAR (для моделирования речи детей). Это позволяет продемонстрировать zero-shot возможность нашего подхода. Для оценки производительности мы использовали классические метрики: ATWV (активное time-weighted accuracy), MTWV (maximum time-weighted accuracy), а также метрики false alarm и miss probability. Мы также проверяли устойчивость модели к шумам, используя лучшую модель и слой. Для дополнительной общей оценки мы повторили эксперименты с другим датасетом CMU. ## Результаты Наш подход демонстрирует выдающиеся результаты по сравнению с базой (MFCC-based KWS). Использование SSL-макрослоев, особенно из Wav2Vec2 (слой 22), дало значительные пользы: ATWV составил 0.691, MTWV — 0.7003, false alarm — 0.0164, miss probability — 0.0547 для 30 ключевых слов. Мы также проверили работу модели в шумных условиях и показали, что она превосходит традиционный MFCC-подход. Мы также проверили работу модели для разных возрастных групп детей и показали, что она эффективна во всех случаях. Повторные тесты на датасете CMU подтвердили универсальность нашего подхода и его устойчивость к разным условиям. ## Значимость Наш подход имеет широкое применение в различных системах, где необходимо распознавание речи детей. Он может быть использован в ди
Annotation:
Numerous methods have been proposed to enhance Keyword Spotting (KWS) in adult speech, but children's speech presents unique challenges for KWS systems due to its distinct acoustic and linguistic characteristics. This paper introduces a zero-shot KWS approach that leverages state-of-the-art self-supervised learning (SSL) models, including Wav2Vec2, HuBERT and Data2Vec. Features are extracted layer-wise from these SSL models and used to train a Kaldi-based DNN KWS system. The WSJCAM0 adult speech...
ID: 2508.21248v1 eess.AS, cs.AI, cs.HC, cs.SD, eess.SP
Авторы:

A. Ali Heydari, Ken Gu, Vidya Srinivas, Hong Yu, Zhihan Zhang, Yuwei Zhang, Akshay Paruchuri, Qian He, Hamid Palangi, Nova Hammerquist, Ahmed A. Metwally, Brent Winslow, Yubin Kim, Kumar Ayush, Yuzhe Yang, Girish Narayanswamy, Maxwell A. Xu, Jake Garrison, Amy Aremnto Lee, Jenny Vafeiadou, Ben Graef, Isaac R. Galatzer-Levy, Erik Schenck, Andrew Barakat, Javier Perez, Jacqueline Shreibati, John Hernandez, Anthony Z. Faranesh, Javier L. Prieto, Connor Heneghan, Yun Liu, Jiening Zhan, Mark Malhotra, Shwetak Patel, Tim Althoff, Xin Liu, Daniel McDuff, Xuhai "Orson" Xu

## Контекст Повышение здоровья и благополучия является фундаментальным аспектом человеческого жизненного благополучия. С появлением продвинутых бо LLM (большие лингвистические модели), происходит развитие нового поколения здравоохранения. Однако применение нейронных сетей в рамках здоровья, ориентированных на функционирование в повседневных, неклинических ситуациях, пока не достаточно исследовано. Целью данного исследования является создание комплексного личного здравоохранения помощника, который может выполнять логические выводы на основе многомодальных данных из повседневных устройств сертификации здоровья и личных здравоохранений, предоставляя личноспособные рекомендации. Для уточнения потребностей пользователей в сотрудничестве с подобными помощниками, анализировались запросы в поисковиках и форумах, а также проведены исследования в рамках пользовательного дизайна. ## Метод В работе предложена многоагентная система, состоящая из трех основных компонентов: (1) агент-анality data science agent, (2) агент-ан expert agent, (3) агент-ан health coach agent. Каждый выполняет частный функционал: анализ трекаторных данных, интеграция здравоохранения и продвижение стратегий поддержки здоровья. Для реализации фреймворка разработаны многомодальные методы обработки данных, сочетающие выдачу данных, тренировку моделей и предоставление личных рекомендаций. Исследования проводились используя данные более 7,000 запросов и 1,100 часов экспертных оценок. ## Результаты Агент прошел 10 бенчмарк-задач, включающих обработку серийных данных, выводы о здоровье и прогнозирование поведения. В результате концептуальных испытаний с оценками экспертов, было доказано, что система удовлетворяет потребности пользователей и может давать конкретные рекомендации на основании индивидуальных данных. Исследования показали, что система PHA превышает существующие подходы по точности, персонализации и поддержке пользователей. ## Значимость Предложенная система может применяться в различных сферах, включая личное здравоохранение, телемедицинские приложения и программы оздоровления. Она предоставляет комплексные решения, повышает точность диагностики и поддерживает пользователей в достижении здоровья. Это новая модель помогает улучшить здоровье и благополучие широкого круга пользователей, включая тех, кто живет в удаленных регионах и имеет доступ к ограниченным здравоохранным ресурсам. ## Выводы Предложенный подход является новаторским в области здравоохранения, объединяя многомодальные данные для повышения личностных рекомендаций. Будущие исследования будут
Annotation:
Health is a fundamental pillar of human wellness, and the rapid advancements in large language models (LLMs) have driven the development of a new generation of health agents. However, the application of health agents to fulfill the diverse needs of individuals in daily non-clinical settings is underexplored. In this work, we aim to build a comprehensive personal health agent that is able to reason about multimodal data from everyday consumer wellness devices and common personal health records, a...
ID: 2508.20148v1 cs.AI, cs.HC, cs.MA
Авторы:

Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan

## Контекст Проактивная диалоговая система является ключевым направлением в развитии бо LLM. Однако существующие исследования часто ограничиваются решающими задачами в конкретных сферах, что приводит к неоднородному и неполному анализу моделей. Это ограничение снижает возможность полного оценивания моделей в области проактивных диалогов. Рассматривая эти проблемы, авторы предлагают ProactiveEval — универсальную систему для оценки проактивных диалоговых моделей. Эта система разделяет проактивные диалоги на две задачи: планирования целей и поддержки диалога, чтобы обеспечить широкий экспериментальный подход к измерению моделей. ## Метод ПроактивEval предлагает архитектуру, в которой проактивный диалог разделяется на два основных элемента: планирование целей и поддержка диалога. Она предоставляет многочисленные метрики для оценки моделей в разных сферах. Для автоматической генерации вызовов данные для тестирования моделей генерируются программно, чтобы создать разнообразные и сложные сценарии. В рамках этого фреймворка, авторы создали 328 сценариев, распространяющихся по 6 различным сферам, чтобы тестировать модели на проактивность. ## Результаты На основе ProactiveEval, авторы провели эксперименты на 22 типах моделей, включая DeepSeek-R1 и Claude-3.7-Sonnet. Результаты показали, что DeepSeek-R1 превосходит в задаче планирования целей, в тогда Claude-3.7-Sonnet — в задаче поддержки диалога. Эти результаты демонстрируют, что модели DeepSeek-R1 и Claude-3.7-Sonnet показывают разные сильные стороны, но обычно модели предлагают разные способы оценки производительности в разных сценариях. ## Значимость Система ProactiveEval может применяться в различных областях для проверки проактивных диалоговых моделей. Она предоставляет широкий спектр метрик для полной оценки моделей в различных сферах, включая социальные, технические и другие. Это позволяет провести более широкие исследования, улучшить модели и продвинуть их в сфере проактивных диалогов. ## Выводы ПроактивEval представляет собой универсальный фреймворк для проверки проактивных диалоговых моделей. Он позволяет проводить сравнительные тесты на основе различных моделей, чтобы определить сильные стороны и слабые места каждой модели. Будущие исследования будут сосредоточены на улучшении проактивности моделей и развитии более сложных систем оценки.
Annotation:
Proactive dialogue has emerged as a critical and challenging research problem in advancing large language models (LLMs). Existing works predominantly focus on domain-specific or task-oriented scenarios, which leads to fragmented evaluations and limits the comprehensive exploration of models' proactive conversation abilities. In this work, we propose ProactiveEval, a unified framework designed for evaluating proactive dialogue capabilities of LLMs. This framework decomposes proactive dialogue int...
ID: 2508.20973v1 cs.CL, cs.AI, cs.HC
Авторы:

Jonas Henkel

## Контекст Современное математическое исследование сталкивается с значительными вызовами, связанными с увеличением объемов данных, сложностью проблем и требованием быстрых решений. Одной из причин этого является всплеск развития искусственного интеллекта (ИИ), который вносит новые возможности в анализ, моделирование и решение математических задач. Однако существуют ограничения, связанные с недостатком критического подхода, систематическими ошибками и несоответствием между результатами и их глубиной. Мотивация для данного исследования лежит в желании избежать проблем, связанных с простотой AI-систем, и создать подход, который бы позволил использовать мощь ИИ в сочетании с критическим мышлением человека. Целью является разработка методологии для интеграции ИИ в математический исследовательский процесс, чтобы повысить качество решений и обеспечить ответственность в их применении. ## Метод Методология исследования основывается на анализе существующих бенчмарков, таких как MathArena и Open Proof Corpus, чтобы определить сильные и слабые стороны последних технологий ИИ в математике. Исследование включает эксперименты с текущими моделями, такими как Gemini Deep Think и AlphaEvolve, для исследования их потенциала в решении дифференциальных уравнений, генерации доказательств и проверке теорем. Архитектура предлагаемого фреймворка включает в себя пять основных принципов, которые должны руководствовать человека при работе с AI-системами. Эти принципы включают: 1) стратегическую формулировку задач, 2) критическую проверку результатов, 3) методологическую регулярность, 4) постоянное обучение ИИ и 5) интеграцию ИИ в целостный подход к исследовательской деятельности. ## Результаты Исследование проводилось на основе 7 основных сценариев использования AI в математике, включая генерацию идей, решение задач, проверку доказательств, синтез новых методов, имитацию человеческого моделирования, а также анализ и написание математических текстов. Результаты показали, что AI может эффективно работать в качестве дополнительного инструмента, но не может заменить критическую мысль человека. Были выявлены ошибки в аппроксимации, недостаточность вариантов решений и неполнота логики в некоторых моделях. ## Значимость Предлагаемый подход имеет широкое применение в области математических исследований, бизнес-анализа, технической моделировании и даже в образовательных процессах. Он позволяет улучшить точность и продуктивность работы, повысить уровень критического мышления и открыть новые возможности для развития математики. Однако требуется уделить внимание обучению
Annotation:
The rapid development of artificial intelligence (AI), marked by breakthroughs like 'AlphaEvolve' and 'Gemini Deep Think', is beginning to offer powerful new tools that have the potential to significantly alter the research practice in many areas of mathematics. This paper explores the current landscape of publicly accessible large language models (LLMs) in a mathematical research context, based on developments up to August 2, 2025. Our analysis of recent benchmarks, such as MathArena and the Op...
ID: 2508.20236v1 math.HO, cs.AI, cs.HC, cs.LG, 00A35 (Primary), 68T07 (Secondary), I.2.7; H.5.2
Авторы:

Alex Cuellar, Ho Chit Siu, Julie A Shah

## Контекст Роботизированные системы, осуществляющие задачи пика-ан-плейс (например, упаковка, сортировка и составление комплектов), постоянно совершенствуются. Однако методы, основывающиеся на понимании человеческих предпочтений по расположению предметов, до сих пор не полностью реализованы. Эти предпочтения часто заключаются в необходимости соблюдения определенных пространственных отношений между предметами, которые трудно выразить с помощью традиционных формализмов. Таким образом, возникает необходимость разработки более выразительных методов, позволяющих роботам лучше понимать человеческие правила расположения предметов. ## Метод Разработанное решение, под названием позиционно-усиленный RCC (PARCC), основано на региональном калькул (RCC), который уже используется для описания пространственных отношений. Однако PARCC добавляет новые возможности для лучшего понимания человеческих предпочтений. Для обучения этого фреймворка вводится алгоритм, основанный на демонстрациях, позволяющий роботу изучать человеческие правила расположения. Этот подход позволяет роботу не только выполнять задачи, но и понимать их в контексте человеческих ожиданий. ## Результаты В ходе исследования была проведена серия экспериментов, в ходе которых использовались данные, собранные во время экспериментов с людьми. Эти данные позволили роботу изучить человеческие правила расположения по демонстрациям. Оценка результатов показала, что PARCC эффективно моделирует человеческие предпочтения и предлагает более выразительные возможности для описания пространственных отношений. Это доказывает преимущества метода обучения через демонстрации по сравнению с традиционными способами. ## Значимость Применение PARCC может быть полезно в различных областях, где необходимо понимание человеческих правил расположения предметов. Например, в производственных заводах, где роботы могут учитывать человеческие предпочтения при упаковке и сортировке товаров. Это не только улучшает эффективность, но также уменьшает вероятность ошибок. Благодаря позиционно-усиленному RCC, роботы могут более точно понять человеческие правила, что влечет за собой повышение качества работы. ## Выводы Разработанный PARCC-фреймворк демонстрирует значительные преимущества в процессе обучения человеческих правил расположения предметов. Несмотря на это, будущие исследования будут фокусироваться на улучшении точности интерпретации сложных пространственных отношений и расширении применимости фреймворка к более широкому кругу задач. Это будет упрощать интеграцию роботов в рабочие процессы, где
Annotation:
As robots' manipulation capabilities improve for pick-and-place tasks (e.g., object packing, sorting, and kitting), methods focused on understanding human-acceptable object configurations remain limited expressively with regard to capturing spatial relationships important to humans. To advance robotic understanding of human rules for object arrangement, we introduce positionally-augmented RCC (PARCC), a formal logic framework based on region connection calculus (RCC) for describing the relative ...
ID: 2508.19367v1 cs.RO, cs.AI, cs.HC
Авторы:

Debanjana Kar, Leopold Böss, Dacia Braca, Sebastian Maximilian Dennerlein, Nina Christine Hubig, Philipp Wintersberger, Yufang Hou

## Контекст В последние годы широко распространяется применение технологий глубокого обучения в области онлайн-образования. Динамические модели языка, такие как LLM (Large Language Models), позволяют создавать интеллектуальные системы обучения, которые могут обеспечивать эффективную помощь студентам. Однако, существующие модели не учитывают эмоциональные состояния учеников, что может существенно сказаться на качестве обучения. Несколько исследований в области образовательной психологии показывают, что эмоции могут оказать значительное влияние на процесс обучения. Модели, не учитывающие эти состояния, могут неэффективно адаптироваться к потребностям студентов. Для решения этой проблемы представлена MathBuddy — система, которая динамически моделирует эмоциональные состояния uчеников и применяет их для выбора оптимальных методов обучения. ## Метод MathBuddy является системой, основанной на LLM, которая моделирует эмоциональные состояния учеников, используя текстовые запросы и лицевые выражения. Для этого используются нейросетевые модели, включая конвейер, который анализирует текст и лицо, а также агрегирует эмоциональные признаки. Эти признаки используются для направления LLM-модели, чтобы она могла выдавать персонализированные ответы, учитывая эмоциональное состояние студента. Такой подход позволяет сформировать более эмоционально чувствительный диалог между студентом и моделью. ## Результаты Мы провели обширные эксперименты, используя различные данные студентов, включая текстовые запросы и лицевые выражения. Наша модель была оценена по 8 педагогическим критериям, включая точность, харизматичность и поддержку. Также было проведено исследование, в котором студенты использовали MathBuddy и другие системы по обучению математике. Результаты показали, что MathBuddy значительно улучшает поддержку учеников, обеспечивая более эмоционально чувствительный подход к обучению. Мы также использовали автоматические метрики для оценки качества ответов, доказав значительное улучшение в педагогическом качестве в сравнении с другими моделями. ## Значимость MathBuddy может быть применена в различных областях образовательных технологий, включая онлайн-курсы, удаленное обучение и программы поддержки обучения. Она предоставляет значительные преимущества, такие как более эмоционально чувствительный подход к обучению, адаптивность к потребностям каждого ученика и улучшение общего качества обучения. MathBuddy может стать основой для создания более эмоционально настроенных и эффективных систем обучения, которые учитывают не только технические аспекты, но и психологические факторы учеников. ## Выводы Мы п
Annotation:
The rapid adoption of LLM-based conversational systems is already transforming the landscape of educational technology. However, the current state-of-the-art learning models do not take into account the student's affective states. Multiple studies in educational psychology support the claim that positive or negative emotional states can impact a student's learning capabilities. To bridge this gap, we present MathBuddy, an emotionally aware LLM-powered Math Tutor, which dynamically models the stu...
ID: 2508.19993v1 cs.CL, cs.AI, cs.HC
Авторы:

Ryan Hare, Ying Tang

## Контекст Одной из важнейших задач в сфере образования является поиск способов побуждать студентов к управлению собственным обучением, устанавливать смысловые цели, отслеживать прогресс и адаптировать стратегии в случае провалов. Удовлетворение этих требований требует создания устойчивой, поддерживающей среды, где ученики могут проходить гуманно ориентированный практический курс и участвовать в коллективном обсуждении. Реализация таких подходов в образовательных процессах становится возможной благодаря применению искусственного интеллекта (AI) в цифровых образовательных средах, таких как обучающие приложения, виртуальные лаборатории и серьезные игры. С появлением продвинутых технологий, таких как большие лингвистические модели (LLM) и нейросимволические системы, возможности для дизайна эффективных AI-систем, моделирующих социальные и учебные поддержки, становятся более широкими. Нейросимволические модели, в частности, предлагают новые возможности для разработки агентов, обладающих как адаптивностью, так и масштабируемостью по разным областям знаний. Наша работа фокусируется на создании расширенного фреймворка, который бы сделал такие системы более универсальными и эффективными в различных образовательных сценариях. ## Метод Мы предлагаем гибридный фреймворк, сочетающий нейросимволическую архитектуру с несколькими специализированными агентами. Основными элементами этого фреймворка являются два взаимодействующих агента: 1. **RL-Based Tutor Agent** — это агент, основанный на распределенном оптимизационном алгоритме, который предоставляет авторитетную, неоральную поддержку, ориентируясь на цели обучения и выполнение заданий. 2. **LLM-Powered Peer Agent** — это агент, основанный на технологии LLMs, который обеспечивает социальную интерактивность, помогая ученикам объяснять свои взгляды, обмениваться опытом и участвовать в диалогах. Помимо этого, фреймворк использует общую образовательную онтологию для синхронизации действий агентов и обеспечения структурированности взаимодействия. Мы применяем этот подход в случае-исследованиях в области обучения на высшем и среднем уровнях, чтобы показать гибкость и эффективность нашего фреймворка. ## Результаты Мы проводим эксперименты в двух средах: на уровне высшего образования и средней школы. Студенты и младшие школьники демонстрируют прирост в уверенности при изучении новых материалов и улучшении своих техник обучения. Мы также измеряем прогресс по задачам и применяем анализ данных для оценки качества поддержки, предоставляемой агентами. Результаты показыва
Annotation:
One of the enduring challenges in education is how to empower students to take ownership of their learning by setting meaningful goals, tracking their progress, and adapting their strategies when faced with setbacks. Research has shown that this form of leaner-centered learning is best cultivated through structured, supportive environments that promote guided practice, scaffolded inquiry, and collaborative dialogue. In response, educational efforts have increasingly embraced artificial-intellige...
ID: 2508.18406v1 cs.MA, cs.AI, cs.HC
Авторы:

Ernest Lim, Yajie Vera He, Jared Joselowitz, Kate Preston, Mohita Chowdhury, Louis Williams, Aisling Higham, Katrina Mason, Mariane Melo, Tom Lawton, Yan Jia, Ibrahim Habli

## Контекст Клинические диалоговые системы, основанные на больших языковых моделях (LLMs), приобрели популярность в медицине, но их оценка ставится перед значимыми вызовами. Основными проблемами являются: подробности безопасности, контекстуальные особенности бесед, реалистичность симулированных диалогов и оценка рисков. Настоящая работа призвана создать рамку для безопасных и контекстуально правильных экспериментов, позволяющую получать представление о рисках и возможностях клинических диалоговых агентов. ## Метод MATRIX (Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation) представляет собой расширяемую, структурированную систему для оценки клинических диалоговых агентов. Он состоит из: (1) безопасности-ориентированной таксономии, определяющей клинические сценарии, ожидаемое поведение системы и предполагаемые недостатки; (2) BehvJudge, LLM-ориентированной системы оценки, проверенной экспертами на выявление безопасности в диалогах; (3) PatBot, симулятора пациента, моделирующего разнообразные сценарии и поведения, проверенного с помощью знаний человеческих факторов и предпочтений пациентов. ## Результаты В трех экспериментах была продемонстрирована эффективность MATRIX в безопасной оценке диалоговых агентов. Особое внимание уделено BehvJudge, которая успешно оценивала 240 диалогов с F1-метрикой 0.96 и температурой 0.999, выигрывая при этом перед клиниками в безупречном выявлении небезопасных ситуаций. Кроме того, PatBot был оценен как надежный симулятор реальных поведений пациентов в клинических сценариях, с помощью численных и текстовых экспериментов. С помощью MATRIX было проведено 2100 диалогов в 14 сценариях опасности и 10 клинических областях, которое позволило сравнить 5 LLM-диалоговых агентов. ## Значимость MATRIX представляет собой первую систему, которая объединяет безопасность-ориентированные методы системного анализа и масштабируемую оценку контекстуальных клинических диалогов. Он может использоваться для регуляторного аудита, включая оценку рисков и безопасности в больших языковых моделях, применяемых в клинических системах, и позволяет развивать безопасные, реалистичные и контекстуально правильные клинические диалоговые системы. ## Выводы MATRIX позволяет систематически и масштабно оценивать безопасность клинических диалоговых агентов. Он оказывается эффективным для выявления рисков, оценки реалистичности и создания надежных клинических диалоговых систем. Будущими направлениями исследований будет расширение кросс-доменных о
Annotation:
Despite the growing use of large language models (LLMs) in clinical dialogue systems, existing evaluations focus on task completion or fluency, offering little insight into the behavioral and risk management requirements essential for safety-critical systems. This paper presents MATRIX (Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation), a structured, extensible framework for safety-oriented evaluation of clinical dialogue agents. MATRIX i...
ID: 2508.19163v1 cs.AI, cs.HC, cs.MA, 68T50, 68T42, 92C50, 68Q60, I.2.0; J.3
Показано 191 - 200 из 238 записей