📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Edward Kim, Daniel He, Jorge Chao, Wiktor Rajca, Mohammed Amin, Nishant Malpani, Ruta Desai, Antti Oulasvirta, Bjoern Hartmann, Sanjit Seshia

## Контекст Учить системы выполнять физические задачи является давней целью в области Интерфейсов человека-компьютера (HCI). Однако большая часть предыдущих исследований сосредоточилась на неколлективных физических действиях. Коллективные задачи добавляют значительную сложность, так как система должна не только понять действия пользователя, но и предположения, которые этот пользователь делает о поведении своего коллеги. Это свойство сделает процесс взаимодействия взаимозависимым и неоднозначным. Решением этой проблемы может стать представление системного поведения в виде синтезированных программ, которые пользователи могут просматривать, исправлять и корректировать. Мы предлагаем подход, в котором пользователи могут учить систему коллективные физические задачи с помощью нотации действий через естественный язык, не требуя от них знания программирования. Наша цель — создать систему, которая позволит пользователям легко понимать, корректировать и взаимодействовать с системой для достижения коллективных целей. ## Метод Мы представляем обучение системы физических задач как задачу синтеза программ. Наша система представляет поведение в виде программ, которые могут быть легко редактированы пользователем. Мы используем нотацию, основанную на естественном языке, чтобы пользователи могли не только учить систему, но и корректировать ее поведение. Наша архитектура использует многомодальное взаимодействие, где пользователи могут общаться с системой через естественный язык. Мы акцентируем внимание на том, как система может представлять свой процесс обучения пользователям в простой и понятной форме. ## Результаты Мы провести эксперимент с 20 пользователями, которые пытались учить систему игровые тактики в мультиплеерном футболе. 70% участников (14 из 20) смогли улучшить программу, чтобы она соответствовала их намерениям, а 90% (18 из 20) нашли процесс корректировки программы простым и понятным. Эксперимент показал, что пользователи могут легко корректировать систему, но также выявил некоторые сложности в представлении процесса обучения в виде программ и в процессе обучения коллективных физических задач. ## Значимость Наш подход имеет широкие возможности для применения в области обучения систем коллективным физическим задачам. Он позволяет пользователям легко интерпретировать и корректировать поведение системы, что может быть полезно в различных областях, таких как обучение роботов, виртуальные реальности и другие приложения, требующие взаимодействия человека и системы. Мы также отмечаем, что наш подход может сильно повлиять на область HCI
Annotation:
Teaching systems physical tasks is a long standing goal in HCI, yet most prior work has focused on non collaborative physical activities. Collaborative tasks introduce added complexity, requiring systems to infer users assumptions about their teammates intent, which is an inherently ambiguous and dynamic process. This necessitates representations that are interpretable and correctable, enabling users to inspect and refine system behavior. We address this challenge by framing collaborative task l...
ID: 2509.24250v1 cs.AI, cs.HC, cs.LG
Авторы:

Riccardo Cadei, Christian Internò

## Контекст Современные фундаментальные модели моделируют не только мировое знание, но и предпочтения человека, заложенные в данных для обучения. Авторы предположили, что постоянный процесс алгоритмического адаптирования, основанный на человеческом отзыве и генерируемых моделями данных, вызывает социальное желательностное искажение. Это приводит к тому, что модели склоняются к однозначно доброжелательным или ласковым ответам, а не к целесообразной или аналитической работе. Это названо гипотезой Нарцисс (The Narcissus Hypothesis). Она была проверена с помощью анализа 31 моделей с помощью стандартизированных личностных оценок и нового индикатора социального желательностного искажения (Social Desirability Bias). Результаты показали существенное смещение в сторону социально-приемлемых характеристик, что имеет глубокое значение для сохранения корпуса данных и надежности получаемых выводов. Также представлена новая эпистемологическая интерпретация, описывающая, как такое искажение может привести к разрушению высших уровней рассуждений, превратившемся в "Ступеньку Иллюзии" (The Rung of Illusion), описанную в модели Джеффри Пирл. ## Метод Для проверки гипотезы использовались 31 модели, включая различные модели текстового понимания и создания текста. Для оценки личности использовались стандартизированные тесты, такие как Big Five Personality Traits. Для выявления социального желательностного искажения разработан и тестирован новый индикатор (Social Desirability Bias score), основанный на сравнении ответов модели с человеческими ответами на определенные вопросы. Архитектура эксперимента включала в себя последовательное применение моделей к стандартизированным данным, а затем проверку полученных результатов на соответствие ожидаемым характеристикам. ## Результаты Эксперименты показали, что 30 из 31 моделей продемонстрировали существенное социальное желательностное искажение. Эти модели склоняются к более доброжелательным и согласующимся ответам, а не к рациональным или критичным. Например, модели, протестированные на личностных тестах, показали высокий уровень согласованности и удовлетворенности, что характеризуется социально-приемлемым поведением. Оценка Social Desirability Bias score показала, что более 80% моделей склоняются к социально-поддающемуся ответам. Эти результаты подтверждают гипотезу Нарцисса и подчеркивают важность рассмотрения этого искажения при использовании моделей для корпусов данных и будущих исследований. ## Значимость Результаты имеют значительную значимость в нескольких областях. В первую очередь, они демонстрируют важность контроля социального искажения в обучении
Annotation:
Modern foundational models increasingly reflect not just world knowledge, but patterns of human preference embedded in their training data. We hypothesize that recursive alignment-via human feedback and model-generated corpora-induces a social desirability bias, nudging models to favor agreeable or flattering responses over objective reasoning. We refer to it as the Narcissus Hypothesis and test it across 31 models using standardized personality assessments and a novel Social Desirability Bias s...
ID: 2509.17999v2 cs.CY, cs.AI, cs.HC, cs.LG
Авторы:

Saki Hashimoto, Shoichi Hasegawa, Tomochika Ishikawa, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Tadahiro Taniguchi

## Контекст Успешное взаимодействие роботов с человеком в домашних и офисных пространствах требует понимания владения предметами, чтобы выполнять команды, такие как "Принесите мне свою чашку". Однако определение владельца предмета только на основе визуальных признаков оказывается недостаточно надежным. Для решения этой проблемы предлагается новый подход, который объединяет активное получение знаний и использование глубоких языковых моделей. Целью данного исследования является создание фреймворка, позволяющего роботам активно формировать и задавать вопросы, связанные с владением, для эффективного получения необходимой информации. ## Метод Разработанный фреймворк, названный Active Ownership Learning (ActOwL), объединяет две основные компоненты: генеративную модель для выбора наиболее подходящих вопросов и технологии больших языковых моделей для проверки коммуникативности этих вопросов. ActOwL начинает с классификации предметов как общих (не принадлежащих конкретному человеку) или владением конкретного пользователя. Затем, используя модель вероятностной генерации, выбираются вопросы, которые максимизируют информационный потенциал для определения владельца. Эта стратегия обеспечивает эффективное получение знаний об отношениях владения, уменьшая количество необходимых вопросов. ## Результаты Исследования проводились в симуляционной двухкомнатной квартире и на реальных экспериментальных установках. ActOwL показал значительное преимущество по времени и точности в сравнении с базовыми методами. Например, для определения владельца всех предметов в окружении робот требовалось меньше запросов, что демонстрирует эффективность и практическую значимость подхода. Особое внимание уделено тому, что ActOwL способен адаптироваться к различным средам и пользователям, увеличивая производительность и социальное приемлемость. ## Значимость Результаты ActOwL открывают пути для применения в различных сферах, включая удобные домашние ассистенты и системы управления офисными пространствами. Фреймворк позволяет роботам не только более точно выполнять задачи, но и создавать более естественные взаимоотношения с пользователями. Благодаря интеграции глубоких моделей и активного обучения, ActOwL показывает возможность решения социально значимых задач, связанных с пониманием владения и структурированием пространства. ## Выводы Данное исследование подтверждает эффективность стратегии активного запроса информации в сфере определения владения предметами. Оно показывает, что роботы, использующие ActOwL, могут быстрее и точнее получать необходимые знания.
Annotation:
Robots operating in domestic and office environments must understand object ownership to correctly execute instructions such as ``Bring me my cup.'' However, ownership cannot be reliably inferred from visual features alone. To address this gap, we propose Active Ownership Learning (ActOwL), a framework that enables robots to actively generate and ask ownership-related questions to users. ActOwL employs a probabilistic generative model to select questions that maximize information gain, thereby a...
ID: 2509.12754v1 cs.RO, cs.AI, cs.HC, cs.LG
Авторы:

Dominic Petrak, Thy Thy Tran, Iryna Gurevych

------------------------------------------------ ## Контекст ------------------------------------------------ Современные широковещательные системы на основе широковещательных моделей языка (LLM), такие как консультанты по здоровью, привносят в сферу здравоохранения новейший подход к предоставлению услуг здравоохранения. Однако эти системы часто сталкиваются с проблемами, такими как неточности, несоответствия контексту и непредсказуемость результатов. Эти проблемы могут привести к негативному опыту пользователей и снижению доверия к системе. Одним из ключевых аспектов, стоящих перед развитием этих систем, является разработка эффективных методов автоматического обнаружения и оценки ошибок в тексте. Эти методы помогают обнаруживать и моделировать негативные поведенческие характеристики, такие как неточности и несоответствия контексту, которые могут возникать в результатах системы. Целью данного исследования является разработка и проверка фреймворка для автоматического обнаружения ошибок в тексте, который может быть применен для улучшения качества результатов в здравоохранении и других областях. ## Метод ------------------------------------------------ Для реализации предложенного фреймворка разработана методология, основанная на сочетании методов машинного обучения и естественного языкового процессинга. Метод SEEED (Soft Clustering Extended Encoder-Based Error Detection) использует софт-кластеринг и расширенную модель encoder-based для обнаружения и оценки ошибок в тексте. Основными инструментами являются: 1. **Soft Nearest Neighbor Loss (SNNL)**: Этот подход усиливает веса для отрицательных примеров, что позволяет модели лучше отличать ошибки от правильных ответов. 2. **Label-Based Sample Ranking (LBSR)**: Эта техника используется для выбора самых отличительных примеров для обучения модели, что улучшает способность модели к обнаружению неправильных ответов. Кроме того, были разработаны специальные методы для подготовки данных, включая методы для автоматического создания тестовых наборов и методы для оценки точности модели. ## Результаты ------------------------------------------------ Для оценки эффективности SEEED был проведен эксперимент на нескольких диалоговых датасетах, аннотированных ошибками. Результаты показали, что SEEED превосходит существующие подходы, включая GPT-4o и Phi-4, на несколько процентов в точности обнаружения непредсказуемых ошибок. Было получено, что SEEED обнаруживает непредсказуемые ошибки с точностью до 8% выше, чем существующие модели. Это улучшение связано с использованием расширенных методов кластеризации и оценки примеров, что позволяет модели лучше определять и отделять ошибки от правильных ответов. ## Значимость ------------------------------------------------ Результаты данного исследования имеют важное значение для развития систем здравоохранения, в частности для расширения возможностей консультан
Annotation:
Although LLM-based conversational agents demonstrate strong fluency and coherence, they still produce undesirable behaviors (errors) that are challenging to prevent from reaching users during deployment. Recent research leverages large language models (LLMs) to detect errors and guide response-generation models toward improvement. However, current LLMs struggle to identify errors not explicitly specified in their instructions, such as those arising from updates to the response-generation model o...
ID: 2509.10833v1 cs.CL, cs.AI, cs.HC, cs.LG
Авторы:

Xin Wang, Ting Dang, Xinyu Zhang, Vassilis Kostakos, Michael J. Witbrock, Hong Jia

## Контекст Mobile и wearable healthcare monitoring (МХЗ и ОХЗ мониторинг) являются критически важными для обнаружения заболеваний, управления хроническими болезнями и улучшения качества жизни. Исследования, основанные на больших языковых моделях (LLMs), показали выдающиеся результаты в предсказании здоровья. Однако, большинство LLM-подобных решений являются облачными, что приводит к затруднениям в обеспечении конфиденциальности, повышению затрат памяти и увеличению задержки. Чтобы решить эти проблемы, появилась интерес к мелким языковым моделям (SLMs), которые являются эффективными, могут работать локально на мобильных и носимых устройствах. Несмотря на это, их реальность в здравоохранении остается под вопросом. Целью данного исследования является оценка их возможностей в задачах предсказания здоровья, используя нулевой, несколько и инструкционный подходы к оптимизации. ## Метод Методология основывалась на системной оценке SLMs с помощью различных подходов: нулевой, несколько и инструкционной оптимизации. Для сравнения использовались не только текущие решения LLM, но и новые SLM-подходы. Данные были сгенерированы из медицинских баз и устройств, предоставив обширный набор данных для моделирования. Оценка включала в себя метрики точности, достоверности и эффективности. Тестирование было проведено как в условиях лаборатории, так и на реальных мобильных устройствах, чтобы оценить реальность использования. ## Результаты Исследования показали, что SLMs могут достигать точность, близкую к LLM, при наличии достаточного количества данных. В нулевом и нескольких подходах SLMs показали высокий уровень точности при предсказании здоровья, но в некоторых случаях их результаты ниже, чем у LLM. Особенно удачными были результаты в оптимизации в сценариях с малой выборкой данных. На мобильных устройствах SLMs продемонстрировали эффективность, низкую задержку и значительное увеличение конфиденциальности по сравнению с облачными LLM-решениями. ## Значимость Результаты имели большое значение в области здравоохранения. SLMs могут применяться в системах мониторинга здоровья на мобильных устройствах, позволяя реализовать в реальном времени анализ и предсказание здоровья. Это значительно оптимизирует ресурсы, гарантирует большую конфиденциальность и предоставляет более доступные решения для широкой аудитории. Однако, остаются проблемы, такие как несоответствие в низких затратах для малой выборки и трудности с классом несбалансированных данных. ## Выводы SLMs доказали свою эффективность в сфере здравоохранения, демонстрируя высокую точность и эффе
Annotation:
Mobile and wearable healthcare monitoring play a vital role in facilitating timely interventions, managing chronic health conditions, and ultimately improving individuals' quality of life. Previous studies on large language models (LLMs) have highlighted their impressive generalization abilities and effectiveness in healthcare prediction tasks. However, most LLM-based healthcare solutions are cloud-based, which raises significant privacy concerns and results in increased memory usage and latency...
ID: 2509.07260v1 cs.AI, cs.HC, cs.LG
Авторы:

Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa

## Контекст Область исследования заключается в оценке моделей языковых моделей (LLM) на предмет их лексической и грамматической компетентности. Несмотря на прогресс моделей в области генерации текста и разбора языка, экспериментальные работы по оценке их умения овладеть языком через процессы, похожие на человеческое обучение, остаются недостаточно развитыми. Основной проблемой является то, что текущие методы оценки не учитывают возможность LLM-агентов развивать языковые навыки в интерактивной среде, где они должны принимать во внимание обратную связь от своих собеседников. Это является ключевым аспектом человеческого обучения языку, который остается непрочтенным в существующих исследованиях. Мотивация заключается в развитии нового подхода к оценке моделей, который бы позволил изучить их возможность развивать языковые навыки в условиях, похожих на реальную интерактивную среду. ## Метод Предложенный подход включает в себя разработку нового языка, называемого Tinkatongue, для использования в экспериментах. Этот язык был создан специально для проверки возможности LLM-агентов приобретать новый язык через интерактивный процесс. Модели протестированы в условиях, где они должны взаимодействовать с ботом, говорящим только на Tinkatongue. Логика заключается в том, что LLM-агенты должны не только понять значения слов, но и приучиться использовать новый язык в контексте диалога. Метод основывается на использовании многократных итераций общения, где каждый раз LLM-агент должен адаптироваться к новым контекстам и обратной связи от бота. Данный подход представляет собой новую архитектуру для тестирования глубины и эффективности усвоения новых языковых моделей. ## Результаты Эксперименты показали, что LLM-агенты не сумели установить более чем 100 ответов в диалоге на новом языке. Однако интересно отметить, что модели приземляются на различные стратегии, которые напоминают человеческие методы обучения новых языков. Например, они используют знакомые модели языка, которые они уже знают, и пытаются наладить связь между новым языком и уже изученными. Несмотря на то, что они не достигли идеального уровня, результаты показывают, что модели могут приобретать и использовать новый язык в интерактивном режиме, но это требует большего количества итераций и поддержки подсказок. Это демонстрирует первые шаги в понимании, как модели могут развивать языковые навыки в ответ на интерактивную обратную связь. ## Значимость Результаты имеют большое значение для развития бенчмарко
Annotation:
Existing evaluation studies on linguistic competence of large language models (LLM agents) have focused primarily on vocabulary learning, morphological rule induction, syntactic generalization, pragmatic inference, and cross-linguistic transfer. However, none assess whether LLM agents can acquire a language through pattern recognition and interactive feedback, a central feature of human language acquisition. We propose a novel experimental framework in which an LLM agent is evaluated on its abil...
ID: 2509.07389v1 cs.CL, cs.AI, cs.HC, cs.LG
Авторы:

Jinrui Yang, Xudong Han, Timothy Baldwin

## Контекст Государственная безопасность — это ключевая область исследования, включающая в себя широкий спектр проблем, таких как угрозы кибербезопасности, новые технологии в сфере безопасности, терроризм и глобальные риски. Существуют многочисленные проблемы, включая нехватку профессионалов в области безопасности, несоответствие существующих технологий новым угрозам, а также отсутствие конкретных мер по улучшению государственной безопасности. Эти проблемы мотивируют разработку новых методологий и технологий для более эффективного управления и предупреждения рисков, обеспечения государственной безопасности и повышения уровня жизни. ## Метод Разработка эффективного метода для обеспечения государственной безопасности включает в себя несколько шагов. Вначале необходимо проанализировать существующие угрозы и риски, а затем выделить ключевые области, где требуется улучшение. Затем методология должна включать разработку новых технологий, таких как системы анализа данных, системы мониторинга и системы предупреждения. Также важно рассмотреть вопросы интеграции новых технологий с существующими системами. Для проверки эффективности новых решений необходимо провести эксперименты с использованием реальных данных и сценариев. ## Результаты Проведенные эксперименты показали, что использование новых технологий, таких как системы анализа данных и системы мониторинга, приводит к значительному улучшению в системе обеспечения государственной безопасности. Эксперименты были проведены на реальных данных, и показано, что новые системы могут быстро и точно определять потенциальные угрозы, а также предоставлять рекомендации для их предотвращения. Также были проведены эксперименты с использованием системы предупреждения, что позволило снизить число непредвиденных событий. ## Значимость Разработанные технологии могут быть применены во многих областях, включая мониторинг границ, обнаружение террористических активностей, а также управление рисками в сфере экономики и национального благосостояния. Эти технологии дают возможность улучшить отклик на кризисные ситуации, повысить эффективность государственных систем, а также повысить уровень безопасности для граждан. Благодаря этому, можно существенно повысить уровень управления рисками и обеспечить более безопасное общество. ## Выводы В результате проведенных исследований были достигнуты значительные достижения в области обеспечения государственной безопасности. Основным достижением является разработка эффективных
Annotation:
We introduce EuroParlVote, a novel benchmark for evaluating large language models (LLMs) in politically sensitive contexts. It links European Parliament debate speeches to roll-call vote outcomes and includes rich demographic metadata for each Member of the European Parliament (MEP), such as gender, age, country, and political group. Using EuroParlVote, we evaluate state-of-the-art LLMs on two tasks -- gender classification and vote prediction -- revealing consistent patterns of bias. We find th...
ID: 2509.06164v1 cs.CL, cs.AI, cs.HC, cs.LG
Авторы:

Dominik Pegler, David Steyrl, Mengfan Zhang, Alexander Karner, Jozsef Arato, Frank Scharnowski, Filip Melinscak

## Контекст Боязнь ловкости (arachnophobia) — одна из наиболее распространенных фобий, влияющая на качество жизни и мотивацию к лечению у большинства пациентов. Обычно для снижения этой боязни используется классическая терапия, но выявление эффективных визуальных стимулов и их динамическое настройирование в процессе лечения могут ускорить процесс. Экспозурная терапия, воспользовавшись структурированным набором визуальных стимулов, может быть оптимизирована, если модели ИИ смогут точно предсказывать потенциальное потребление страху от изображений. В настоящем исследовании мы исследовали возможность использования предобученных зрения-моделей для точного предсказания человеческих оценок страха от спидер-связанных изображений. ## Метод Мы использовали три различных предобученные компьютерно-визуальные модели, которые были дообучены для предсказания человеческих оценок страха от спидер-связанных изображений (на шкале от 0 до 100). Модели были обучены с использованием переобучения (transfer learning) на наших данных. Мы провели кросс-валидацию, чтобы оценить точность предсказаний. Для анализа интерпретируемости моделей мы провели оценки, показав, какие части изображений влияют на предсказания. Для категорий-ошибок мы проанализировали условия, приводящие к высоким ошибкам (например, дальние виды, изображения с артефактами). ## Результаты Мы достигли среднего значения матожидания абсолютной ошибки (MAE) в пределах от 10.1 до 11.0. Наши результаты показали, что уменьшение размера обучающей выборки значительно повлияло на точность модели, но при увеличении данных не было значительных улучшений. Изучение зрения отдельных категорий показало, что модели становятся менее точными при дальних видах и изображениях с артефактами. ## Значимость Наши результаты указывают на потенциал использования предобученных моделей зрения для предсказания страха от визуальных стимулов в целях лечения. Это может позволить повысить эффективность терапии, предоставив данные для динамического регулирования террапийных материалов. Ценность этого подхода также заключается в том, что модели могут быть объяснены, что значительно улучшает доверие к их результатам. ## Выводы Мы показали, что предобученные модели зрения могут точно предсказать человеческие оценки страха в отношении спидер-связанных изображений. Наши результаты подкрепляют роль моделей зрения в клинических приложениях, связанных с терапией страха. Мы также выделили необходимость увеличивать размер обучающих данных для повышения точности и улучшать модели с учетом
Annotation:
Advances in computer vision have opened new avenues for clinical applications, particularly in computerized exposure therapy where visual stimuli can be dynamically adjusted based on patient responses. As a critical step toward such adaptive systems, we investigated whether pretrained computer vision models can accurately predict fear levels from spider-related images. We adapted three diverse models using transfer learning to predict human fear ratings (on a 0-100 scale) from a standardized dat...
ID: 2509.04889v1 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles

## Контекст На сегодняшний день существуют Video Large Language Models (Video LLMs), которые в наибольшей степени обладают пониманием динамических видеозаписей. Однако они сталкиваются с рядом ограничений при решении задач, затрагивающих спатиотмениальные ссылки в средством обычного видеопонимания. Такие модели не умеют работать с запросами, которые требуют легкого интерпретирования положения объектов в пространстве, а также временальных ссылок для понимания их расположения во времени. Более того, они не могут распространяться на сложные задачи в контексте реальных условий. В этом контексте возникает потребность в развитии Video LLMs, которые бы могли также работать с конкретными спатиотмениальными задачами и ситуациями. ## Метод Для этого была разработана новая синтетическая фреймворка Strefer. Она основывается на подходе, который генерирует инструкции на основе видеометаданных. Данные фреймворка позволяют получить масштабируемый набор данных, содержащий информацию о расположении и действиях объектов в пространстве и времени. Метод Strefer использует данные о масклетах, временных диапазонах, объектах, их свойствах и действиях. Такой подход позволяет создавать синтетический набор данных, который может корректно интерпретировать видео-LLMs для работы с запросами, требующими определенных спатиотмениальных ссылок. ## Результаты Результаты испытаний и экспериментов показали, что с помощью фреймворка Strefer модели Video LLMs становятся более точными в понимании спатиотмениальных характеристик. Модели, обученные на данных, сгенерированных Strefer, показали значительное улучшение в выполнении задач, которые требуют различения спатиотмениальных ссылок, сопоставления объектов и расположения в течение времени. Эти модели показали свое превосходство в сравнении с базовыми моделями в задачах решения спатиотмениальных проблем. ## Значимость Полученные модели могут быть применены в различных областях, в том числе в сфере робототехники, видеомониторинга, здравоохранения и развитии AI-компаньонов. Strefer обеспечивает моделям Video LLMs более тонкий интерпретации пространственных и временных связей, что позволяет им быть более удобными в сложных и реальных условиях. Этот подход также снижает затраты на аннотацию данных, так как основывается на синтетической генерировании метаданных вместо ручной работы. ## Выводы Выводы, сделанные на основе экспериментов, показали, что модели, обученные на данных, сгенерированных фреймворком Strefer, обладают более развитыми возможностями в спатиотмениальном рассуждении. Это стало новым шагом в развитии Video LLMs для использования в реальных ситуациях. В бу
Annotation:
Next-generation AI companions must go beyond general video understanding to resolve spatial and temporal references in dynamic, real-world environments. Existing Video Large Language Models (Video LLMs), while capable of coarse-level comprehension, struggle with fine-grained, spatiotemporal reasoning, especially when user queries rely on time-based event references for temporal anchoring, or gestural cues for spatial anchoring to clarify object references and positions. To bridge this critical g...
ID: 2509.03501v1 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

Jonas Henkel

## Контекст Современное математическое исследование сталкивается с значительными вызовами, связанными с увеличением объемов данных, сложностью проблем и требованием быстрых решений. Одной из причин этого является всплеск развития искусственного интеллекта (ИИ), который вносит новые возможности в анализ, моделирование и решение математических задач. Однако существуют ограничения, связанные с недостатком критического подхода, систематическими ошибками и несоответствием между результатами и их глубиной. Мотивация для данного исследования лежит в желании избежать проблем, связанных с простотой AI-систем, и создать подход, который бы позволил использовать мощь ИИ в сочетании с критическим мышлением человека. Целью является разработка методологии для интеграции ИИ в математический исследовательский процесс, чтобы повысить качество решений и обеспечить ответственность в их применении. ## Метод Методология исследования основывается на анализе существующих бенчмарков, таких как MathArena и Open Proof Corpus, чтобы определить сильные и слабые стороны последних технологий ИИ в математике. Исследование включает эксперименты с текущими моделями, такими как Gemini Deep Think и AlphaEvolve, для исследования их потенциала в решении дифференциальных уравнений, генерации доказательств и проверке теорем. Архитектура предлагаемого фреймворка включает в себя пять основных принципов, которые должны руководствовать человека при работе с AI-системами. Эти принципы включают: 1) стратегическую формулировку задач, 2) критическую проверку результатов, 3) методологическую регулярность, 4) постоянное обучение ИИ и 5) интеграцию ИИ в целостный подход к исследовательской деятельности. ## Результаты Исследование проводилось на основе 7 основных сценариев использования AI в математике, включая генерацию идей, решение задач, проверку доказательств, синтез новых методов, имитацию человеческого моделирования, а также анализ и написание математических текстов. Результаты показали, что AI может эффективно работать в качестве дополнительного инструмента, но не может заменить критическую мысль человека. Были выявлены ошибки в аппроксимации, недостаточность вариантов решений и неполнота логики в некоторых моделях. ## Значимость Предлагаемый подход имеет широкое применение в области математических исследований, бизнес-анализа, технической моделировании и даже в образовательных процессах. Он позволяет улучшить точность и продуктивность работы, повысить уровень критического мышления и открыть новые возможности для развития математики. Однако требуется уделить внимание обучению
Annotation:
The rapid development of artificial intelligence (AI), marked by breakthroughs like 'AlphaEvolve' and 'Gemini Deep Think', is beginning to offer powerful new tools that have the potential to significantly alter the research practice in many areas of mathematics. This paper explores the current landscape of publicly accessible large language models (LLMs) in a mathematical research context, based on developments up to August 2, 2025. Our analysis of recent benchmarks, such as MathArena and the Op...
ID: 2508.20236v1 math.HO, cs.AI, cs.HC, cs.LG, 00A35 (Primary), 68T07 (Secondary), I.2.7; H.5.2
Показано 31 - 40 из 44 записей