📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 InnoGym: Benchmarking the Innovation Potential of AI Agents

2025-12-03

Авторы:

Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

LLMs and Agents have achieved impressive progress in code generation, mathematical reasoning, and scientific discovery. However, existing benchmarks primarily measure correctness, overlooking the diversity of methods behind solutions. True innovation depends not only on producing correct answers but also on the originality of the approach. We present InnoGym, the first benchmark and framework designed to systematically evaluate the innovation potential of AI agents. InnoGym introduces two comple...

ID: 2512.01822v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Emergent Bayesian Behaviour and Optimal Cue Combination in LLMs

2025-12-03

Авторы:

Julian Ma, Jun Wang, Zafeirios Fountas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) excel at explicit reasoning, but their implicit computational strategies remain underexplored. Decades of psychophysics research show that humans intuitively process and integrate noisy signals using near-optimal Bayesian strategies in perceptual tasks. We ask whether LLMs exhibit similar behaviour and perform optimal multimodal integration without explicit training or instruction. Adopting the psychophysics paradigm, we infer computational principles of LLMs from sy...

ID: 2512.02719v1 cs.CL, cs.AI, cs.CV, cs.LG, q-bio.NC

arXiv PDF

📄 Benchmarking the Thinking Mode of Multimodal Large Language Models in Clinical Tasks

2025-11-07

Авторы:

Jindong Hong, Tianjie Chen, Lingjie Luo, Chuanyang Zheng, Ting Xu, Haibao Yu, Jianing Qiu, Qianzhong Chen, Suning Huang, Yan Xu, Yong Gui, Yijun He, Jiankai Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A recent advancement in Multimodal Large Language Models (MLLMs) research is the emergence of "reasoning MLLMs" that offer explicit control over their internal thinking processes (normally referred as the "thinking mode") alongside the standard "non-thinking mode". This capability allows these models to engage in a step-by-step process of internal deliberation before generating a final response. With the rapid transition to and adoption of these "dual-state" MLLMs, this work rigorously evaluated...

ID: 2511.03328v1 cs.CL, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Vision Language Models for Dynamic Human Activity Recognition in Healthcare Settings

2025-10-28

Авторы:

Abderrazek Abid, Thanh-Cong Ho, Fakhri Karray

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As generative AI continues to evolve, Vision Language Models (VLMs) have emerged as promising tools in various healthcare applications. One area that remains relatively underexplored is their use in human activity recognition (HAR) for remote health monitoring. VLMs offer notable strengths, including greater flexibility and the ability to overcome some of the constraints of traditional deep learning models. However, a key challenge in applying VLMs to HAR lies in the difficulty of evaluating the...

ID: 2510.21424v1 cs.CL, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 REMONI: An Autonomous System Integrating Wearables and Multimodal Large Language Models for Enhanced Remote Health Monitoring

2025-10-28

Авторы:

Thanh Cong Ho, Farah Kharrat, Abderrazek Abid, Fakhri Karray

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

With the widespread adoption of wearable devices in our daily lives, the demand and appeal for remote patient monitoring have significantly increased. Most research in this field has concentrated on collecting sensor data, visualizing it, and analyzing it to detect anomalies in specific diseases such as diabetes, heart disease and depression. However, this domain has a notable gap in the aspect of human-machine interaction. This paper proposes REMONI, an autonomous REmote health MONItoring syste...

ID: 2510.21445v1 cs.CL, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 LightMem: Lightweight and Efficient Memory-Augmented Generation

2025-10-23

Авторы:

Jizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite their remarkable capabilities, Large Language Models (LLMs) struggle to effectively leverage historical interaction information in dynamic and complex environments. Memory systems enable LLMs to move beyond stateless interactions by introducing persistent information storage, retrieval, and utilization mechanisms. However, existing memory systems often introduce substantial time and computational overhead. To this end, we introduce a new memory system called LightMem, which strikes a bal...

ID: 2510.18866v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 OceanGym: A Benchmark Environment for Underwater Embodied Agents

2025-10-02

Авторы:

Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal ...

ID: 2509.26536v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.RO

arXiv PDF

📄 CoachMe: Decoding Sport Elements with a Reference-Based Coaching Instruction Generation Model

2025-09-17

Авторы:

Wei-Hsin Yeh, Yu-An Su, Chih-Ning Chen, Yi-Hsueh Lin, Calvin Ku, Wen-Hsin Chiu, Min-Chun Hu, Lun-Wei Ku

## Контекст Спорт — важная часть жизнедеятельности, способствующая физическому здоровью, развитию координации и самооценки. Однако для достижения высоких результатов необходимы качественные тренировки и корректировка техники. Одной из ключевых задач тренера является обнаружение ошибок в движениях и предоставление конструктивного фидбэка. Несмотря на развитие мультимодальных моделей, которые улучшают понимание движений, генерация точных и специфических для спорта инструкций остается трудной задачей. Особенностью данной области является необходимость в доступном, информативном и целевом фидбэке, который может помочь спортсмену в понимании и устранении двигательных ошибок. ## Метод Разработанная модель CoachMe использует референсный подход для разбора спортивных движений. Она анализирует различия между движениями спортсмена и стандартными движениями, учтя такие аспекты, как физические особенности и временные показатели. Такой подход позволяет модели обучаться с применением общих знаний о движениях, а затем применять их к конкретным типам спорта. Модель вырабатывает инструкции, которые не только становятся более конкретными для спорта, но и включают подробные описания ошибок и методы их устранения. ## Результаты За счет использования техники сравнения движений внутри специфических спортивных движений, CoachMe демонстрирует высокую точность в генерации инструкций. Например, в шахте этой модели удалось преобразовать общие модели распознавания движений в технические инструкции для спортсменов. Также были проведены эксперименты на фигурном катании. На тестировании показатель G-Eval показал, что CoachMe превосходит GPT-4o на 31.6% в оценке качества инструкций по фигурному катанию и на 58.3% в случае бокса. Эти результаты подтверждают эффективность модели в генерировании понятных и полезных инструкций. ## Значимость CoachMe может применяться в различных отраслях спорта, в том числе в фигурном катании, боксе и других спортивных дисциплинах. Ее преимущества заключаются в том, что она может обучаться на универсальных данных о движениях и применять их к конкретным видам спорта с ограниченным объемом тренировочных данных. Это увеличивает эффективность тренировок и позволяет спортсменам быстро корректировать свою технику. В будущем модель может быть расширена для других видов спорта и использована для создания интерактивных систем тренировочного контроля. ## Выводы CoachMe представляет собой прорыв в области корректировки техники в спорте, обеспечивая точные и информативные инструкции. Она применяет референсный подход, что позволяет

Annotation:

Motion instruction is a crucial task that helps athletes refine their technique by analyzing movements and providing corrective guidance. Although recent advances in multimodal models have improved motion understanding, generating precise and sport-specific instruction remains challenging due to the highly domain-specific nature of sports and the need for informative guidance. We propose CoachMe, a reference-based model that analyzes the differences between a learner's motion and a reference und...

ID: 2509.11698v1 cs.CL, cs.AI, cs.CV, cs.LG, I.2.7; I.2.10

arXiv PDF

📄 ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

2025-08-22

Авторы:

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

#### Контекст Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины. #### Метод ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ. #### Результаты Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы. #### Значимость Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об

Annotation:

Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM...

ID: 2508.14706v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

2025-08-09

Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.

Annotation:

Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...

ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

Показано 1 - 10 из 11 записей