📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments

2025-09-10

Авторы:

Jiahui Yang, Jason Jingzhou Liu, Yulong Li, Youssef Khaky, Kenneth Shaw, Deepak Pathak

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяются в промышленности, науке и быту. Однако создание эффективных систем планирования движений, которые могут реагировать на непредсказуемые изменения окружения, остается сложной задачей. Традиционные методы, такие как классические планиры, требуют полного знания окружения и часто оказываются медленными в динамичных сценариях. Зато новые технологии, основанные на нейронных сетях, могут оперировать непосредственно с данными из сенсоров, обеспечивая более реагирующие и реальности приближенные движения. Однако их универсальность и результаты в трудных сценариях часто остаются недостаточными. Наша мотивация заключается в разработке метода, который объединит точность классических методов с гибкостью и реактивностью новых моделей. ## Метод Мы предлагаем **Deep Reactive Policy (DRP)**, новую нейронную модель планирования движений, основанную на преобразователях (transformer). Для обучения DRP использовались 10 миллионов экспертных траекторий, созданных в симуляционных сценариях с различными условиями. Основной частью DRP является IMPACT — компонент, реализующий motion policy на основе преобразователей. Для повышения качества использовалась итеративная техника teacher-student fine-tuning, что позволило улучшить отклик при предотвращении столкновений с статическими препятствиями. Для реагирования на динамические препятствия во время выполнения использовался DCP-RMP — модуль, рассчитывающий цель движения в реальном времени с учетом взаимодействия с движущимися объектами. Эта модель позволяет DRP реагировать на ситуации в реальном времени и поддерживать высокую стабильность. ## Результаты Мы проверили DRP на серии задач, включающих кластерные сцены, движущиеся препятствия и затруднения в достижении целей. Результаты показали, что DRP достигает высокой успешности в решении этих задач по сравнению с классическими методами и другими моделями на основе нейронных сетей. Особенно выдающимися результатами DRP проявился в ситуациях с частичной наблюдаемостью и большим количеством динамических объектов. Мы также проверяли DRP на реальных роботах, и он показал стабильность и высокую скорость реакции. Данные результаты доступны на сайте проекта: https://deep-reactive-policy.com. ## Значимость DRP может быть применен в различных областях, где требуется высокая реактивность и точность движений в динамических окружениях. Например, в производстве, в сфере домохозяйств или в здравоохранении. Он обладает преимуществами по сравнению с классическими методами, такими как

Annotation:

Generating collision-free motion in dynamic, partially observable environments is a fundamental challenge for robotic manipulators. Classical motion planners can compute globally optimal trajectories but require full environment knowledge and are typically too slow for dynamic scenes. Neural motion policies offer a promising alternative by operating in closed-loop directly on raw sensory inputs but often struggle to generalize in complex or dynamic settings. We propose Deep Reactive Policy (DRP)...

ID: 2509.06953v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

2025-09-09

Авторы:

Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Yenan Lin, Hao Jiang, Kang Chen, Shuang Qiu

## Контекст Развитие 3D-моделей, имитирующих реальные ситуации, стало вызовом для современных исследований. Эти модели применяются в областях, таких как обеспечение искусственного интеллекта, самостоятельное вождение автомобилей, развлекательные продукты и другие. Более реалистичная симуляция, основанная на точной физике, может существенно снизить проблему разницы между симуляцией и реальностью, а также облегчить сбор информации о реальном мире. Традиционные ручные методы моделирования позволили создавать виртуальные 3D-сцены, однако современные подходы основываются на машинном обучении, которое способно генерировать 3D-миры на основе пользовательских инструкций. Целью данного исследования является описание LatticeWorld, инновационного фреймворка для создания динамичных 3D-миров, который объединяет легкие легковесные легковесные легковесные лэнгвидж модели (LLaMA-2-7B) и промышленно-классные рендеринговые системы (например, Unreal Engine 5). Он принимает текстовые описания и визуальные инструкции в качестве мультимодальных входных данных и генерирует большие, сложные миры с динамическими агентами, в том числе с высоким качеством визуализации и физических симуляций. ## Метод LatticeWorld предлагает интеграцию легковесных легковесных легковесных моделей с высококачественными рендеринговыми технологиями. Основная архитетктура фреймворка основывается на трех основных компонентах: (1) легковесная модель языка (LLaMA-2-7B) для обработки текстовых и визуальных входных данных, (2) промышленного рендеринга Unreal Engine 5 для динамического симулирования физики и (3) сложной архитектуры обработки мультимодальных данных, что позволяет генерировать подробные 3D-сцены. Метод предполагает начальную инициализацию сцены на основе текстовых инструкций, затем последовательное уточнение модели с использованием визуальных данных. Это позволяет создавать динамические интерактивные миры с высокой точностью визуализации и непосредственным взаимодействием с агентами. ## Результаты Используя этот подход, LatticeWorld был протестирован на широком спектре задач, включая генерацию сцен с высоким разрешением, мультиагентных интеракций и реалистичных физических симуляций. Конкретные эксперименты показали, что LatticeWorld достигает существенно более высокого уровня точности в сценах с разрешением $90\times$, сравнив с традиционными методами генерирования 3D-сцен. Эксперименты также показали намного вышу качество визуализации и возможность сжатых субъективных инструкций. Эти результаты подтверждают возможно

Annotation:

Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes,...

ID: 2509.05263v2 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation

2025-09-05

Авторы:

Yizhe Zhang, Qiang Chen, Tao Zhou

#### Контекст Современные технологии сегментации медицинских изображений обладают высокой точностью, но часто ориентированы на конкретные задачи, включая сегментацию полипов, ретинальных сосудов и грудных ганглионов. Эти специализированные модели достигают высоких результатов, но не всегда могут обеспечивать универсальное использование в различных задачах. Увеличение сложности задачи может привести к потере точности и уменьшению модели модели, что делает ее менее эффективной. В этом контексте возникает вопрос о потенциале общего назначения в области медицинских изображений, который мог бы установить модели для широкого круга задач. #### Метод Для оценки силы и слабых сторон общего назначения в медицинской сегментации изображений был проведен компаративный анализ. Авторы использовали современную общего назначения модель Gemini 2.5 Pro (также известную как Nano Banana) и сравнили ее с результатами специализированных моделей на задачах сегментации полипов, ретинальных сосудов и грудных ганглионов. Особое внимание было уделено к сценариям со зеро-шотом, когда модели отрабатывают без предварительного обучения на конкретных задачах. Для экспериментов были выделены самые простые и самые сложные случаи, определяемые точностью специализированных моделей. #### Результаты Результаты показали, что на простых случаях специализированные модели показали лучшую точность. Например, в сегментации ретинальных сосудов и полипов специалисты показали себя лучше. Однако на сложных случаях, когда специалисты могут провалиться, omnimodel Gemini 2.5 Pro стабильно демонстрирует высокую точность. Это связано с возможностью модели обрабатывать разнообразие данных и понимать трудные случаи, в которых специалисты терпят неудачу. Также были выявлены ситуации, в которых omnimodel имеет более точное восприятие анатомических фигур, чем специалисты. #### Значимость Эта работа открывает новые перспективы для использования общего назначения моделей в медицинских задачах. Они могут использоваться в качестве средств для усиления робастности моделей, особенно для выполнения сложных задач. Также их можно использовать для генерации анатомических данных, когда специалисты не могут это сделать. Это улучшает целостность медицинских изображений и может повысить точность диагностики. #### Выводы На основе проведенного анализа можно сделать вывод, что omnimodel может значительно повысить робастность системы, особенно на сложных случаях. Однако они еще не могут заменить специалисты во всех случаях. Будущие исследования будут направлены на улучшение точности и развитие моделей, которые сочетают

Annotation:

The emergence of powerful, general-purpose omnimodels capable of processing diverse data modalities has raised a critical question: can these ``jack-of-all-trades'' systems perform on par with highly specialized models in knowledge-intensive domains? This work investigates this question within the high-stakes field of medical image segmentation. We conduct a comparative study analyzing the zero-shot performance of a state-of-the-art omnimodel (Gemini 2.5 Pro, the ``Nano Banana'' model) against d...

ID: 2509.00866v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes

2025-08-27

Авторы:

Nilay Pande, Sahiti Yerramilli, Jayant Sravan Tamarapalli, Rynaa Grover

## Контекст Многомодальные большие языковые модели (МЛЛМ) показали ощутимый успех в области семантического описания изображений. Однако их возможности по глубокому математическому и пространственному рассуждению из изображений остаются практически неизученными. Этот фронтарный вопрос требует усилий по преодолению семантического шума и сосредоточения внимания на специализированных задачах. Математические сурфаце-плотсы представляют собой ключевую тестовую среду для такого рассуждения, так как они исключают семантический шум, присутствующий в натуральных изображениях. Однако их использование в качестве исследовательской площадки ограничивается отсутствием метрик для квантитативной оценки. Для закрытия этой лазурной дыры мы предлагаем MaRVL-QA (Mathematical Reasoning over Visual Landscapes), новую б benckmark, которая сосредотачивается на измерении глубины логического рассуждения на основе изображений. ## Метод MaRVL-QA состоит из двух задач, которые требуют глубокой пространственной и математической логики: "Топологическое Числение" и "Трансформационное Различие". Задача "Топологическое Числение" включает в себя идентификацию и счет пространственных особенностей, таких как максимумы и минимумы. "Трансформационное Различие" отвечает за распознавание примененных геометрических трансформаций. Для построения б benckmark была создана библиотека функций с четкими требованиями к чистоте логики и минимальному уровню амбигуности. Эти функции были преобразованы в изображения с помощью генератора графиков, чтобы создать набор данных, сохраняющий логику, но требующий высокой степени профессионального зрения. ## Результаты Мы провели эксперименты с MaRVL-QA с использованием нескольких современных МЛЛМ. Наши результаты показывают, что даже самые современные модели сталкиваются с значительными сложностями при выполнении этих задач. Они часто прибегают к грубым хормовцам, вместо того чтобы применять глубокое пространственное рассуждение. Это свидетельствует о недостатке в способности моделей к непосредственному выводу специализированных знаний из изображений. Наши результаты подчеркивают необходимость в развитии моделей с более глубокими возможностями пространственного рассуждения. ## Значимость MaRVL-QA может использоваться в качестве инструмента для измерения прогресса в области математического рассуждения на основе изображений. Он позволяет открывать ограничения текущих моделей и определять направления для их улучшения. Бенчмарк также может способствовать развитию новых методов, которые будут иметь более г

Annotation:

A key frontier for Multimodal Large Language Models (MLLMs) is the ability to perform deep mathematical and spatial reasoning directly from images, moving beyond their established success in semantic description. Mathematical surface plots provide a rigorous testbed for this capability, as they isolate the task of reasoning from the semantic noise common in natural images. To measure progress on this frontier, we introduce MaRVL-QA (Mathematical Reasoning over Visual Landscapes), a new benchmark...

ID: 2508.17180v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

2025-08-27

Авторы:

Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных и нестанционарных условиях. Однако достижение точных и адаптивных захватов остается сложной задачей, требующей значительных усилий в области калибровки и предварительной настройки. Эти ограничения существенно сужают потенциал роботов в различных сферах, включая промышленность, поисковые и спасательные операции. Целью настоящего исследования является разработка методологии, позволяющей улучшить точность и адаптивность захвата, используя глубокое обучение и симуляционные модели. ## Метод Разработанная методология основывается на методе sim-to-real, который минимизирует необходимость постоянного применения физических данных. Для этого был создан симуляционный модельный пайплайн в среде Genesis. Модель генерирует набор данных, включающий пиксельно аннотированные карты качества захвата, используя RGB, дебатские карты и другие источники данных. Затем эти данные использовались для тренировки настраиваемой модели CNN с архитектурой U-Net. Эта модель оценивает качество захвата, выдавая графический heatmap с оптимальным точкой захвата. ## Результаты Разработанный подход был протестирован на роботе с четырьмя ногами. Результаты показали, что робот может самостоятельно назначить маршрут к мероприятию, определить позицию объекта с помощью RGB и дебатских карт, сгенерировать оптимальную точку захвата с помощью глубокого обучения, а затем выполнить точный захват. Эксперименты продемонстрировали эффективность разработанной системы в решении сложных задач захвата в реальном мире. ## Значимость Разработанная методология открывает новые возможности для расширения практического применения легкоходных роботов в таких областях, как промышленность, автоматизация, поисковые и спасательные операции. Основное преимущество заключается в своей способности обучаться на симуляционных моделях и применять это в реальном мире, что значительно сокращает время настройки и развитие новых приложений. ## Выводы Результаты исследования подтверждают, что систематическое использование моделей глубокого обучения в сочетании с симуляционными моделями может улучшить возможности захвата легкоходных роботов. Будущие исследования будут направлены на расширение области применения методологии и увеличение точности захвата в различных средах.

Annotation:

Quadruped robots have emerged as highly efficient and versatile platforms, excelling in navigating complex and unstructured terrains where traditional wheeled robots might fail. Equipping these robots with manipulator arms unlocks the advanced capability of loco-manipulation to perform complex physical interaction tasks in areas ranging from industrial automation to search-and-rescue missions. However, achieving precise and adaptable grasping in such dynamic scenarios remains a significant chall...

ID: 2508.17466v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

2025-08-27

Авторы:

Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen, Ziwei Wang, Yansong Tang, Siyuan Huang

#### Контекст Улучшение производительности роботов в задачах робототехнического манипулирования является ключевым подходом для решения широкого круга задач, от производственной автоматизации до помощи роботам в домашних условиях. Однако традиционные подходы, основанные на наблюдениях и действиях в реальном мире, требуют больших объемов данных и долгого обучения, что делает их неэффективными. Одним из продвинутых подходов является обучение роботов в мире моделей, где среда окружающего мира представляется в виде мировой модели. Однако существующие мировые модели часто используют мозговые хаки или генерируют недостаточно точные представления. Наша модель, Gaussian World Model (GWM), предлагает развитие этого подхода, используя принципы гауссовых процессов для точного предсказания будущих сцен. #### Метод GWM использует **diffusion transformer**, который основывается на принципах гауссовых процессов для предсказания будущих сцен. Модель 3D-вариационного автокодировщика позволяет визуально представить сцены, а трансформер обеспечивает точное представление. Была предложена концепция **Gaussian Splatting**, которая позволяет генерировать 3D-сцены с большой контрастностью и оптимальным использованием ресурсов. Таким образом, GWM может генерировать точные представления трехмерной среды, что необходимо для улучшения стратегии робота. #### Результаты Мы провели эксперименты в симуляции и реальном мире, используя различные сцены и действия. Результаты показали, что GWM может предсказывать точные сцены с учетом различных действий робота. Эти предсказания имеют низкую ошибку и повторяемость. Мы также провели сравнение с другими моделями, и результаты показали, что GWM превосходит их в предсказании точности и времени обработки. Наша модель предоставила значительное улучшение в параметрах качества и эффективности. #### Значимость GWM может быть применена в различных областях, включая имитационное обучение, моделирование визуальных сцен, прогнозирование дальнейшего поведения робота. Она предоставляет высокую точность и эффективность, что делает ее полезной в развитии моделей манипулирования. Кроме того, GWM может быть использована в качестве робототехнического симулятора, что повышает производительность. Это открывает новые возможности для решения задач в связи с роботом, что делает GWM ключевым инструментом в этой области. #### Выводы Мы представили новую модель, GWM, которая значительно улучшила точность предсказания будущих сцен в робототехническом манипулировании. Мы также продемонстрировали значительные преимущества GWM по сравнению с другими моделями.

Annotation:

Training robot policies within a learned world model is trending due to the inefficiency of real-world interactions. The established image-based world models and policies have shown prior success, but lack robust geometric information that requires consistent spatial and physical understanding of the three-dimensional world, even pre-trained on internet-scale video sources. To this end, we propose a novel branch of world model named Gaussian World Model (GWM) for robotic manipulation, which reco...

ID: 2508.17600v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

2025-08-27

Авторы:

Hanzhi Chang, Ruijie Zhu, Wenjie Chang, Mulin Yu, Yanzhe Liang, Jiahao Lu, Zhuoyuan Li, Tianzhu Zhang

## Контекст Одна из основных задач в области компьютерного зрения и графики — восстановление поверхностей. Несмотря на прогресс в этой области, существующие методы сталкиваются с трудностями при восстановлении точной геометрии сцены при очень существенном сокращении количества входных просмотров (sparse-view input). Это ограничивает применение этих методов в реальных сценариях, где данные могут быть неполными или недостаточно четкими. Мы предлагаем MeshSplat, новый подход к решению этой проблемы, основанный на идее использования 2D Gaussian Splatting (2DGS) как связующего звена между неучитываемым нового вида (novel view synthesis) и учтенной геометрической информацией. ## Метод MeshSplat использует 2DGS для предсказания изображений с новым видом и извлечения геометрических признаков. Шаг первый — обучение глубокой нейронной сети для предсказания 2DGS на основе входных просмотров. Второй шаг — использование прогнозируемых 2DGS для визуализации изображений с новым видом. Для точности предсказания входят в расчет Weighted Chamfer Distance Loss, который устраняет ложные минимумы в пространстве глубины, и Normal Prediction Network, которая регулирует ориентацию 2DGS в соответствии с нормальными векторами, вычисленными монокулярным сеткой. Эти компоненты обеспечивают точное восстановление геометрии сцены даже при очень существенном урезании количества входных просмотров. ## Результаты Мы проводили значительные эксперименты для проверки MeshSplat. Для этого использовались разнообразные данные, включая сцены с большим количеством просмотров и сцены, созданные с очень небольшим числом просмотров. Наши результаты показывают, что MeshSplat превосходит существующие методы по метрикам качества восстановления (например, Chamfer Distance и F-Score). Особое внимание уделено сценариям с малой доступной информацией, где метод MeshSplat показывает самые хорошие результаты. ## Значимость MeshSplat может применяться в различных областях, включая виртуальную реальность, анимацию, архитектурные модели и другие приложения, требующие точного восстановления геометрических форм на основе неполных входных данных. Основное преимущество MeshSplat заключается в его общивости и устойчивости к данным с малой доступностью, что делает его выгодным для реальных сценариев, когда входные данные не полны. Мы также выделяем потенциал MeshSplat в улучшении существующих технологий по визуализации и моделированию. ## Выводы MeshSplat представляет собой прорыв в области общивой реконструкции геометрии сцены при очень существенном сокращении количества просмотров. Мы продемонстировали его эффективность на различных сценах и данных. Наша работа

Annotation:

Surface reconstruction has been widely studied in computer vision and graphics. However, existing surface reconstruction works struggle to recover accurate scene geometry when the input views are extremely sparse. To address this issue, we propose MeshSplat, a generalizable sparse-view surface reconstruction framework via Gaussian Splatting. Our key idea is to leverage 2DGS as a bridge, which connects novel view synthesis to learned geometric priors and then transfers these priors to achieve sur...

ID: 2508.17811v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Label Uncertainty for Ultrasound Segmentation

2025-08-23

Авторы:

Malini Shivaram, Gautam Rajendrakumar Gare, Laura Hutchins, Jacob Duplantis, Thomas Deiss, Thales Nogueira Gomes, Thong Tran, Keyur H. Patel, Thomas H Fox, Amita Krishnan, Deva Ramanan, Bennett DeBoisblanc, Ricardo Rodriguez, John Galeotti

## Контекст Медицинская имагинг стал важной частью диагностики и лечения многих заболеваний. Одна из самых распространенных задач в этой области — сегментация областей интереса на имажах, таких как легочные ультразвуковые сканы (LUS). Однако существуют серьезные вызовы, связанные с тем, что эти задачи часто требуют интерпретации интервьювером, что приводит к несогласованности в аннотации данных. Например, в LUS часто встречаются области с значительной неоднозначностью, что делает задачу аннотации сложной даже для опытных клиников. Эта неоднозначность приводит к проблеме **label uncertainty**, которая влияет на качество обучения и моделирования AI. Мы предлагаем новый подход, который использует **per-pixel confidence values**, представленные экспертами во время аннотации, для точной моделирования этой неопределенности и улучшения сегментационных моделей. ## Метод Мы предлагаем **novel annotation protocol**, в котором клиники указывают не только лейблы, но и **confidence values** для каждого пикселя. Эти значения представляют собой уверенность клиников в том, что пиксель принадлежит той или иной категории. Мы используем эти показатели в тренировочном процессе AI-моделей вместо обычных лейблов. Наше решение включает в себя **training pipeline**, где алгоритмы обучаются на сгенерированных лейблах с учетом уверенности клиников. Мы также изучаем различные **thresholding approaches** для работы с этими лейблами, что позволяет контролировать точность во время обучения. Этот подход позволяет не только улучшить сегментацию, но и демонстрировать значительные положительные результаты на задачах клинического применения. ## Результаты Мы провели эксперименты на данных LUS, используя различные подходы к обработке уверенности в аннотациях. Наши результаты показывают, что **high confidence thresholds** (например, 60%) дают значительно лучшие результаты по сравнению с низкими порогами (например, 50%). Мы также демонстрируем, что модели, обученные на этих уверенных пикселях, не только показывают лучшую сегментацию, но и позволяют предсказать клинически важные параметры: **S/F oxygenation ratio**, классификацию изменений в S/F ratio и предсказание 30-дневного перепоступления пациентов в больницу. Эти результаты подтверждают, что **confidence-aware training** не только улучшает качество сегментации, но и позволяет моделям выполнять критичные задачи в медицинской практике. ## Значимость Наш подход может быть применен в различных областях медицинской имагинга, где неоднозначность в аннотации является общей проблемой. Это включает LUS, которая часто используется для оценки респираторных заболеваний. Особый потенциал виден в улучшении **downstream clinical tasks**, таких как оценка индекса S/F и прогнозирова

Annotation:

In medical imaging, inter-observer variability among radiologists often introduces label uncertainty, particularly in modalities where visual interpretation is subjective. Lung ultrasound (LUS) is a prime example-it frequently presents a mixture of highly ambiguous regions and clearly discernible structures, making consistent annotation challenging even for experienced clinicians. In this work, we introduce a novel approach to both labeling and training AI models using expert-supplied, per-pixel...

ID: 2508.15635v1 eess.IV, cs.AI, cs.CV, cs.LG, stat.ML

arXiv PDF

📄 ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

2025-08-22

Авторы:

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

#### Контекст Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины. #### Метод ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ. #### Результаты Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы. #### Значимость Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об

Annotation:

Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM...

ID: 2508.14706v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

2025-08-19

Авторы:

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk

## Контекст Бонгард-РВР+: Реальность в Формах Догадки — Научная Статья, Опубликованная В 2024 Году -------------------------------------------------------------------------------------- В статье рассматривается создание новых тестовых датасетов для эмпирической оценки моделей глубокого визуального рассуждения, основываясь на Бонгардских проблемах (BPs). Бонгардские проблемы — это система задач, требующих визуального рассуждения для определения абстрактных понятий на основе небольшого количества примеров и описания их естественным языком. Данная работа построена на предыдущих исследованиях, где использовались синтетические изображения для описания абстрактных понятий. Впервые была предложена методология для построения реального зоопарка абстрактных понятий с помощью генеративных моделей визуальной лингвистики. ## Метод Бонгард-РВР+ данных созданы на основе живых изображений, созданных с помощью Пиктрал-12B (Pixtral-12B), генеративной модели текста, которая берет существующие изображения и описания, а затем генерирует новые изображения, которые соответствуют заданным описаниям. Далее, Flux.1-dev (Flux.1-dev) — модель, генерирующая изображения на основе текстовых описаний — используется для создания подробных, живых изображений, которые подкрепляют текстовые описания заданных понятий. Эти изображения тщательно проверяются вручную, чтобы убедиться в том, что они соответствуют предполагаемым абстрактным понятиям. ## Результаты Было проведено несколько экспериментов с различными моделями визуальной лингвистики, включая CLIP, Stable Diffusion, и другие. Эти модели были оценены на изначальной задаче — распознавании и описании абстрактных понятий в синтетических изображениях. Оказалось, что модели способны распознавать широкие классы абстрактных понятий, но в то же время сталкиваются с трудностями при распознавании тонких различий в абстрактных характеристиках, что вызывает недостаточную точность в решении задач. ## Значимость Бонгард-РВР+ может быть применен в различных областях, таких как тонкое визуальное рассуждение, глубокое понимание естественного языка, а также в обучении моделей, которые должны понимать тонкие абстрактные различия в изображениях. Этот датасет может стать важным инструментом для развития моделей, которые не только распознают широкие классы объектов, но и умеют работать с тонкими различиями в описании этих объектов. ## Выводы В итоге, Бонгард-РВР+ — это новый тестовый датасет, который обогащает набор данных для тестирования моделей визуального рассуждения, используя реальные

Annotation:

Bongard Problems (BPs) provide a challenging testbed for abstract visual reasoning (AVR), requiring models to identify visual concepts fromjust a few examples and describe them in natural language. Early BP benchmarks featured synthetic black-and-white drawings, which might not fully capture the complexity of real-world scenes. Subsequent BP datasets employed real-world images, albeit the represented concepts are identifiable from high-level image features, reducing the task complexity. Differen...

ID: 2508.12026v1 cs.AI, cs.CV, cs.LG

arXiv PDF

Показано 101 - 110 из 124 записей