📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Mohammad Hosseini, Maryam M. Shanechi

Исходные данные: Название: Dynamical Modeling of Behaviorally Relevant Spatiotemporal Patterns in Neural Imaging Data Авторы: Mohammad Hosseini, Maryam M. Shanechi ## Контекст Область исследования связана с использованием high-dimensional imaging neural activity, таких как widefield calcium и functional ultrasound imaging, для понимания связи между brain activity и behavior. Эти методы обеспечивают богатую информацию о brain dynamics, но их моделирование сложно ввиду высокой размерности, сложных spatiotemporal dependencies и проявления behaviorally irrelevant dynamics. Некоторые существующие методы применяют пре-processing для получения low-dimensionalных representations, но это может привести к искажению или утере behaviorally relevant information. Моделирование neural dynamics в этой области является ключевым для понимания связи между brain activity и behavior, но существующие модели недостаточно эффективны в этих задачах. ## Метод Мы предлагаем SBIND (Spatio-Temporal Dynamics Modeling with Behaviorally Relevant Disentangling) — новую data-driven deep learning фреймворк для modeling spatiotemporal dependencies в neural images. Фреймворк SBIND имеет две основные функциональные части: 1. **Modeling spatiotemporal dependencies**: SBIND использует deep learning модели для выявления local и long-range spatiotemporal dependencies в neural images. 2. **Behaviorally relevant disentangling**: Модель выделяет и dissocciates behaviorally relevant dynamics из других neural dynamics. Мы описываем архитектуру SBIND и ее применение к widefield imaging datasets. Также мы расширяем SBIND для functional ultrasound imaging, которая широко используется в recent studies. ## Результаты Мы проводили эксперименты с widefield imaging datasets, включая datasets с behavioral experiments. Мы сравниваем SBIND с existing models, такими как PCA-based approaches и traditional dynamical models. Результаты показали, что SBIND вышедшее отлично model local и long-range spatiotemporal dependencies в neural images. Более того, SBIND эффективно dissociates behaviorally relevant dynamics, что приводит к значительному улучшению в neural-behavioral prediction. Мы также проводили эксперименты с functional ultrasound imaging и показали, что SBIND может эффективно работать с этой модностью, которая прежде была практически не исследована. ## Значимость SBIND может применяться в разных областях, таких как neuroscience, neuromodulation и neurorobotics. Он предоставляет эффективный инструмент для моделирования и анализа neural dynamics, обеспечивая новые возможности для понимания neural mechanisms underlying behavior. Основное преимущество SBIND заключается в том, что он может диссентировать behaviorally relevant dynamics из сложных spatiotemporal dependencies, что достигается без необходимости предварительного preprocessing. ## Выводы Мы представили SBIND — новую deep learning фреймворк для modeling spatiotemporal dependencies в neural images. Наши результаты показали, что SBIND может эффективно model local и long-range spatiotemporal dependencies, dissociate behaviorally relevant dynamics и выдавать лучшие результаты в neural-behavioral prediction. Будущие исследования будут направлены на улучшение модели, ее распространение на другие imaging modalities и углубление понимания связи между neural activity и behavior.
Annotation:
High-dimensional imaging of neural activity, such as widefield calcium and functional ultrasound imaging, provide a rich source of information for understanding the relationship between brain activity and behavior. Accurately modeling neural dynamics in these modalities is crucial for understanding this relationship but is hindered by the high-dimensionality, complex spatiotemporal dependencies, and prevalent behaviorally irrelevant dynamics in these modalities. Existing dynamical models often e...
ID: 2509.18507v1 q-bio.NC, cs.AI, cs.CV, cs.LG
Авторы:

Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного применения интеллектуальных систем в реальном мире. Однако существующие подходы страдают от низкой скорости адаптации к новым условиям, неэффективной планировке и частых ошибках в выборе маршрутов. Эти проблемы ограничивают производительность и надежность роботов в пространстве сложных визуальных и символических задач. В статье представлен подход VLN-Zero, который стремится развить новый стандарт для эффективного и быстрого планирования в незнакомых средах. ## Метод VLN-Zero представляет собой двухфазную стратегию: фаза эксплорации и фаза деплоймента. В первой фазе используется визуально-языковая модель (Visual Language Model, VLM) для эффективного построения сценарных графов, основанных на контекстно-семантических моделях. На второй фазе внедряется гибкое тестирование новых маршрутов с помощью моделей рассуждения, которые учитывают обеспечение реального времени с помощью кэша доступных путей. Это позволяет уменьшить время работы моделей и сделать планирование более устойчивым к ошибкам. Такой подход значительно увеличивает скорость и точность взаимодействия с окружением. ## Результаты В экспериментах использовалась комбинация различных сценариев, в том числе незнакомых вариантов сред, где были протестированы различные модели навигации. Результаты показали, что VLN-Zero достигает 2 раза выше успешности в сравнении с состоянием технологии в нулевых подходах к роботовой навигации. Он также показал значительное сокращение времени в перемещениях и уменьшил количество вызовов моделей визуального распознавания. В реальных условиях навигации VLN-Zero показал выигрыш в скорости и точности в 30-50% по сравнению с предыдущими моделями. ## Значимость Подход VLN-Zero направлен на решение проблемы эффективной адаптации в незнакомых средах, что важно для широкого спектра приложений, включая домохозяйства, промышленные работы и транспортные системы. Он предлагает новую модель, которая сочетает в себе символическое планирование, эффективное использование моделей VLM и устойчивость к ошибкам. Это открывает путь к более надежной и удобной автоматизации в сложных средах. ## Выводы VLN-Zero демонстрирует потенциал для существенного улучшения навигационных систем в незнакомых средах. Он быстрее, эффективнее и надежнее существующих подходов. Будущие исследования будут сфокусированы на улучшении символического планирования, увеличении скорости реакции и увеличении модели надёжности в много
Annotation:
Rapid adaptation in unseen environments is essential for scalable real-world autonomy, yet existing approaches rely on exhaustive exploration or rigid navigation policies that fail to generalize. We present VLN-Zero, a two-phase vision-language navigation framework that leverages vision-language models to efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic navigation. In the exploration phase, structured prompts guide VLM-based search toward informative and diverse tra...
ID: 2509.18592v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY
Авторы:

Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen

#### Контекст Синтез изображений и видео посредством развитых моделей размытия (diffusion models) продемонстрировал заметный прогресс в области графического дизайна и генерации контента. Однако, несмотря на достижения в области синтеза изображений, остается вызов создания эффективных и гибких методов для контроля над текстовыми признаками. Одним из ключевых задач развития является достижение точного и прозрачного управления (fine-grained control) зависимостей между текстовыми признаками и результирующими изображениями. Существующие подходы, такие как Concept Slider и Attribute Control, требуют значительных ресурсов для обучения, ограничивая их производительность и повторное использование. Необходимость в этих преимуществах привела к разработке Text Slider — нового подхода, который устраняет ограничения существующих методов. #### Метод Text Slider представляет собой новую архитектуру, основанную на LoRA (Low-Rank Adaptation), которая позволяет модифицировать текстовые признаки в предварительно обученной модели текстового энкодера без необходимости долговременного обучения. Эта архитектура строится на том, чтобы идентифицировать низкоранговые направления в представлении текста, которые соответствуют конкретным визуальным признакам. Текстовый энкодер взаимодействует с моделью размытия с помощью этих адаптированных слайдеров, позволяя гибким и мгновенным изменению текстовых признаков в реальном времени. Данная методология позволяет сохранить прозрачность и поддерживать структуру входных данных, не требуя дорогостоящей переучетки модели. #### Результаты Результаты экспериментов показали, что Text Slider превосходит существующие подходы в эффективности. Он обеспечивает 5-кратное ускорение обучения по сравнению с Concept Slider и 47-кратное ускорение по сравнению с Attribute Control. Также, Text Slider требует гораздо меньшего количества памяти GPU, что позволяет его легко адаптировать к различным моделям размытия без дополнительных изменений. Эксперименты подтвердили, что Text Slider обеспечивает управление несколькими признаками с высоким качеством и насыщенностью, позволяя визуально очищать изображения и видео, сохраняя их структуру. #### Значимость Проект Text Slider может быть применен в различных областях, включая графический дизайн, видеомонтаж, приложения в реальном времени и образовательный контент. Его основные преимущества заключаются в том, что он предлагает более высокую производительность, гибкость и экономичность по сравнению с предыдущими подходами. В целом, это предлагает новые возможности для пользователей, позволяя легко управлять визуальными свойствами в реальном времени, в том числе для глубокой настройки
Annotation:
Recent advances in diffusion models have significantly improved image and video synthesis. In addition, several concept control methods have been proposed to enable fine-grained, continuous, and flexible control over free-form text prompts. However, these methods not only require intensive training time and GPU memory usage to learn the sliders or embeddings but also need to be retrained for different diffusion backbones, limiting their scalability and adaptability. To address these limitations,...
ID: 2509.18831v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM
Авторы:

Georgii Kolokolnikov, Marie-Lena Schmalhofer, Sophie Goetz, Lennart Well, Said Farschtschi, Victor-Felix Mautner, Inka Ristow, Rene Werner

```## Контекст Нейрофиброматоз типа 1 (NF1) — это генетическое заболевание, обусловленное многочисленными генетическими изменениями в гене NF1, в результате которых образуется большое количество нейрофибром (NF). Нейрофибромы — это мягкие тканевые опухоли, которые могут расти во всех частях тела, включая кожу, нервную систему и другие органы. Выявление и мониторинг NF во время лечения является ключевым аспектом лечения NF1. Тотальная магнитно-резонансная импульсия (WB-MRI) является клиническим стандартом для выявления и длительного наблюдения за ростом NF. Однако существующие методы интерактивной сегментации не могут эффективно обрабатывать многочисленные NF на WB-MRI с высокой точностью и масштабом. В данном исследовании предлагается новый подход, называемый MOIS-SAM2, который расширяет предыдущую модель Segment Anything Model 2 (SAM2) для многообъектной интерактивной сегментации NF на WB-MRI. Модель MOIS-SAM2 предназначена для решения проблемы схожести с экспертными методами и масштабируемости. ```
Annotation:
Background and Objectives: Neurofibromatosis type 1 is a genetic disorder characterized by the development of numerous neurofibromas (NFs) throughout the body. Whole-body MRI (WB-MRI) is the clinical standard for detection and longitudinal surveillance of NF tumor growth. Existing interactive segmentation methods fail to combine high lesion-wise precision with scalability to hundreds of lesions. This study proposes a novel interactive segmentation model tailored to this challenge. Methods: We ...
ID: 2509.19277v2 eess.IV, cs.AI, cs.CV, cs.LG
Авторы:

Hrishav Bakul Barua, Kalin Stefanov, Ganesh Krishnasamy, KokSheik Wong, Abhinav Dhall

#### Контекст Область исследования включает в себя задачу перевода Low Dynamic Range (LDR) в High Dynamic Range (HDR), которая является фундаментальной для многих приложений в области вычислительной графики и компьютерного зрения. Существующие методы, основанные на глубоких нейронных сетях, сталкиваются с ограничениями, так как не полностью учитывают взаимодействие световых характеристик, материалов и геометрии сцены. Эти факторы существенно влияют на точность и качество полученных HDR-изображений. В статье предлагается исследовать новый подход, который призван улучшить точность HDR-реконструкции, учитывая эти составляющие. #### Метод В ходе работы предложен метод под названием **PhysHDR**, основанный на технологии латентной диффузии. Он использует сверточные модели для денойсинга LDR-изображений с учетом информации о свете, глубине и материалах. Модель включает оригинальный генеративный процесс, который учитывает не только яркость и цвет, но и отражение и рассеяние света на различных материалах. Архитектура модели включает слои для учитывания материальных свойств и интеграции информации о глубине и отражении света. Это позволяет создавать более точные и физически достоверные HDR-изображения. #### Результаты В экспериментах использовались широкие данные LDR-HDR с различными материалами и световыми условиями. Метод PhysHDR был сравнен с несколькими современными методами, включая GAN-оптимизированные модели и синтетические методы. Результаты показали, что PhysHDR превосходит другие методы по метрикам качества и точности HDR-реконструкции. Особое внимание было уделено измерению визуального качества интерполированных HDR-изображений, где PhysHDR показал существенное преимущество. #### Значимость Предложенный подход может быть применен в различных областях, таких как виртуальная реальность, игровая индустрия, а также в приложениях для смартфонов и дронов. Одним из ключевых преимуществ является увеличение точности HDR-реконструкции за счет учета материальных свойств. Это может привести к более реалистичным изображениям в приложениях, где HDR-технологии играют ключевую роль. В будущем можно предположить расширение применения этой модели в автоматизированные системы, включающие в себя технологии распознавания и визуализации. #### Выводы PhysHDR доказал свою эффективность в HDR-реконструкции, обеспечивая более точные и физически достоверные результаты по сравнению с современными методами. Он подчеркнул важность учета материальных свойств и световых характеристик при реконструкции HDR-изображений. Будущими направлениями иссле
Annotation:
Low Dynamic Range (LDR) to High Dynamic Range (HDR) image translation is a fundamental task in many computational vision problems. Numerous data-driven methods have been proposed to address this problem; however, they lack explicit modeling of illumination, lighting, and scene geometry in images. This limits the quality of the reconstructed HDR images. Since lighting and shadows interact differently with different materials, (e.g., specular surfaces such as glass and metal, and lambertian or dif...
ID: 2509.16869v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM, eess.IV, Artificial intelligence, Computer vision, Machine learning, Deep learning, I.3.3; I.4.5
Авторы:

Neslihan Kose, Anthony Rhodes, Umur Aybars Ciftci, Ilke Demir

## Контекст Глубокие подделки (deepfakes) — это синтезированные медиа-контент, создаваемый с помощью развитых генерирующих моделей. Они могут использоваться для подделки лиц, голосов или действий, что приводит к ухудшению доверия в онлайн-содержимое. Deepfake-детекторы были предложены для борьбы с этим явлением. Однако некоторые детекторы могут неправильно классифицировать поддельные материалы как реальные или наоборот, что делает их недостоверными. Это влечет за собой проблемы в понимании источника синтезированного медиа-контента. В настоящей работе предлагается новая методология для оценки неопределенности в системах deepfake-детекторов и их потенциальном применении для определения источника синтезированных материалов. ## Метод Для изучения неопределенности в системах deepfake-детекторов и генерирующих моделей использовалась современная архитектура сетей бейзеновских нейронных сетей (Bayesian Neural Networks). Для оценки неопределенности в моделях рассматривались две части: **алетрическая неопределенность** (связанная с разнообразием данных) и **эпистемическая неопределенность** (связанная с недостатком знаний в модели). Для моделирования этих неопределенностей использовался метод Monte Carlo Dropout, который позволяет получить распределение весов и предсказаний, а не однозначные оценки. Методы экспериментов включали традиционную классификацию (реальные vs поддельные материалы), многоклассовую классификацию (источник генерирующей модели), а также анализ уверенности в пикселях и регионах. Эти методы были применены к двум разным наборам данных с девятью разными генерирующими моделями. ## Результаты На основе проведенных экспериментов было получено несколько выводов. Во-первых, полученные уверенности от разных моделей варьировались в зависимости от того, какая генерирующая модель была использована для создания материала. В-вторых, некоторые модели проявляли высокую уверенность в классификации, которая оказалась не верна. Например, на одном наборе данных одна модель детектора выдавала сильно неверные предсказания, в то время как другая модель детектора показывала более точные результаты. Это отражалось в различных метриках неопределенности. Кроме того, анализ уверенности на уровне пикселей показал, что некоторые генерирующие модели оставляют очевидные "артефакты", которые могут быть использованы для определения источника. Также были проведены абляционные исследования, показавшие, что некоторые элементы моделей играют ключевую роль в точности классификации. ## Значимость Результаты этого исследования имеют большое з
Annotation:
As generative models are advancing in quality and quantity for creating synthetic content, deepfakes begin to cause online mistrust. Deepfake detectors are proposed to counter this effect, however, misuse of detectors claiming fake content as real or vice versa further fuels this misinformation problem. We present the first comprehensive uncertainty analysis of deepfake detectors, systematically investigating how generative artifacts influence prediction confidence. As reflected in detectors' re...
ID: 2509.17550v1 cs.AI, cs.CV, cs.LG
Авторы:

Zichao Hu, Chen Tang, Michael J. Munje, Yifeng Zhu, Alex Liu, Shuijing Liu, Garrett Warnell, Peter Stone, Joydeep Biswas

## Контекст Это исследование ориентируется на задачу позволить роботам эффективно руководствоваться инструкциями в динамичных средах. Роботы, отвечающие на инструкции, должны уметь интерпретировать и выполнять сложные комбинации заданий, такие как "переспать пешехода, оставаясь на правой стороне дороги." Такие задачи характеризуются высокой сложностью из-за возможных комбинаций инструкций, возрастающих экспоненциально вместе с расширением набора роботских способностей. Традиционные подходы, такие как визуальные модели, либо не способны обрабатывать такие комбинации, либо требуют ненагруженных демонстраций для каждого отдельного движения. Это ограничение громоздко и неэффективно. Мотивируя надеждой на продвижение в области робототехники, авторы предлагают решение, которое обеспечивает более гибкое и эффективное следование инструкциям. ## Метод Методология ComposableNav основывается на понятии "диффузионных моделей", которые позволяют разделить сложные задачи на отдельные движения — "мотививные примитивы." Каждый примитив обучается отдельно с помощью супервизованного предварительного обучения. Затем эти мотививные примитивы объединяются в различные комбинации во время работы, чтобы удовлетворить новые и непредсказуемые задачи. Для обучения используется два этапа: предварительное супервизованное обучение для обучения основного шаблона диффузии, а затем рефинтренирование через расширенное подкрепление, чтобы приспособить модель к отдельным примитивам. Это позволяет роботу вырабатывать комбинации движений, не имея предварительных демонстраций для каждого примитива. ## Результаты Исследования проводились как в симуляционной, так и в реальной среде. Запуском робота были использованы набор инструкций, включающих разные комбинации, невиденные во время обучения. Результаты показали, что ComposableNav не только успешно удовлетворяет комбинации, но и превосходит другие подходы, такие как нетрадиционные политики на основе визуальных моделей и стохастические базисы составления карт. Результаты показывают, что робот способен регулярно принимать правильные решения в разных ситуациях, таких как переспать пешехода и оставаться на предустановленной стороне дороги. Особенно выделяется высокая гибкость ComposableNav при обработке непредсказуемых задач. ## Значимость ComposableNav имеет широкие возможности применения в робототехнике, включая водительские системы, новые технологии в здравоохранении, домашние роботы и системы автоматизации на производстве. Это решение обеспечивает более эффективный и гибкий принцип действия в сложных и динамических средах. В отличие от других подходов, ComposableNav
Annotation:
This paper considers the problem of enabling robots to navigate dynamic environments while following instructions. The challenge lies in the combinatorial nature of instruction specifications: each instruction can include multiple specifications, and the number of possible specification combinations grows exponentially as the robot's skill set expands. For example, "overtake the pedestrian while staying on the right side of the road" consists of two specifications: "overtake the pedestrian" and ...
ID: 2509.17941v1 cs.RO, cs.AI, cs.CV, cs.LG
Авторы:

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitain Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen

## Контекст В современных производственных процессах требуется надежная и адаптивная помощь, которая могла бы функционировать в условиях ограниченных вычислительных ресурсов, нестабильной сетевой связи и высоких требований к конфиденциальности. Такие ситуации часто встречаются в производственных фабриках, где необходимо оперативное решение задач, таких как сборка компонентов, устранение неполадок, поиск запчастей и проведение техобслуживания. Однако существующие решения часто не могут обеспечить удовлетворительный уровень надежности и точности, особенно в условиях ограниченного доступа к информации и высоких требований к безопасности. ## Метод MICA (Multi-Agent Industrial Coordination Assistant) представляет собой систему, основанную на логике восприятия и речевом взаимодействии. Она обеспечивает реального времени помощь в различных производственных задачах, включая сборку, устранение неполадок, поиск запчастей и техобслуживание. Для обеспечения точности и корректности помощи MICA использует систему, состоящую из пяти специализированных языковых агентов, которые делятся обязанностими по разным аспектам работы. Каждый агент проходит аудит специального модуля безопасности, чтобы гарантировать соответствие решений производственным стандартам. Для повышения точности понимания и выполнения шагов в процессе вводится Adaptive Step Fusion (ASF) — метод, который динамически комбинирует экспертные решения с адаптацией на основе реального ввода пользователя в форме речи. ## Результаты В ходе экспериментов подтверждена эффективность MICA в решении производственных задач. Был разработан новый бенчмарк для оценки многоагентных систем в производственных условиях, а также определены метрики, позволяющие сравнивать различные структуры координации. Результаты экспериментов показали, что MICA показывает выше уровень успешности выполнения задач, надежности и отзывчивости по сравнению с базовыми системами. Эти результаты были достигнуты при выполнении задач на оффлайн-устройствах, что демонстрирует высокую пригодность MICA для работы в производственных условиях. ## Значимость MICA может быть применена в различных производственных сферах, где требуется надежная и автономная помощь в решении задач. Она обеспечивает высокую точность выполнения задач, надежность и безопасность, что делает ее привлекательной для предприятий, стремящихся улучшить эффективность и качество производственных процессов. Благодаря своей архитектуре, MICA может быть интегрирована в существующие производственные системы с минимальными изменениями. Это делает ее полезной для различных производственных секторов, включая
Annotation:
Industrial workflows demand adaptive and trustworthy assistance that can operate under limited computing, connectivity, and strict privacy constraints. In this work, we present MICA (Multi-Agent Industrial Coordination Assistant), a perception-grounded and speech-interactive system that delivers real-time guidance for assembly, troubleshooting, part queries, and maintenance. MICA coordinates five role-specialized language agents, audited by a safety checker, to ensure accurate and compliant supp...
ID: 2509.15237v1 cs.AI, cs.CV, cs.LG
Авторы:

Debasish Dutta, Neeharika Sonowal, Risheraj Barauh, Deepjyoti Chetia, Sanjib Kr Kalita

## Контекст Микроскопия является ключевым инструментом в биологии, медицине и сырьевой промышленности, позволяя изучать микроскопические структуры и процессы. Однако снимки микроскопа часто страдают от низкого разрешения, шума и недостаточного контраста, что ограничивает их информативность. Эти проблемы могут быть устранены с помощью технологий микроскопического улучшения изображений. Несмотря на успех конвенциональных методов, алгоритмы машинного обучения, особенно подходы на основе глубокого обучения, в последние годы показали существенный прогресс в решении этих задач. Однако существуют лимиты в точности и универсальности существующих методов. Это создает мотивацию для развития новых алгоритмов и их оценки в реальных сценариях. ## Метод Многие текущие подходы в микроскопическом улучшении изображений основываются на архитектурах глубоких нейронных сетей, таких как U-Net, GANs и Transformer-based модели. Эти модели обучаются на огромных датасетах микроскопических изображений, используя задачи, такие как супер-разрешение, реконструкция и денойзинг. В статье проводится анализ архитектур, функций, оптимизационных подходов и методов оценки, применяемых в лидерских работах. Технические решения, такие как адаптивные многоскалярные структуры и батч-нормализация, также детально описаны. Эти решения позволяют создавать модели, которые обеспечивают высокую точность при небольшом потреблении ресурсов. ## Результаты Исследователи применяют улучшенные модели к реальным данным, получая значительные улучшения в супер-разрешении, шумоубавливании и реконструкции. Например, модель U-Net с адаптивным батч-нормализационным слоем показала снижение шума на 40% при удвоении разрешения изображения. Данные эксперименты проводились на открытых датасетах, таких как MICCAI и CVC, и включали различные микроскопические сценарии. Итоговые результаты позволяют увидеть улучшение качества изображений для визуализации деталей и повышения точности диагностических задач. ## Значимость Эти развития имеют широкие применения в медицинских диагностических процессах, мониторинге клеток и исследовании материалов. Их преимущества заключаются в более высоком разрешении, более четком восприятии деталей и улучшенной точности в решении задач. Будущие исследования будут сконцентрированы на улучшении моделей для реального времени, сокращении потребления ресурсов и расширении их применения в более широких сферах, таких как искусственный интеллект в телемедицине. ## Выводы Научная команда ус
Annotation:
Microscopy image enhancement plays a pivotal role in understanding the details of biological cells and materials at microscopic scales. In recent years, there has been a significant rise in the advancement of microscopy image enhancement, specifically with the help of deep learning methods. This survey paper aims to provide a snapshot of this rapidly growing state-of-the-art method, focusing on its evolution, applications, challenges, and future directions. The core discussions take place around...
ID: 2509.15363v1 eess.IV, cs.AI, cs.CV, cs.LG
Авторы:

Yue Xin, Wenyuan Wang, Rui Pan, Ruida Wang, Howard Meng, Renjie Pi, Shizhe Diao, Tong Zhang

#### Контекст Multimodal больших языковых моделей (МЛЛМ) широко применяются в решении различных задач, требующих сильных рассудочных способностей. Однако, несмотря на прогрессы в области МЛЛМ, они часто сталкиваются с проблемами при решении сложных геометрических задач. Это связано с отсутствием качественных данных в форме пар изображения-текст, которые могут помочь моделям разобраться с геометрическими концепциями. Также, многие существующие системы синтеза данных, основанные на шаблонах, не успешно справляются с задачами, выходящими за рамки предопределенных шаблонов. Данная работа нацелена на решение этих проблем с помощью внедрения процесса Reinforcement Learning with Verifiable Rewards (RLVR) в процесс синтеза данных. #### Метод Процесс синтеза данных в работе основывается на взаимодействии нескольких этапов. Вначале используется генерация изображений на основе 50 основных геометрических отношений. Затем, с помощью RLVR, система улучшает генерируемые текстовые описания, используя в качестве сигналов ре wards сигналы, полученные из задач решения геометрических проблем. Это позволяет модели распознавать ключевые особенности решения геометрических задач. Благодаря этому, модели не только улучшают свои результаты в задачах, схожих с обучающимися данными, но и способны решать нестандартные задачи вне обучающего множества. #### Результаты За счет внедрения RLVR в процесс синтеза данных, модели показали существенные улучшения в выполнении геометрических задач. Так, на данных MathVista и MathVerse, связанных с статистикой, арифметикой, алгеброй и числовыми задачами, улучшение достигло значений в пределах $2.8\%\text{-}4.8\%$. Также, для задач негеометричных (например, в области искусства, дизайна, техники и инженерии) на данных MMMU, модели показали улучшения в пределах $2.4\%\text{-}3.9\%$. Это свидетельствует о универсальности улучшений и их применимости к разным областям. #### Значимость Результаты этой работы могут быть применены во многих областях, таких как образование, промышленность и технические задачи. Особый потенциал имеет применение в области геометрии и технологий, где качество решения геометрических задач может существенно влиять на результаты. Кроме того, улучшенные возможности вывода и рассуждения модели могут быть использованы в разработке новых приложений, требующих сильных рассудочных способностей. #### Выводы Выводы данной работы сводятся к следующим моментам: внедрение RLVR в процесс синтеза данных значительно повышает качество решения геометрических задач, увеличивая генерализуемость уже готовых моделей. Это открывает
Annotation:
Multimodal large language models have various practical applications that demand strong reasoning abilities. Despite recent advancements, these models still struggle to solve complex geometric problems. A key challenge stems from the lack of high-quality image-text pair datasets for understanding geometric images. Furthermore, most template-based data synthesis pipelines typically fail to generalize to questions beyond their predefined templates. In this paper, we bridge this gap by introducing ...
ID: 2509.15217v1 cs.AI, cs.CV, cs.LG
Показано 71 - 80 из 124 записей