📚 Саммари научных статей из arXiv

Найдено 40 результатов по запросу 'cs.AI, cs.GR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34943 Добавлено сегодня: 336

Последнее обновление: сегодня

📄 Task-Oriented Edge-Assisted Cross-System Design for Real-Time Human-Robot Interaction in Industrial Metaverse

2025-08-30

Авторы:

Kan Chen, Zhen Meng, Xiangmin Xu, Jiaming Yang, Emma Li, Philip G. Zhao

## Контекст Область исследования, связанная с реальном времени интеракцией человека с роботом в индустриальном Metaverse, становится все более важной в условиях растущего интереса к удобству и эффективности работы в управлении распределенными системами. Однако эта область сталкивается с рядом технических проблем, включая высокую сложность обработки данных, ограниченную пропускную способность сетей и жесткие ограничения по задержкам. Эти ограничения могут приводить к неточности, задержкам и нестабильности в реальном времени. Для решения этих проблем, предлагается использование фреймворка, основанного на цифровых двойниках (DTs), который позволяет реализовать прогностические и превентивные механизмы. Цифровые двойники декомпозируются на две функции: отображение визуальных данных и контроль удаленных устройств, чтобы обеспечить эффективность и адаптивность. Такой подход имеет потенциал для повышения производительности, точности и надежности в индустриальных Metaverse-системах. ## Метод Предлагаемый фреймворк построен на использовании цифровых двойников, которые разделены на две функции: обработка визуальных данных и контроль удаленных устройств. Он включает в себя алгоритм Human-In-The-Loop Model-Agnostic Meta-Learning (HITL-MAML) для оптимизации прогностических моделей. Этот алгоритм анализирует динамические изменения в действиях оператора и адаптирует предсказания в реальном времени, чтобы обеспечить точность и прогностическую способность. Для улучшения производительности и снижения задержек, рассматривается функциональное разделение устройств, чтобы использовать их в зависимости от того, могут ли они обеспечить реальное время обработки данных. Такая архитектура позволяет повысить эффективность и реагировать на изменения в реальном времени. ## Результаты Проведены эксперименты с двумя типами задач: Trajectory-Based Drawing Control и 3D scene representation for nuclear decommissioning. В первой задаче, с использованием фреймворка, был снижен весьточный RMSE с 0.0712 м до 0.0101 м. Во второй задаче, относящейся к реализации 3D-сцен, фреймворк достиг PSNR 22.11, SSIM 0.8729 и LPIPS 0.1298, что демонстрирует высокую точность и качество визуальной обработки. Эти результаты показывают, что фреймворк эффективно решает проблемы реального времени в индустриальных Metaverse-системах, обеспечивая точность и стабильность. ## Значимость Предлагаемый подход может быть применен в различных индустриальных сценариях, например, в аэронавтике, автомобилестроении и ядерной энергетике. Он обеспечивает повышение точности и прогностической способности, что может повысить безопасность и эффективность робото

Annotation:

Real-time human-device interaction in industrial Metaverse faces challenges such as high computational load, limited bandwidth, and strict latency. This paper proposes a task-oriented edge-assisted cross-system framework using digital twins (DTs) to enable responsive interactions. By predicting operator motions, the system supports: 1) proactive Metaverse rendering for visual feedback, and 2) preemptive control of remote devices. The DTs are decoupled into two virtual functions-visual display an...

ID: 2508.20664v1 cs.RO, cs.AI, cs.GR

arXiv PDF

📄 LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding

2025-08-28

Авторы:

Julian Ost, Andrea Ramazzina, Amogh Joshi, Maximilian Bömer, Mario Bijelic, Felix Heide

## Контекст Одной из основных проблем в области машинного обучения для роботов является недостаточность качественных данных для обучения и тестирования. Нейронные сети, используемые в робототехнике, часто требуют больших объемов данных, охватывающих разнообразные сцены и сценарии. Однако существующие методы, основанные на реконструкции нейросетевыми методами, часто привязаны к статическим сценам и имеют ограниченную гибкость в управлении сценами и траекториями. Это ограничивает их применение в ситуациях, требующих более высокой динамичности и контроля. Методы, основанные на искусственных изображениях и видео, предлагают большую гибкость в управлении, однако часто страдают от недостатка геометрической точности и причинности. Наша мотивация заключается в создании метода, который бы объединил точность геометрии и высокую динамичность, обеспечивая полную управляемость и реалистичность в генерации трехмерных сцен. ## Метод Мы предлагаем LSD-3D (Large-Scale 3D Driving Scene Generation with Geometry Grounding) — метод, который комбинирует прокси-геометрию и средства оболочечной интерпретации с обученными признаками из моделей изображений. Метод работает в два этапа: в первом этапе производится генерация прокси-геометрии с помощью специальной архитектуры, которая берет в качестве входных данных карты местности и порождает трехмерные модели. Во втором этапе используется процедура score distillation, которая взята из обученных моделей изображений, чтобы уточнить детали текстуры и структуры. Ключевой особенностью метода является его гибкость: он позволяет гиперпараметрически управлять геометрией, текстурой и структурой сцены, в то же время сохраняя геометрическую точность и причинность. Это делает LSD-3D уникальным в способности генерировать реалистичные трехмерные сцены во всём различии индивидуальности и разнообразия. ## Результаты Мы проверили наш метод на различных корпусах данных, включая карты местности и данные сенсорных систем. Для оценки качества генерации проводились эксперименты, в которых сравнивались наш метод с существующими системами, ориентированными на геометрию и текстурное описание. Результаты показали, что LSD-3D превосходит другие подходы в терминах точности геометрии и качества текстурной детализации. Особенно выдаются результаты, связанные с гибкостью в управлении, что позволяет сгенерировать сцены в разнообразных условиях. Также, проведенные эксперименты показали высокую степень объектной перманентности и точность в оценке трёхмерной геометрии. ## Значимо

Annotation:

Large-scale scene data is essential for training and testing in robot learning. Neural reconstruction methods have promised the capability of reconstructing large physically-grounded outdoor scenes from captured sensor data. However, these methods have baked-in static environments and only allow for limited scene control -- they are functionally constrained in scene and trajectory diversity by the captures from which they are reconstructed. In contrast, generating driving data with recent image ...

ID: 2508.19204v1 cs.CV, cs.AI, cs.GR

arXiv PDF

📄 A Workflow for Map Creation in Autonomous Vehicle Simulations

2025-08-27

Авторы:

Zubair Islam, Ahmaad Ansari, George Daoud, Mohamed El-Darieby

## Контекст Одной из ключевых задач в развитии автономных транспортных систем является создание качественных и гибких карт, необходимых для локализации, планирования маршрутов и тестирования сценариев. Эти карты являются основным инструментом для моделирования среды, в которой перемещается автономный автомобиль. Однако создание таких карт часто требует больших вычислительных ресурсов и является ресурсоемким процессом. Это обусловлено тем, что существующие методы и инструменты часто привязаны к конкретным симуляторам или требуют значительных наработок вычислительных мощностей. Авторы статьи предлагают подход, способный упростить процесс создания карт и сделать его более эффективным и универсальным. ## Метод Предложенный подход включает в себя специально разработанный workflow для создания карт, который может быть использован в разных симуляторах. В этом случае использовались данные, полученные из CARLA (CAR Learning to Act), одного из популярных симуляторов для автономных транспортных систем. Главная идея заключается в использовании специальных технических решений для автоматизации процесса построения карт. Архитектура рабочего процесса включает несколько этапов: получение данных, их обработка и структурирование в формат, пригодный для использования в симуляторе. Это позволяет создавать карты, которые могут быть использованы для локализации, планирования маршрутов и других задач, связанных с развитием автономных систем. ## Результаты В результате проведения экспериментов был создан 3D-модель парковки на территории Онтарио Тех Университета. Эта модель была построена на основе данных, полученных из симулятора CARLA. Эксперименты показали, что предложенный workflow эффективен и позволяет создавать карты за меньшее количество времени и с меньшими вычислительными затратами по сравнению с существующими методами. Было показано, что использование этого подхода дает возможность создавать качественные карты, которые могут быть использованы в различных ситуациях, связанных с автономным движением. ## Значимость Предложенный workflow имеет широкие перспективы применения в развитии автономных транспортных систем. Его можно использовать для создания карт, необходимых для локализации, планирования маршрутов и тестирования. Он также обладает значительным преимуществом в том, что может быть адаптирован для различных симуляторов, что делает его более универсальным по сравнению с другими методами. Это может способствовать более быстрому развитию технологий автономного транспорта, так как уменьшает затраты на создание важных ресурсов, таких как карты. ## Выводы Созданный workflow позволяет со

Annotation:

The fast development of technology and artificial intelligence has significantly advanced Autonomous Vehicle (AV) research, emphasizing the need for extensive simulation testing. Accurate and adaptable maps are critical in AV development, serving as the foundation for localization, path planning, and scenario testing. However, creating simulation-ready maps is often difficult and resource-intensive, especially with simulators like CARLA (CAR Learning to Act). Many existing workflows require sign...

ID: 2508.16856v1 cs.RO, cs.AI, cs.GR

arXiv PDF

📄 Emergent Crowds Dynamics from Language-Driven Multi-Agent Interactions

2025-08-23

Авторы:

Yibo Liu, Liam Shatzel, Brandon Haworth, Teseo Schneider

## Контекст Область анимации и симуляции массовых мероприятий является важной частью искусственного зрения и интерактивных систем. Несмотря на то, что существуют многочисленные работы по моделированию поведения массовых мероприятий с использованием методов управления агентами, существуют значительные проблемы. Традиционные подходы ограничиваются линейными моделями, ограничивающимися локальными взаимодействиями между агентами, такими как стееринг или исполнение целей. Несмотря на то, что такие методы могут справляться с простыми сценариями, они не учитывают важность социальных и эмоциональных отношений, которые значительно влияют на поведение в реальной жизни. Эти проблемы могут привести к неестественному поведению агентов и недостаточно реалистичным сценариям. Было решено развить новый подход, который использует языковые модели, чтобы улучшить реалистичность симуляции. ## Метод Метод, предлагаемый в статье, основан на интеграции языковых моделей (LLMs) для управления движением агентов. Он состоит из двух основных компонентов: системы диалога и языкового управления навигацией. Локальное взаимодействие агентов в задаче управления определяется системой диалога, которая считывает личность, цели, эмоциональные состояния и социальные отношения агентов. Эти свойства используются для генерации диалогов между агентами в зависимости от своей роли и целей. Для управления движением каждого агента используется его личность, эмоциональное состояние, визуальные данные и физические параметры. Таким образом, агенты могут принимать решения о движении, учитывая их взаимодействия с другими агентами и окружающей средой. ## Результаты Набор экспериментов был проведен для исследования эффективности предложенного подхода. В экспериментах использовались данные, описывающие социальные взаимодействия и движение в толпе. Результаты показали, что языковые модели позволяют агентам реагировать на социальные ситуации, что приводит к эмергентным групповым поведениям. Агенты могут автоматически объединяться и распадаться на группы, работая согласно сценарию. Эксперименты также подтвердили, что метод способен передавать информацию внутри толпы, что дает более реалистичное представление общей системы. Эти результаты демонстрируют, что предложенный подход может значительно улучшить реалистичность моделей массовых мероприятий. ## Значимость Предлагаемый подход может быть применен в различных областях, включая игры, виртуальные реальности и симуляции реальных сценариев. Он предоставляет более точные и реалистичные модели д

Annotation:

Animating and simulating crowds using an agent-based approach is a well-established area where every agent in the crowd is individually controlled such that global human-like behaviour emerges. We observe that human navigation and movement in crowds are often influenced by complex social and environmental interactions, driven mainly by language and dialogue. However, most existing work does not consider these dimensions and leads to animations where agent-agent and agent-environment interactions...

ID: 2508.15047v1 cs.AI, cs.GR

arXiv PDF

📄 Image-Conditioned 3D Gaussian Splat Quantization

2025-08-23

Авторы:

Xinshuang Liu, Runfa Blark Li, Keito Suzuki, Truong Nguyen

#### Контекст 3D Gaussian Splatting (3DGS) является перспективной технологией, обеспечивающей высококачественное реального времени рендеринга трёхмерных сцен. Однако существуют две основные проблемы, которые ограничивают её применение. Во-первых, существующие методы сжатия 3DGS сжимают сцены только до мегабайтного диапазона, что недостаточно для больших сцен или коллекций. Во-вторых, существуют никакие механизмы для обновления сцен после их архивирования. Данные ограничения препятствуют использованию 3DGS в большинстве настоящих сценариев применения. Мы предлагаем ICGS-Quantizer, который решает эти проблемы, обеспечивая эффективное сжатие до килобайтного диапазона и добавляя возможность обновления сцен после архивации. #### Метод Мы предлагаем ICGS-Quantizer, который построен на основе 3DGS, но включает дополнительные инновации для эффективного сжатия и улучшения устойчивости к изменениям сцен. Метод учитывает как интер-Гауссовые соотношения, так и интер-атрибутные соотношения. Мы используем общие кодеки для всех сцен, которые не изменяются при добавлении новых сцен, что позволяет снизить потребность в дополнительной памяти. Для достижения устойчивости к изменениям сцен после их архивного хранения, мы вводим механизм, который использует новые изображения, захваченные во время декодирования, для перестроения трёхмерной сцены. Это позволяет хранить сцену в уменьшенном виде, при этом сохраняя возможность обновления. #### Результаты Мы подвергли ICGS-Quantizer кросс-экспериментов на нескольких трёхмерных сценах с разными уровнями сложности. Мы сравнили его с состоянием технологии в двух ключевых аспектах: эффективности сжатия и устойчивости к изменениям сцен. Результаты показали, что ICGS-Quantizer эффективно сжимает сцены до килобайтного диапазона, что значительно превосходит состояние технологии. Также была подтверждена высокая устойчивость к изменениям сцен, что демонстрирует возможность использовать ICGS-Quantizer для реального времени обновления сцен после их архивирования. #### Значимость Наш метод может быть применён в различных областях, включая виртуальную реальность, мобильные приложения и системы с требованиями к высокому качеству рендеринга. Он обеспечивает значительное улучшение в сжатии трёхмерных сцен, что позволяет хранить больше сцен на одном устройстве или в базе данных. Также он предоставляет возможность адаптивного обновления сцен, что делает его уникальным для сценариев, где сцены могут меняться с течением времени. Это улучшение потенциально может иметь большое влияние на разви

Annotation:

3D Gaussian Splatting (3DGS) has attracted considerable attention for enabling high-quality real-time rendering. Although 3DGS compression methods have been proposed for deployment on storage-constrained devices, two limitations hinder archival use: (1) they compress medium-scale scenes only to the megabyte range, which remains impractical for large-scale scenes or extensive scene collections; and (2) they lack mechanisms to accommodate scene changes after long-term archival. To address these li...

ID: 2508.15372v1 cs.CV, cs.AI, cs.GR

arXiv PDF

📄 Neural Robot Dynamics

2025-08-23

Авторы:

Jie Xu, Eric Heiden, Iretiayo Akinola, Dieter Fox, Miles Macklin, Yashraj Narang

#### Контекст Симуляция современных роботов представляет собой сложную задачу, особенно для моделирования их высокой степени свободы и сложных механизмов. Традиционные аналитические симуляторы, хотя и эффективны в некоторых случаях, не всегда подходят для решения задач, требующих высокой точности и гибкости. Нейронные симуляторы, в свою очередь, предлагают альтернативу, эффективно предсказывая сложные динамические процессы и адаптируясь к реальному миру. Тем не менее, существующие системы часто ограничены применением к определенным задачам и не могут легко адаптироваться к новым сценариям или окружениям, что ограничивает их широкое применение. #### Метод Мы предлагаем Neural Robot Dynamics (NeRD), новую модель, основанную на нейронных сетях, для моделирования динамики роботов, являющихся структурированными как искусственные тела. NeRD заменяет низкоуровневые динамические и контактные решатели в существующих аналитических моделях, используя уникальное представление состояния, заложенное на робото-центрической системе координат. Модель не только предсказывает динамику, но и интегрируется с современными симуляторами, обеспечивая универсальный и производительный подход к моделированию. #### Результаты В ходе испытаний NeRD продемонстрировала стабильность и точность в тысячах шагов симуляции. Модель показала хорошую общительность, адаптируясь к различным задачам и конфигурациям окружения. Более того, она удачно использовалась для обучения политик в условиях полного использования нейронных моделей, что отличает ее от традиционных симуляторов. НеRD также подвергалась оптимизации на основе реальных данных, чтобы уменьшить разрыв между симуляцией и реальностью. #### Значимость NeRD открывает новые горизонты для моделирования роботов, предоставляя универсальные и точные модели для различных целей. Она может применяться в разработке и тестировании роботов, в киберфизических системах и в сценариях глубокого обучения. Ее преимущество в том, что она не только эффективна в симуляции, но и может быть приспособлена к реальному миру, что повышает ее практическую ценность. #### Выводы Neural Robot Dynamics доказывает свою эффективность как универсальное решение для моделирования динамики роботов. Будущие исследования будут сконцентрированы на расширении модели для более сложных сценариев, внедрении ее в реальные системы и улучшении ее взаимодействия с другими нейронными моделями.

Annotation:

Accurate and efficient simulation of modern robots remains challenging due to their high degrees of freedom and intricate mechanisms. Neural simulators have emerged as a promising alternative to traditional analytical simulators, capable of efficiently predicting complex dynamics and adapting to real-world data; however, existing neural simulators typically require application-specific training and fail to generalize to novel tasks and/or environments, primarily due to inadequate representations...

ID: 2508.15755v1 cs.RO, cs.AI, cs.GR, cs.LG

arXiv PDF

📄 RayletDF: Raylet Distance Fields for Generalizable 3D Surface Reconstruction from Point Clouds or Gaussians

2025-08-15

Авторы:

Shenxing Wei, Jinxi Li, Yafei Yang, Siyuan Zhou, Bo Yang

#### Контекст Область исследования 3D-сурфейс-реконструкции из точечных множеств или 3D-Гауссиан (т.е., приближенных нормальных распределений) является актуальной для многих прикладных задач, таких как виртуальная реальность, робототехника, 3D-дизайн и инспекция. Несмотря на успех методов, основанных на координатах (Coordinate-Based Methods, CBM), они часто сталкиваются с высокими затратами ресурсов при рендеринге точных эксплорных сурфейсов. Такие методы требуют многократного обращения к нейросетевым моделям для каждого пикселя, что приводит к высокому времени вычислений и неэффективности. Тем самым, существует необходимость в разработке более эффективных, гибких и производительных алгоритмов для решения этой задачи. #### Метод Метод RayletDF предлагает инновационный подход к решению проблемы 3D-сурфейс-реконструкции. Основная идея заключается в использовании "raylet distance field" (RDF), который рассчитывает расстояние до ближайшего сурфейса для каждого исследоваемого луча (raylet). Этот подход позволяет избежать непосредственного вычисления координат сурфейсной точки и, следовательно, снижает компьютерные затраты. Архитектура RayletDF состоит из трех модулей: 1. **Raylet Feature Extractor** — извлекает тонкие локальные геометрические признаки из запросов лучей. 2. **Raylet Distance Field Predictor** — прогнозирует расстояния до сурфейса по этим признакам. 3. **Multi-Raylet Blender** — комбинирует несколько прогнозов для построения точных сурфейсных точек. Эта архитектура обеспечивает точные и производительные реконструкции сурфейсов, с минимальными вычислительными затратами. #### Результаты Работа была проверена на нескольких широко известных реальных данных, в том числе в таких областях, как 3D-сурфейс-реконструкция и виртуальная реальность. Использовались различные точечные множества и 3D-Гауссианы, полученные с помощью 3DGS (3D Gaussian Sampling) из RGB-изображений. Полученные результаты сравнивались с другими современными методами, показав существенное преимущество RayletDF в скорости и точности реконструкции сурфейсов. Особенно выдающимся был его результат в области общей гибкости: RayletDF способен выполнить рендеринг 3D-сурфейсов в одном проходе (single-forward-pass) даже на неизвестных данных. #### Значимость Полученный подход имеет широкие приложения в сферах, требующих эффективной и точной 3D-реконструкции, таких как виртуальная реальность, робототехника, 3D-анализ и отображение. Он отличается высокой скоростью исполнения и гибкостью при работе с различными типами данных. В отличие от методов CBM, RayletDF не требует многократных вызовов нейросети, что де

Annotation:

In this paper, we present a generalizable method for 3D surface reconstruction from raw point clouds or pre-estimated 3D Gaussians by 3DGS from RGB images. Unlike existing coordinate-based methods which are often computationally intensive when rendering explicit surfaces, our proposed method, named RayletDF, introduces a new technique called raylet distance field, which aims to directly predict surface points from query rays. Our pipeline consists of three key modules: a raylet feature extractor...

ID: 2508.09830v1 cs.CV, cs.AI, cs.GR, cs.LG, cs.RO

arXiv PDF

📄 Empowering Children to Create AI-Enabled Augmented Reality Experiences

2025-08-14

Авторы:

Lei Zhang, Shuyao Zhou, Amna Liaqat, Tinney Mak, Brian Berengard, Emily Qian, Andrés Monroy-Hernández

#################### ## Контекст #################### В последние годы AI-enabled AR технологии набирают популярность, особенно в области образования. Однако, несмотря на их потенциал, эти технологии чаще всего используются в качестве средств потребления, а не создания. Это ограничивает возможности детей для компетентного взаимодействия с технологиями и их потенциального творческого выражения. Проблема заключается в том, что дети, как правило, используют предопределенные виртуальные среды и не могут настраивать их под свои потребности или творческие идеи. Это способствует ограниченному развитию их творческих и программирующих навыков. Было бы значительным улучшением, если бы дети могли не только потреблять AI-enabled AR технологии, но и творить, превращая себя в активных создателей. #################### ## Метод #################### Для решения этой проблемы предлагается Capybara — AR-ориентированная и AI-движок, предоставляющий детям возможность творить в виртуальной реальности. Основной функционал Capybara — это возможность создания и анимации 3D-персонажей, которые могут быть оверлеянными на физическую среду. Дети могут создавать эти персонажи и аксессуары, используя текст-в-3D-генерирующие AI-модели. Для анимации используется автоматический механизм "риггинга" и технология тела-трекинга. Кроме того, Capybara включает в себя видю-бейсные AI-модели, позволяющие детям программировать взаимодействия между виртуальными персонажами и физическими объектами. Это решение позволяет детям творить в интерактивной среде, связывающей виртуальные и физические пространства. #################### ## Результаты #################### В ходе экспериментов, проведенных с участием 20 детей из США и Аргентины, было показано, что Capybara позволяет детям творить и программировать виртуальные среды с высокой степенью выразительности. За подробностями результатов можно обратиться к оригинальной статье. #################### ## Значимость #################### Capybara может применяться в различных областях, включая образовательные программы, творческие среды, игровые приложения. Оно дает детям возможность раскрыть свой творческий потенциал, научиться программированию и пониманию технологий AI. Это способствует раннему развитию цифровых навыков, мотивирует детей к инновационным решениям и способствует их участию в создании будущих технологий. #################### ## Выводы #################### Capybara доказала свою эффективность в том, что она позволяет детям творить в сфере AI-enabled AR технологий. Это не только вдохновляет детей на творчество, но и внедряет в них базовые навыки в программировании и понимании AI-технологий. Будущие исследования б

Annotation:

Despite their potential to enhance children's learning experiences, AI-enabled AR technologies are predominantly used in ways that position children as consumers rather than creators. We introduce Capybara, an AR-based and AI-powered visual programming environment that empowers children to create, customize, and program 3D characters overlaid onto the physical world. Capybara enables children to create virtual characters and accessories using text-to-3D generative AI models, and to animate these...

ID: 2508.08467v1 cs.HC, cs.AI, cs.GR, cs.PL

arXiv PDF

📄 Harnessing Adaptive Topology Representations for Zero-Shot Graph Question Answering

2025-08-12

Авторы:

Yanbin Wei, Jiangyue Yan, Chun Kang, Yang Chen, Hua Liu, James T. Kwok, Yu Zhang

#### Контекст Large Multimodal Models (LMMs) показали свою способность к generalised zero-shot вопросам и ответам (QA) в различных областях, включая graph QA, которая включает в себя сложные графовые топологии. Однако большинство текущих подходов ограничиваются одним типом графовой представления, называемым Topology Representation Form (TRF), таким как промпт-объединенные текстовые описания или стилизованные визуальные стили. Такие "одно-размерное" решение не учитывает особенности и предпочтения различных моделей или задач, часто приводящие к неверным или слишком длинным ответам. Для решения этой проблемы мы проанализировали характеристики и слабые стороны существующих TRFs и разработали новый набор TRFs, названный $F_{ZS}$, призванный оптимизировать zero-shot graph QA. #### Метод Мы предлагаем DynamicTRF — развитое фреймворком, которое адаптивно выбирает лучший TRF для каждого вопроса во время выполнения. DynamicTRF состоит из двух ключевых компонентов. Во-первых, мы создали TRF Preference (TRFP) dataset, который рангован TRFs по их Graph Response Efficiency (GRE), чтобы определить предпочтения вопросов. Во-вторых, мы обучили TRF router, который использует TRFP dataset для адаптивного выделения лучшего TRF из комплекса $F_{ZS}$. Эта структура обеспечивает улучшение точности и краткости в zero-shot graph QA. #### Результаты Мы провели эксперименты на 7 внутренних задачах алгоритмического graph QA и 2 задачах за их пределами. Результаты показали, что DynamicTRF значительно улучшает точность zero-shot graph QA LMMs в отличие от стандартных подходов. Мы также провели анализ влияния каждого из компонентов на общую производительность, подтвердив эффективность DynamicTRF'a в сочетании с $F_{ZS}$. #### Значимость DynamicTRF может применяться в различных областях, где требуется zero-shot обучение для graph QA. Он предоставляет значительные преимущества по сравнению с традиционными подходами, такими как улучшение точности и эффективность ответа. Мы видим будущие исследования в расширении $F_{ZS}$ и экспериментах с другими моделями, а также в оптимизации GRE metrics для более широкого применения. #### Выводы Мы представили DynamicTRF, первый фреймворк, который адаптивно выбирает графовые представления для zero-shot graph QA. Это вытянуло значительные улучшения над существующими подходами. Наша работа открывает путь для будущих исследований в области графовых задач QA и динамического выбора представлений.

Annotation:

Large Multimodal Models (LMMs) have shown generalized zero-shot capabilities in diverse domain question-answering (QA) tasks, including graph QA that involves complex graph topologies. However, most current approaches use only a single type of graph representation, namely Topology Representation Form (TRF), such as prompt-unified text descriptions or style-fixed visual styles. Those "one-size-fits-all" approaches fail to consider the specific preferences of different models or tasks, often leadi...

ID: 2508.06345v1 cs.CL, cs.AI, cs.GR, cs.LG

arXiv PDF

📄 Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN

2025-08-06

Авторы:

Shivangi Nigam, Adarsh Prasad Behera, Shekhar Verma, P. Nagabhushan

В статье представлен Fd-CycleGAN, инновационный фреймворк для задач image-to-image (I2I) трансляции, направленный на улучшение обучения латентных представлений для более точного аппроксимации реальных распределений данных. Основываясь на CycleGAN, Fd-CycleGAN интегрирует Local Neighborhood Encoding (LNE) и частотно-ориентированное наблюдение, что позволяет захватывать тонкие локальные семантические характеристики пикселей и сохранять структурную целостность исходного домена. Используя метрики потерь на основе распределений, такие как KL/JS дивергенция и логарифмические меры схожести, Fd-CycleGAN явно оценивает соответствие между реальными и сгенерированными распределениями изображений в пространственной и частотной областях. Эксперименты на различных датасетах (Horse2Zebra, Monet2Photo, Strike-off) показывают, что Fd-CycleGAN превосходит базовый CycleGAN и другие современные методы по характеристикам качества восприятия, скорости сходимости и разнообразия режимов, особенно в условиях ограниченных данных. Результаты подтверждают, что частотно-ориентированное обучение латентных представлений значительно улучшает общее качество трансляции изображений, с многообещающими применениями в областях документного восстановления, художественного стилевого переноса, и синтеза медициных изображений. Также, в статье представлены сравнительные анализы с диффузионными генеративными моделями, выделяя преимущества Fd-CycleGAN по тренировочной эффективности и качеству вывода.

Annotation:

This paper presents Fd-CycleGAN, an image-to-image (I2I) translation framework that enhances latent representation learning to approximate real data distributions. Building upon the foundation of CycleGAN, our approach integrates Local Neighborhood Encoding (LNE) and frequency-aware supervision to capture fine-grained local pixel semantics while preserving structural coherence from the source domain. We employ distribution-based loss metrics, including KL/JS divergence and log-based similarity m...

ID: 2508.03415v1 cs.CV, cs.AI, cs.GR

arXiv PDF

1
2
3
4

Показано 31 - 40 из 40 записей