📚 Саммари научных статей из arXiv

Найдено 162 результатов по запросу 'cs.CL, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech

2025-09-13

Авторы:

Ngoc-Son Nguyen, Hieu-Nghia Huynh-Nguyen, Thanh V. T. Tran, Truong-Son Hy, Van Nguyen

#### Контекст Zero-shot Text-to-Speech (TTS) — это интересная область исследований, нацеленная на создание речи, которая лояльно повторяет голос невидимого речевого агента, используя всего несколько секунд его речи. Это задача требует не только интеллектуального адаптирования к речевому стилю, но также точного моделирования просодических признаков. Несмотря на некоторые прогрессы, существующие методы, основанные на моделях языка, диффузии и потоковых методах, страдают от медлительной обработки и проблем с повторениями. Моделирование дискретных кодов звука в синтезе речи получило нарастающий интерес, так как дискретные потоковые модели могут предложить новые подходы к решению этих проблем. Однако, существующие потоковые методы часто инкапсулируют дискретные токены в подходящий контекст, что может привести к ухудшению использования преимуществ дискретной структуры. #### Метод Мы предлагаем DiFlow-TTS, первую модель, основанную на дискретном потоковом подходе для текстового голос synth. Она использует важное значение связи между текстовым содержанием и просодическими признаками, включая ряд моделей потоков, которые разделяют просодические и акустические признаки. Эта универсальная архитектура позволяет моделировать факторно разделенные атрибуты речи, чтобы обеспечить эффективное клонирование голоса без тренировки. Для улучшения ясности и эффективности, мы применяем **диффузионные формальности**, чтобы обеспечить точное моделирование звуков, а также используем **контекстное обучение**, чтобы учитывать речевые стили и ситуации. #### Результаты Мы проводили эксперименты на основе нескольких ключевых метрик: **naturalness**, **speaker style preservation**, **prosody preservation** и **energy control**. Наши результаты показали, что DiFlow-TTS превосходит существующие алгоритмы, демонстрируя значительное улучшение в **speaker adaptation** и **low-latency inference**. Например, в тестах на **real-time speech synthesis**, DiFlow-TTS обработал речь до 25.8 раз быстрее, чем существующие методы, при этом сохранив высокую точность. Модель также показала отличные результаты в уменьшении проблемы повторений и поддержании динамичности речи. #### Значимость DiFlow-TTS открывает новые возможности в **low-latency zero-shot TTS**, делая его применимым в реальных сценариях, таких как **voice assistants**, **audiobooks** и **real-time communication**. Наш подход уменьшает время обработки и улучшает качество речи, особенно в ситуациях, где необходима мгновенная реакция. Это может привести к улучшению интерфейсов, увеличению юзабилити и повышению доступности технологий TTS в различных приложениях. #### Выводы DiFlow-TTS — первый потоковый подход, который испо

Annotation:

Zero-shot Text-to-Speech (TTS) aims to synthesize high-quality speech that mimics the voice of an unseen speaker using only a short reference sample, requiring not only speaker adaptation but also accurate modeling of prosodic attributes. Recent approaches based on language models, diffusion, and flow matching have shown promising results in zero-shot TTS, but still suffer from slow inference and repetition artifacts. Discrete codec representations have been widely adopted for speech synthesis, ...

ID: 2509.09631v1 cs.SD, cs.CL, cs.CV

arXiv PDF

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-13

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

#### Контекст Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации сложных сценариев может вдохновить развитие объёмных моделей рассуждения. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. #### Метод Методика OmniEVA включает в себя два ключевых компонента: Task-Adaptive 3D Grounding и Embodiment-Aware Reasoning. Task-Adaptive 3D Grounding использует gated router для регулирования 3D-фузирования, что позволяет выполнять специфический контекстный 3D-grounding для разных обстановок. Embodiment-Aware Reasoning оптимизирует решения планирования, включая в рассуждение не только цели, но и физические ограничения реальных роботов. #### Результаты Результаты показали, что OmniEVA увеличивает скорость выполнения задач, повышает точность решений и способствует более эффективному использованию ресурсов. Измерения проводились в различных обстановках, в том числе и сложных. #### Значимость OmniEVA может быть применено в сферах, требующих обеспечения эффективности и безопасности в работе роботов. Он повышает качество выполнения единичных задач и упрощает работу в классах задач. #### Выводы Работа OmniEVA демонстрирует роль объёмных моделей в развитии обзорных моделей рассуждения в области робототехники. Будущие исследования будут фокусироваться на улучшении модели за счёт добавления дополнительных параметров и улучшения её чувствительности.

Annotation:

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalizati...

ID: 2509.09332v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Imagining Alternatives: Towards High-Resolution 3D Counterfactual Medical Image Generation via Language Guidance

2025-09-10

Авторы:

Mohamed Mohamed, Brennan Nichyporuk, Douglas L. Arnold, Tal Arbel

#### Контекст Визуальные-языковые модели показали впечатляющие возможности генерировать 2D-изображения в различных условиях, но это возможно в большей степени благодаря имеющимся подготовленным моделям-основам. Однако в 3D-домене подобные модели очень ограничены, что ограничивает потенциал визуально-языковых моделей в генерировании высококачественных 3D-изображений. Это особенно важно в медицинской области, где требуется точное трехмерное моделирование, например, для исследования нервной системы. Несмотря на важность этих задач, пока не было достигнуто значительного прогресса в создании 3D-систем, которые бы могли генерировать индивидуальные медицинские изображения на основе естественного языка. Такие модели позволяли бы, например, исследовать здоровье мозга с разными медицинскими условиями или симулировать прогрессирование заболеваний. Наша работа сделала основной шаг к реализации этой цели, разрабатывая фреймворк для 3D-генерирования высококачественных 3D-изображений, нацеленных на синтезированных пациентов, используя свободную форму естественного языка. #### Метод Мы создали фреймворк, который расширяет современные 3D-диффузионные модели, используя подходы из Simple Diffusion и улучшения условий текста. Эта модель использует 3D-объекты для генерирования 3D-изображений, что требует большой точности для представления трехмерной структуры мозга. Мы также внедрили усовершенствованные методы для повышения корреляции между текстом и изображением, чтобы гарантировать точность в гипотетических ситуациях. Наша модель учитывает требования к высокому разрешению и подробности для обеспечения фидбека о клиническом исходе. Мы проверили ее на двух наборах данных, связанных с неврологией, включая данные о МС и Алцгеймере. Это позволило проверить модель на ситуациях синтеза симптомов и воспроизведения характеристик разных состояний. #### Результаты Мы проверили наш фреймворк на двух наборах данных, описывающих неврологические заболевания. Наши результаты показали, что модель может генерировать высококачественные 3D-изображения, в которых видны различные степени лесенок (Multiple Sclerosis) и разные уровни выздравствования (Alzheimer's). Кроме того, модель сохраняет точность в представлении лиц и трехмерной структуры мозга. Это доказывает возможность модели для генерации надежной 3D-информации для визуализации медицинских условий и анализа их прогрессии. #### Значимость Наша модель открывает новые перспективы в области медицины, включая персонализированные модели для прогнозировани

Annotation:

Vision-language models have demonstrated impressive capabilities in generating 2D images under various conditions; however the impressive performance of these models in 2D is largely enabled by extensive, readily available pretrained foundation models. Critically, comparable pretrained foundation models do not exist for 3D, significantly limiting progress in this domain. As a result, the potential of vision-language models to produce high-resolution 3D counterfactual medical images conditioned s...

ID: 2509.05978v1 eess.IV, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

2025-09-10

Авторы:

Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong

## Контекст Проблемы в multimodal reasoning остаются значимыми в области искусственного интеллекта. Несмотря на успех моделей типа GPT-3 в области text-based reasoning, они сталкиваются с трудностями при обработке multimodalных данных, где необходимо коррелировать информацию из разных модальностей. Это приводит к упущенным возможностям в задачах, требующих визуального и текстового понимания одновременно. Мотивацией для нас стала необходимость создания метода, который может эффективно объединять визуальные и текстовые модальности, обеспечивая высокую точность и гибкость в решении задач. ## Метод Мы предлагаем caption-assisted reasoning framework, который использует синтетические супервайзд данные для обучения. Ключевой идеей является использование сгенерированных визуально-текстовых последовательностей для точной корреляции объектов и их описаний. Метод включает несколько этапов: набор супервайзингов выборок, синтезирование последовательностей, преобразование их в визуально-текстовые контексты и последующий обучающий процесс. Для работы метода мы используем модель Vision-Language Encoder, которая объединяет визуальные и текстовые сигналы, позволяя модели отвечать на задачи, которые необходимо решать. ## Результаты Мы проверили наш метод на двух популярных бенчмарках: SeePhys и MathVerse. В SeePhys, который фокусируется на задачах по физическим описаниям интерактивных сцен, наша модель достигла первого места, показав высокую точность и мощность. На MathVerse, который включает в себя задачи по геометрическому и аналитическому рассуждению, результаты также были высоки, подтверждая гибкость и универсальность нашего подхода. Мы также провели эксперименты с различными вариантами моделей, чтобы продемонстрировать сравнение и показать, что наша архитектура превосходит существующие решения. ## Значимость Модель нашего подхода может быть применена во многих областях, где необходимо обработка multimodalных данных, таких как машинное обучение, обработка естественного языка, разработка автоматизированных систем, которые предсказывают физические свойства объектов или выполняют геометрические рассуждения. Преимущество нашего подхода заключается в том, что он может объединять несколько модальностей, чтобы обеспечивать более точные и надежные результаты. Такой подход может иметь значительное влияние в образовательных, инженерных и индустриальных приложениях. ## Выводы В результате наших исследований, мы доказали, что наш метод эффективен в решении задач multimodal reasoning. Мы установили новый рекорд в SeePhys Challenge и продемонстрировали широкую область применения на MathVerse. Будущие работы будут ориентированы на улучшение моделей, используя более

Annotation:

Multimodal reasoning remains a fundamental challenge in artificial intelligence. Despite substantial advances in text-based reasoning, even state-of-the-art models such as GPT-o3 struggle to maintain strong performance in multimodal scenarios. To address this gap, we introduce a caption-assisted reasoning framework that effectively bridges visual and textual modalities. Our approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge 2: SeePhys, highlighting its effectiveness a...

ID: 2509.06079v1 cs.CL, cs.CV

arXiv PDF

📄 Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization

2025-09-09

Авторы:

Lee Kezar, Zed Sehyr, Jesse Thomason

#### Контекст Знаковый язык является важной формой мышления и общения, особенно для людей с нарушениями слуха. Несмотря на развитие технологий, существуют значительные проблемы с обработкой и распознаванием знаков. Одной из основных проблем является нехватка данных, представляющих все возможные знаки, что приводит к недостаточной общезначимости моделей. Это способствует неэффективности моделей при распознавании новых или редко встречающихся знаков. Целью данного исследования является создание модели, улучшающей общезначимость и обнаружение знаков, при этом используя языковые признаки для повышения точности и универсальности. #### Метод Методология исследования основывается на использовании векторной квантования для обучения дискретных токенов, которые могут представлять знаки. Архитектура модели включает в себя векторный автокодировщик с дискретными токенами, в котором включены два ключевых подхода: **Parameter Disentanglement** и **Phonological Semi-Supervision**. - **Parameter Disentanglement** представляет собой архитектурный подход, разделяющий языковые признаки в модели, чтобы избежать спуфинга корреляций. - **Phonological Semi-Supervision** является техникой регуляризации, использующей знаковый контекст для улучшения языковой модели. Эти подходы были интегрированы в модель для улучшения обучения и обнаружения знаков, а также для повышения качества реконструкции неизвестных знаков. #### Результаты Исследование проводилось на наборе данных знаков, где продемонстрировано, что использование предложенной модели приводит к значительным повышениям качества распознавания и реконструкции знаков. Были проведены эксперименты, сравнивавшие результаты с контрольной моделью, не использующей предложенные языковые признаки. Результаты показали, что модель с **Parameter Disentanglement** и **Phonological Semi-Supervision** обеспечивает более высокую точность распознавания знаков и высокую качественную реконструкцию неизвестных знаков. Это демонстрирует, что использование языковых признаков позволяет улучшить общезначимость и эффективность распознавания знаков. #### Значимость Результаты имеют применение в различных областях, где требуется улучшить обработку и распознавание знаков, в том числе в системах распознавания знаков для взаимодействия с людьми-синологами, в создании систем интерактивного обучения знаковому языку, и в области доступности для людей с нарушениями слуха. Модель, описанная в статье, обеспечивает более точное и универсальное распознавание знаков, что может способствовать созданию более эффективных инструментов для общения. Дальнейшие исследования могут быть направлены на расширение модели для обработки знако

Annotation:

Sign language datasets are often not representative in terms of vocabulary, underscoring the need for models that generalize to unseen signs. Vector quantization is a promising approach for learning discrete, token-like representations, but it has not been evaluated whether the learned units capture spurious correlations that hinder out-of-vocabulary performance. This work investigates two phonological inductive biases: Parameter Disentanglement, an architectural bias, and Phonological Semi-Supe...

ID: 2509.04745v1 cs.CL, cs.CV

arXiv PDF

📄 PRIM: Towards Practical In-Image Multilingual Machine Translation

2025-09-09

Авторы:

Yanzhi Tian, Zeming Liu, Zhengyang Liu, Chong Feng, Xin Li, Heyan Huang, Yuhang Guo

## Контекст In-Image Machine Translation (IIMT) — это область искусственного интеллекта, специализирующаяся на переводе текстов, изображенных на изображениях, с одного языка на другой. Несмотря на продвижение технологий, существующие исследования в основном опираются на синтетические данные, характеризующиеся простой фоновой средой, одним шрифтом и фиксированным положением текста. Более того, эти исследования ограничиваются двуязычным переводом. Такие ограничения не достаточно отражают реальных условий, в которых тексты имеют разнообразные фоны, различные шрифты и позиции. Это создает значительную разницу между научными разработками и их применением в реальной жизни. Для преодоления этих ограничений, авторы фокусируются на Practical In-Image Multilingual Machine Translation (PRIM), стремясь улучшить технологии перевода в реальных условиях с учетом многоязычности и сложности реальных изображений. ## Метод Программа PRIM предлагает комплексное решение для практического IIMT, основываясь на создании и использовании датасета PRIM. Этот датасет включает реальные изображения, полученные с фотоаппарата, с однострочными текстами, различными фондами, шрифтами и положениями текста. Он поддерживает многоязычный перевод в различные направления. Для обработки этих сложностей, авторы предлагают модель VisTrans, которая обрабатывает текст и фон изображения отдельно. Эта стратегия позволяет гарантировать качество многоязычного перевода, при этом улучшая визуальное качество. Таким образом, PRIM и VisTrans решают проблемы, связанные с реалистичными условиями перевода на изображениях. ## Результаты Эксперименты показали, что VisTrans выдает лучшие результаты в сравнении с другими моделями в области IIMT, как с точки зрения языкового понимания, так и с точки зрения качества визуального представления. Модель обеспечивает лучший баланс между точностью перевода и качеством визуального изображения, что делает ее более эффективной в реальных сценариях. Результаты подтверждают значительное улучшение в сравнении с предыдущими методами, сделав VisTrans более пригодной для внедрения в реальные задачи перевода текста на изображениях. ## Значимость Приложение PRIM широко может быть использовано в сферах, где наличие многоязычного перевода на изображениях является критическим. Например, в сфере сервисов, туризме, медицине, упаковке или рекламе, где текст на изображениях является важным составляющим. Особый потенциал имеет VisTrans в сфере автоматизации, где требуется многоязычная обработка текстов на изображениях в реальном времени. Это может упростить и ускорить рабочие процессы, обеспечив лучшую дост

Annotation:

In-Image Machine Translation (IIMT) aims to translate images containing texts from one language to another. Current research of end-to-end IIMT mainly conducts on synthetic data, with simple background, single font, fixed text position, and bilingual translation, which can not fully reflect real world, causing a significant gap between the research and practical conditions. To facilitate research of IIMT in real-world scenarios, we explore Practical In-Image Multilingual Machine Translation (IIM...

ID: 2509.05146v1 cs.CL, cs.CV

arXiv PDF

📄 SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

2025-09-09

Авторы:

Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

#### Контекст Multimodal Large Language Models (MLLMs) представляют собой мощный инструмент для обработки информации, объединяя текстовые данные с другими видами данных. Одна из перспективных областей использования MLLMs — обработка интерфейсов пользователей (GUI). Несмотря на прогресс, достигнутый существующими решениями, существуют недостатки. Многие методы оперируют дискретными координатами, используя авторегрессионные механизмы, что приводит к низкой точности локализации и дорогостоящему времени выполнения. Кроме того, эти модели способны распознавать только предопределенные элементы, не обладая возможностью полного парсинга интерфейса. Это ограничивает их применение в различных сценариях и ограничивает потенциал для поддержки подсистемных задач. Наша цель — разработать систему, обеспечивающую высокую точность и гибкость в распознавании интерфейсов. #### Метод Мы предлагаем SparkUI-Parser — новую модель, которая обеспечивает полный парсинг интерфейса и высокую точность локализации. Модель основывается на предварительно обученном MLLM и имеет два ключевых компонента: **токен-руссет** и **координатный декодер**. Вместо дискретного моделирования координат, SparkUI-Parser использует непрерывное моделирование, что позволяет избежать ограничений авторегрессионных методов. Для улучшения стабильности ввода вводится **режим реагирования**, основанный на модифицированном алгоритме Ханжамана. Это позволяет модели отбрасывать несуществующие элементы, уменьшая ложные срабатывания. Также мы представляем **ScreenParse**, новую базу данных для оценки структурного распознавания GUI, которая позволяет сравнивать модели в различных сценариях. #### Результаты Мы провели ряд экспериментов на множестве задач, включая ScreenSpot, ScreenSpot-v2, CAGUI-Grounding и ScreenParse. Модель SparkUI-Parser показала значительное превосходство по сравнению с состоянием технологий (SOTA) во всех этих зонах. Она достигла высокой точности локализации, быстроты выполнения и общей гибкости при обработке различных типов интерфейсов. Эксперименты подтвердили, что наш подход не только повышает точность, но и увеличивает скорость работы, что делает его применимым для реального времени. #### Значимость SparkUI-Parser может быть применен в различных областях, где требуется автоматизированное распознавание интерфейсов, например, в системах автоматического тестирования, видеоидентификации и разработке пользовательских интерфейсов. Он предлагает ряд преимуществ, включая высокую точность, быстроту и гибкость. Благодаря этому, модель может существенно улучшить производительность и надежность приложений, основанных на распозна

Annotation:

The existing Multimodal Large Language Models (MLLMs) for GUI perception have made great progress. However, the following challenges still exist in prior methods: 1) They model discrete coordinates based on text autoregressive mechanism, which results in lower grounding accuracy and slower inference speed. 2) They can only locate predefined sets of elements and are not capable of parsing the entire interface, which hampers the broad application and support for downstream tasks. To address the ab...

ID: 2509.04908v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 MobileRAG: Enhancing Mobile Agent with Retrieval-Augmented Generation

2025-09-06

Авторы:

Gowen Loo, Chang Liu, Qinghong Yin, Xiang Chen, Jiawei Chen, Jingyuan Zhang, Yu Tian

## Контекст В настоящее время смартфоны стали неотъемлемой частью повседневной жизни, широко используясь в различных сферах современного общества. Одновременно с развитием крупных языковых моделей (LLMs) появился многочисленный функционал, основанный на этих моделях, включая мобильные агенты. Такие агенты способны точно распознавать различные пользовательские запросы и автоматически выполнять сложные или повторяющиеся операции. Однако существуют некоторые ограничения, влияющие на эффективность таких моделей. Например, они 1) сильно полагаются на возможности языковых моделей, что может приводить к ошибкам из-за неточного понимания инструкций, 2) не обладают возможностью взаимодействия с внешним окружением, что приводит к прекращению задач при невозможности их выполнения внутри приложения, и 3) не имеют возможности запоминания, что приводит к необходимости повторного построения интерфейса при каждой инструкции и не позволяет агентам учиться на ошибках. Для решения этих проблем, мы предлагаем MobileRAG, рамку для мобильных агентов, которая использует Retrieval-Augmented Generation (RAG) для улучшения способности агентов к точному выполнению задач. ## Метод MobileRAG включает три основных компонента: InterRAG, LocalRAG и MemRAG. InterRAG используется для более точного понимания пользовательских запросов, в том числе за счет доступа к внешним источникам знаний. LocalRAG специализируется на решении задач, касающихся конкретных мобильных приложений, обеспечивая более точный контекст. MemRAG, в свою очередь, включает в себя возможности запоминания и последовательности действий, позволяя агенту изучать и учиться на предыдущих опытах. Эти компоненты объединены в единую систему, которая может более эффективно выполнять сложные и длинные мобильные задачи, включая те, которые требуют дополнительного внешнего знания. ## Результаты Мы провели эксперименты с MobileRAG на большом наборе данных, включающем реальные задачи мобильных устройств, требующие внешнего взаимодействия. Результаты показывают, что MobileRAG показывает значительный выигрыш по сравнению с другими методами, существенно сокращая количество операций и улучшая точность выполнения задач. Мы также представили MobileRAG-Eval, более сложную и реалистичную бенчмарк-среду, которая позволяет более глубоко оценить эффективность MobileRAG в реальных условиях. Эти результаты подтверждают силу MobileRAG в решении сложных задач, включая те, которые требуют внешнего знания. ## Значимость MobileRAG может применяться в различных сферах, где требуется автоматизация и улучшение процессов, связанных с мобильными устройствами. Он может быть применен в сф

Annotation:

Smartphones have become indispensable in people's daily lives, permeating nearly every aspect of modern society. With the continuous advancement of large language models (LLMs), numerous LLM-based mobile agents have emerged. These agents are capable of accurately parsing diverse user queries and automatically assisting users in completing complex or repetitive operations. However, current agents 1) heavily rely on the comprehension ability of LLMs, which can lead to errors caused by misoperation...

ID: 2509.03891v1 cs.CL, cs.CV

arXiv PDF

📄 Chronotome: Real-Time Topic Modeling for Streaming Embedding Spaces

2025-09-05

Авторы:

Matte Lim, Catherine Yeh, Martin Wattenberg, Fernanda Viégas, Panagiotis Michalatos

## Контекст В настоящее время существует множество реального мира данных, включая тексты, изображения, аудио и другие виды данных, которые меняются с течением времени. Эти изменения могут отражать авторские стили, тематические изменения или динамику взаимодействия. Однако существующие методы, такие как статическая визуализация, не могут правильно отражать эти изменения во времени. Это создает проблему для анализа и понимания временных потоков данных. Мы предлагаем Chronotome, инструмент, который позволяет визуализировать эти изменения в реальном времени. ## Метод Чтобы построить Chronotome, мы использовали гибридную архитектуру, которая объединяет силовое проектирование с методами кластеризации. Силовое проектирование позволяет структурировать данные в пространственно-временной модели, а кластеризация позволяет отслеживать изменения в тематических пространствах. Эти методы тесно интегрированы с потоковыми алгоритмами, чтобы обеспечить реальное время визуализации. Мы также использовали методы сокращения размерности, такие как t-SNE и UMAP, для эффективного представления данных. ## Результаты Мы проверили Chronotome на нескольких наборах данных, включая текстовые данные и изображения. Наши эксперименты показали, что Chronotome может эффективно отражать изменения тем в реальном времени. Например, при анализе текстовых данных, таких как твиты, мы увидели, как темы изменяются с течением времени. Аналогичные результаты были получены при анализе изображений, где Chronotome могла отобразить изменения в тематических областях, таких как мода или стили. ## Значимость Chronotome может быть применен в различных областях, таких как анализ социальных сетей, мониторинг медиа-трендов и анализ исторических данных. Он предоставляет новый способ понимания временных тем в данных. Его преимущество заключается в реальном времени обновлении данных, что делает его крайне полезным для аналитиков и исследователей, которые работают с динамическими данными. ## Выводы Chronotome представляет собой перспективный подход к визуализации временных тем в данных. Наши результаты показали, что он может эффективно отражать изменения в тематических пространствах в реальном времени. Будущие исследования будут сосредоточены на улучшении точности кластеризации и интеграции дополнительных функций, таких как интерактивная настройка.

Annotation:

Many real-world datasets -- from an artist's body of work to a person's social media history -- exhibit meaningful semantic changes over time that are difficult to capture with existing dimensionality reduction methods. To address this gap, we introduce a visualization technique that combines force-based projection and streaming clustering methods to build a spatial-temporal map of embeddings. Applying this technique, we create Chronotome, a tool for interactively exploring evolving themes in ti...

ID: 2509.01051v1 cs.HC, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly

2025-09-05

Авторы:

Kimihiro Hasegawa, Wiradee Imrattanatrai, Masaki Asada, Susan Holm, Yuran Wang, Vincent Zhou, Ken Fukuda, Teruko Mitamura

## Контекст Процедурные вопросы и ответы (QA) на тему сборки являются ключевым аспектом в развитии систем помощников для сборочных задач. Однако существующие ресурсы не достаточно приспособлены для прикладных оценок систем в реальных условиях, особенно в сфере сборки. Это приводит к недостатку тестовых средств для эффективной оценки моделей в этой области. Для решения этой проблемы мы предлагаем новый многомодальный датасет QA под названием **ProMQA-Assembly**, который предназначен для оценки моделей процедурного QA в реальных условиях сборки. Этот датасет состоит из 391 пар вопросов и ответов, требующих многомодального понимания видеозаписей человеческих действий и их инструкционных мануалов. Мы применяем семиотоматизированный подход к подготовке данных, который сочетает генерирование кандидатов с помощью глубоких нейронных сетей и их проверку человеком. Этот подход позволяет снизить затраты и улучшить качество данных. Также мы вводим задачи сборки игрушевых автомобилей и создаем графы задач, используемые для оценки моделей и улучшения процесса верификации. ## Метод Мы разработали **ProMQA-Assembly**, новый многомодальный датасет QA, состоящий из видеозаписей, инструкционных мануалов и вопросов, требующих многомодального понимания. Для создания датасета мы использовали семиотоматизированный подход: глубокие нейронные сети генерируют кандидаты для вопросов и ответов, которые подвергаются отбору и проверке человеком. Это позволяет сократить затраты на подготовку данных и улучшить их качество. Мы также вводим графы задач для сборочных задач, таких как сборка игрушевых автомобилей, что помогает улучшить процесс проверки ответов и делает их более точными. Эти графы также используются в бенчмарк-экспериментах для оценки моделей QA. ## Результаты Мы провели эксперименты с использованием **ProMQA-Assembly** и сравнили результаты с современными моделями QA. Наши результаты показали, что текущие модели показывают низкий уровень точности в обработке многомодальных задач сборки. Это указывает на необходимость дальнейших исследований и улучшений в области многомодального QA для сборочных задач. Мы также выявили, что использование графов задач и многомодальных данных может существенно повысить качество моделей и улучшить их подход к решению задач сборки. ## Значимость Наш датасет **ProMQA-Assembly** может применяться в различных прикладных сферах, включая системы помощников для сборочных задач в промышленных условиях и домашних условиях. Он обеспечивает более точную оценку моделей QA, позволяя разработчикам создавать более эффективные системы. Этот датасет также может быть применен

Annotation:

Assistants on assembly tasks have a large potential to benefit humans from everyday tasks to industrial settings. However, no testbeds support application-oriented system evaluation in a practical setting, especially in assembly. To foster the development, we propose a new multimodal QA dataset on assembly activities. Our dataset, ProMQA-Assembly, consists of 391 QA pairs that require the multimodal understanding of human-activity recordings and their instruction manuals in an online-style manne...

ID: 2509.02949v1 cs.CL, cs.CV

arXiv PDF

1
2
11
12
13
14
15
16
17

Показано 121 - 130 из 162 записей