📚 Саммари научных статей из arXiv

Найдено 162 результатов по запросу 'cs.CL, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Mano Report

2025-09-24

Авторы:

Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang

## Контекст Графические пользовательские интерфейсы (GUI) являются основным средством взаимодействия между пользователем и компьютером. Однако автоматизация интерактивных GUI-задач остается значительной проблемой из-за сложности визуальных элементов, динамических обстановок и необходимости выполнять многоступенчатую логику решения. Существующие методы, основанные на визуально-языковых моделях (VLMs), сталкиваются с ограниченной разрешающей способностью, несоответствием доменов и недостаточной цепочкой последовательных решений. Для решения этих проблем предлагается Mano — современный GUI-агент, построенный на базе многомодальной основной модели, прошедшей предварительную обучение на большом множестве веб-данных и системных компонентов. Метод Mano включает в себя инновационный симулированный экспериментальный процесс для создания высококачественных данных, последовательную схему обучения (супервизированное тонкое настройка, оффлайн-рекурентное обучение и онлайн-рекурентное обучение), а также модуль проверки для определения ошибок. ## Метод Mano основывается на нескольких ключевых компонентах. Сначала используется многомодальная основная модель, прошедшая предварительное обучение на веб-данных и системных компонентах, что обеспечивает высокую точность в распознавании элементов GUI. Затем вводится симулированный экспериментальный процесс, который генерирует высококачественные данные для обучения в условиях контролируемой среды, уменьшая необходимость работы в настоящем времени. Обучение происходит в трех этапах: супервизированное тонкое настройка (для основного понимания данных), оффлайн-рекурентное обучение (для повышения логических рассуждений) и онлайн-рекурентное обучение (для улучшения реагирования в реальном времени). Наконец, Mano включает модуль проверки, который исправляет ошибки в реакции и обеспечивает согласованность при выполнении задач. ## Результаты Результаты Mano были проверены на нескольких GUI-бенчмарках, включая Mind2Web и OSWorld. Метод показал значительные улучшения в успешном выполнении задач и точности выполнения действий. Например, Mano показал увеличение успешности выполнения задач в сравнении с предшествующими методами на 15%-20%, что демонстрирует возможность метода для работы в реальных сложных ситуациях. Эти результаты подтверждают то, что Mano может адаптироваться к различным GUI-структурам и динамическим условиям взаимодействия. ## Значимость Mano предлагает новые возможности для автоматизации GUI-задач в различных областях, включая контроль программ, мониторинг систем и клиентскую поддержку. Он превосходит предыдущие

Annotation:

Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal found...

ID: 2509.17336v1 cs.MM, cs.CL, cs.CV

arXiv PDF

📄 Vision Language Models Are Not (Yet) Spelling Correctors

2025-09-24

Авторы:

Junhong Liang, Bojun Zhang

## Контекст Vision Language Models (VLMs) становятся все более широко применяемыми в различных задачах, включая распознавание и взаимодействие с образами. Одним из важных подходов является визуальное знакование, которое включает не только распознавание текста в изображениях, но и его коррекцию. Несмотря на необходимость, существуют ограничения в том, насколько хорошо VLMs способны выполнять задачи визуального знакования. Одна из трудностей заключается в том, что VLMs должны не только находить ошибки в тексте, но и исправлять их. Это создает проблемы, так как современные модели могут быть неэффективными в обработке текста, содержащегося в изображениях. Этот раздел исследования сосредоточен на улучшении визуального знакования, особенно в условиях реального мира, где ошибки в тексте являются частым явлением. ## Метод Мы представляем ReViCo (Real Visual Correction), первый бенчмарк, посвященный оценке VLMs в реальных условиях визуального знакования. ReViCo включает в себя естественные ошибки, собранные из реального изображения, и предлагает тщательную оценку на уровне изображений и токенов. Мы проводим эксперименты с открытыми моделями, такими как Qwen и InternVL, а также закрытыми системами, такими как GPT-4o и Claude. Мы также рассматриваем две основные стратегии для улучшения результатов: Joint OCR-Correction Pipeline, которая объединяет обработку текста и корректировку в одном процессе, и Background Information Enhanced Approach, который использует контекстные сведения для повышения точности. ## Результаты Через тщательные эксперименты, мы показали, что текущие VLMs показывают существенное расхождение с человеческой высокой точностью в задачах визуального знакования, особенно в корректировке. Наша оценка показывает, что даже самые продвинутые модели, такие как GPT-4o и Claude, далеки от совершенства, особенно в области корректировки ошибок. Мы также продемонстрировали, что стратегии, такие как Joint OCR-Correction Pipeline и Background Information Enhanced Approach, дают значительные повышения производительности, но не достигают совершенства. ## Значимость Эта работа имеет важное значение в области визуального знакования и редактирования текста. Она может быть применима в различных сферах, таких как системы управления информацией, мобильные приложения, интеллектуальные технологии, и даже в сфере образования. Мы убеждены, что продвижение этой области может принёсти значительные преимущества, включая улучшение качества обработки текста в реальном времени, повышение точности и эффективности программных систем. В будущем, мы планируем расширить ReViCo, добавив более разнообразные данные и улучшив его многомодальные возможности. ## Выводы Мы представили ReViCo, первый б

Annotation:

Spelling correction from visual input poses unique challenges for vision language models (VLMs), as it requires not only detecting but also correcting textual errors directly within images. We present ReViCo (Real Visual Correction), the first benchmark that systematically evaluates VLMs on real-world visual spelling correction across Chinese and English. ReViCo contains naturally occurring errors collected from real-world image data and supports fine-grained evaluation at both image and token l...

ID: 2509.17418v1 cs.CL, cs.CV

arXiv PDF

📄 TASO: Task-Aligned Sparse Optimization for Parameter-Efficient Model Adaptation

2025-09-24

Авторы:

Daiye Miao, Yufang Liu, Jie Wang, Changzhi Sun, Yunke Zhang, Demei Yan, Shaokang Dong, Qi Zhang, Yuanbin Wu

#### Контекст Параметр-эффективная методика гибернации моделей (fine-tuning), такая как LoRA, получила широкую популярность благодаря простоте и эффективности. Однако многие исследования отмечают, что LoRA обычно вводит значительный параметрический избыток, что увеличивает размер модели и препятствует эффективному обучению. Удаление этих избыточных параметров является сложной задачей, поскольку идентификация избыточных элементов в LoRA требует точного анализа. Мы предлагаем TASO, метод, основанный на информации о весах предобученной модели, для уменьшения параметрического избытока в LoRA. #### Метод TASO использует важность параметров, определяемую на основе весов предобученной модели, для выявления областей, которые имеют сильнейшее влияние на целевую задачу. Эти области делятся на "ключевые" и "неключевые", а затем используются для определения структуры LoRA-модулей. Это позволяет уменьшить число необходимых параметров до того, как начать fine-tuning. Метод TASO предлагает новую точку зрения на уменьшение избыточности в LoRA, адаптируясь к задаче. #### Результаты Мы проверили TASO на нескольких задачах, включая обработку естественного языка и задачи классификации изображений. Наши эксперименты показали, что TASO постоянно превосходит стандартную LoRA в плане точности работы, даже при использовании одного и того же параметрического бюджета. Например, в задаче обработки естественного языка, TASO с $r = 1$ показал значительное улучшение в сравнении со стандартной LoRA. Эти результаты доказывают, что TASO эффективно уменьшает избыточность в LoRA без потери качества. #### Значимость TASO может применяться в различных областях, где необходима эффективная модель, например, для обработки естественного языка, классификации изображений и других задач, требующих ресурсоемких моделей. Он обеспечивает снижение требуемого числа параметров, уменьшая накладные расходы на обучение и развертывание моделей. Это может привести к более удобным и экономичным решениям в промышленных внедрениях. #### Выводы TASO доказывает, что можно значительно уменьшить избыточность в LoRA, используя информацию о весах предобученной модели. Это приводит к уменьшению числа параметров, необходимых для fine-tuning, при этом сохраняя качество работы модели. Будущие исследования будут направлены на расширение TASO для других параметр-эффективных методов гибернации и улучшение его эффективности на более сложных задачах.

Annotation:

LoRA has become one of the most widely used parameter-efficient fine-tuning methods due to its simplicity and effectiveness. However, numerous studies have shown that LoRA often introduces substantial parameter redundancy, which not only increases the number of trainable parameters but also hinders the effectiveness of fine-tuning. Since identifying redundant parameters in LoRA is inherently difficult, how to eliminate them efficiently and accurately remains a challenging problem. In this paper,...

ID: 2509.17688v1 cs.CL, cs.CV

arXiv PDF

📄 MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

2025-09-24

Авторы:

Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan

#### Контекст Увеличение объема данных и многообразия моделей обработки решаются с помощью мультимодальных моделей. Одной из проблем является качество обработки информации и ее точность в различных контекстах. Многие модели вынуждены оптимизировать как выравнивание, так и скорость обработки данных, что приводит к сложностям в реализации. Требуется модель, которая могла бы сочетать высокую точность и эффективность, а также удовлетворять требованиям различных сценариев применения. #### Метод Мы предлагаем MetaEmbed, новую архитектуру для мультимодального взаимодействия, которая использует последовательность Meta-токенов в качестве векторов для запросов и документов. Задача MetaEmbed состоит в том, чтобы лучше управлять хранением информации в сложной мультимодальной среде. Затем, во время обучения, мы добавляем заранее определенные мета-токены к входной последовательности. Во время выполнения, эти мета-токены представляют собой контекстные векторы, которые могут расширяться в несколько векторов для эффективной обработки. Метод Matryoshka Multi-Vector Retrieval обеспечивает выбор того, сколько векторов будет использовано в зависимости от требований к скорости и точности. #### Результаты Мы проверили MetaEmbed на двух больших наборах данных, Massive Multimodal Embedding Benchmark (MMEB) и Visual Document Retrieval Benchmark (ViDoRe). Наши результаты показали, что MetaEmbed показывает высокую эффективность и гибкость при работе с моделями, имеющими до 32 миллиардов параметров. Она удачно обеспечивает безупречное качество во время обработки и способна эффективно масштабироваться в зависимости от требований. #### Значимость Метод MetaEmbed может быть применен в различных сценариях, таких как поиск изображений, текста, а также в любых задачах, требующих высокого качества поиска и эффективности. Он обеспечивает дополнительные преимущества, такие как гибкость в выборе векторов и удобство в интеграции с другими моделями. Это открывает путь к новым возможностям в мультимодальной обработке, что может повлиять на развитие машинного обучения в области визуальных систем. #### Выводы Мы представили MetaEmbed, создав модель, которая значительно улучшает представление информации в мультимодальных средах. Мы показали, что модель хорошо справляется с масштабированием и достигает высокого качества работы в разных условиях. Наша работа открывает новые возможности для будущих исследований, в том числе в строительстве более эффективных моделей для мультимодальных задач.

Annotation:

Universal multimodal embedding models have achieved great success in capturing semantic relevance between queries and candidates. However, current methods either condense queries and candidates into a single vector, potentially limiting the expressiveness for fine-grained information, or produce too many vectors that are prohibitively expensive for multi-vector retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal retrieval that rethinks how multimodal embeddings are co...

ID: 2509.18095v1 cs.IR, cs.CL, cs.CV

arXiv PDF

📄 Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

2025-09-22

Авторы:

Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo

## Контекст В последние годы возросло интерес к развитию ролевых агентов (Role-playing Agents, RPAs), которые способны эмулировать имимерсивные и интерактивные персонажи в различных ситуациях. Однако существующие подходы значительно ограничены, так как основываются только на статических характеристиках персонажей и не учитывают их динамические характеристики, такие как восприятие и реакция на внешний мир. Это существенно ограничивает возможности RPAs в создании более живых и натуральных общений. Мотивирует это тем, что человеческое восприятие и интерактивность характеризуются значительно более гибким, динамическим подходом, который недостаточно учтен в нынешних моделях. Наше исследование направлено на решение этой проблемы, вводя динамические ролевые профили, которые интегрируют видео модальность в RPAs. ## Метод Мы предлагаем Role-playing-Video60k — большой, высококачественный датасет, содержащий 60 тысяч видеозаписей и соответствующих им 700 тысяч диалогов. Для построения динамического ролевого профиля мы адаптивно выбираем кадры из видео и подаем их в трансформерные модели в порядке их воспроизведения. Для динамического ролевого профиля также включается контекстная информация из входных видео во время инференса. Для создания статического профиля используются диалоги персонажей из обучающих видео и краткий сводный контекст из входных видео для инференса. Наша фреймворк сочетает эти два подхода для генерирования более естественных и контекстуально верных ответов. Оценка эффективности проводится по 8 метрикам, чтобы гарантировать тщательное исследование возможностей фреймворка. ## Результаты Мы провели тщательное экспериментальное исследование, используя три основных набора данных, в том числе наш Role-playing-Video60k. Эксперименты показали, что интеграция динамических ролевых профилей значительно улучшает качество ответов RPAs. Мы также проверили различные аспекты нашей модели, включая точность восприятия контекста, гибкость в реагировании на видео, а также время и ресурсы, необходимые для обработки. Эти результаты отражают не только повышение качества ответов, но и эффективность нашей модели в условиях реальной ситуации. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как виртуальные ассистенты, игровые персонажи и даже системы обучения через игровые сценарии. Он предоставляет значительные преимущества, такие как повышение точности и интерактивности в общении, а также расширение возможностей для пользователей. Будущие исследования смо

Annotation:

Role-playing agents (RPAs) have attracted growing interest for their ability to simulate immersive and interactive characters. However, existing approaches primarily focus on static role profiles, overlooking the dynamic perceptual abilities inherent to humans. To bridge this gap, we introduce the concept of dynamic role profiles by incorporating video modality into RPAs. To support this, we construct Role-playing-Video60k, a large-scale, high-quality dataset comprising 60k videos and 700k corre...

ID: 2509.15233v1 cs.MM, cs.CL, cs.CV

arXiv PDF

📄 The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning

2025-09-18

Авторы:

Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang

## Контекст Визуально-языково-действительные (Vision-Language-Action, VLA) модели представляют собой мощные инструменты для выполнения сложных задач в реальном мире, особенно в сфере робототехники. Однако эти модели часто сталкиваются с проблемами эффективности, возникающими из-за тяжеловесной вычислительной нагрузки, связанной с использованием внимательных методов (attention-based methods) на больших множествах визуальных токенов. Эта проблема становится особенно критической при развертывании на ресурс-ограниченных платформах, таких как мобильные устройства или роботы с ограниченными вычислительными возможностями. Напрямую решать эту проблему требует создания методов, способных эффективно снижать нагрузку, не ухудшая получаемые результаты. Наше исследование сосредоточено на развитии такого подхода, способного обеспечить эффективность в реальном времени и сохранить высокую точность выполнения задач. ## Метод Мы предлагаем LightVLA — простой, но эффективный разностиальный (differentiable) метод токен-преобразования (token pruning) для VLA-моделей. Основным идейным принципом LightVLA является адаптивное удаление ненужных токенов в процессе работы модели, чтобы сократить вычислительную нагрузку без потери точности. Реализация этого подхода основывается на динамическом определении важности токенов с помощью динамических запросов (queries) и применении Gumbel-softmax для различения токенов. Это позволяет модели самостоятельно "учиться" поддерживать только наиболее важные токены для того, чтобы выполнить задачу. Этот процесс не требует дополнительных параметров для обучения и может быть интегрирован с любыми современными инференсными фреймворками. ## Результаты Мы провели эксперименты на LIBERO бенчмарке, сравнив LightVLA с другими VLA-моделями и существующими методами токен-преобразования. Результаты показали, что LightVLA не только повышает успешность выполнения задач, но и значительно уменьшает объем вычислений (FLOPs) и задержки (latency). Точнее, LightVLA снижает FLOPs и latency на 59.1% и 38.2% соответственно, при этом повышая успешность выполнения задач на 2.9%. Эти результаты указывают на успешное достижение сбалансированного соотношения эффективности и точности в работе модели. Для дальнейшего исследования, мы также проанализировали особенности learnable query-based pruning метода LightVLA*, который также показал высокую эффективность. ## Значимость LightVLA открывает новые возможности для использования VLA-моделей в реальном времени, особенно на ресурс-ограниченных платформах. Он привносит значительные преимущества в области уменьшения требований к вычислениям и повышения эффективности при выполнении задач. Это может привести к расши

Annotation:

We present LightVLA, a simple yet effective differentiable token pruning framework for vision-language-action (VLA) models. While VLA models have shown impressive capability in executing real-world robotic tasks, their deployment on resource-constrained platforms is often bottlenecked by the heavy attention-based computation over large sets of visual tokens. LightVLA addresses this challenge through adaptive, performance-driven pruning of visual tokens: It generates dynamic queries to evaluate v...

ID: 2509.12594v1 cs.RO, cs.CL, cs.CV

arXiv PDF

📄 ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement

2025-09-18

Авторы:

Ali Salamatian, Amirhossein Abaskohi, Wan-Cyuan Fan, Mir Rayat Imtiaz Hossain, Leonid Sigal, Giuseppe Carenini

#### Контекст Картинки являются важной визуальной формой представления информации, играя ключевую роль в обмене информацией и принятии решений. Несмотря на то, что Large Vision-Language Models (LVLMs) демонстрируют последовательные улучшения во взаимодействии с картинками, при работе с задачами картиночного обращения (CQA) возникают проблемы. Одним из главных критериев является внимание моделей: часто они следят за незначимыми или некорректными областями картинки, что снижает точность и читаемость. Это говорит об ограничениях в текущих моделях и показывает необходимость усовершенствований. Наша мотивация заключается в создании новых технологий, которые позволят LVLMs более точно следовать человеческим газовым паттернам, улучшая качество решения задач. #### Метод Для изучения этой проблемы мы разрабатываем методологию ChartGaze, которая включает в себя сбор данных о газах человека во время выполнения задач по разбору картинок. Мы используем техники газового слежения (eye-tracking), чтобы регистрировать и анализировать точки внимания людей во время работы с картинкой. Для сравнения мы проводим эксперименты с LVLMs, которые применяются к той же задаче. Основным техническим решением является гибкое рефининиг привязки внимания моделей к значимым областям, основываясь на газах человека. Эта гибкость позволяет выравнивать модельное внимание с газами, увеличивая точность и понятность. #### Результаты Мы провели эксперименты с несколькими моделями LVLMs на данных ChartGaze. Наши результаты показывают, что применение газового рефининига приводит к существенным улучшениям. В частности, LVLMs показывают улучшение точности ответов на вопросы (CQA) до 2.56%, сравниваясь с базовыми версиями, не использующими газовую рефининигацию. Мы также провели сравнение субъективных результатов между гуманными и модельными газами, которое подтвердило, что модели, использующие ChartGaze, более точно следуют человеческим газам и, следовательно, демонстрируют более высокий уровень точности и читаемости. #### Значимость Наша работа имеет большой потенциал в различных областях, где качество интеракции с картинками играет ключевую роль. Например, в области медицины, управления проектами, финансов и образования модели, улучшенные с помощью ChartGaze, могут дать более точные и понятные ответы. Основные преимущества заключаются в увеличении точности, более естественных и понятных ответов, а также снижении возможности человеческого вмешательства для исправления модели. Эти достижения открывают новые пути к улучшению технологий работы с картинками, увеличивая их ценность в реаль

Annotation:

Charts are a crucial visual medium for communicating and representing information. While Large Vision-Language Models (LVLMs) have made progress on chart question answering (CQA), the task remains challenging, particularly when models attend to irrelevant regions of the chart. In this work, we present ChartGaze, a new eye-tracking dataset that captures human gaze patterns during chart reasoning tasks. Through a systematic comparison of human and model attention, we find that LVLMs often diverge ...

ID: 2509.13282v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation

2025-09-17

Авторы:

Yunheng Wang, Yuetong Fang, Taowen Wang, Yixiao Feng, Yawen Tan, Shuning Zhang, Peiran Liu, Yiding Ji, Renjing Xu

## Контекст Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для обеспечения взаимодействия облегчённых роботов с реальным миром. Она связывает языковые инструкции с восприятием и действиями в реальной среде. Несмотря на то, что последние годы данная область получила значительный прогресс, существуют трудности, связанные с ограниченным доступом к данным, высокой стоимостью восприятия и неэффективностью планирования. В попытках улучшить эти аспекты, данная работа предлагает инновационный подход, который нацелен на повышение точности и эффективности в VLN-CE. ## Метод DreamNav — это архитектура, основанная на прогностическом планировании, которая включает в себя три основных компонента: (1) **EgoView Corrector** для корректировки нарушений в зрении и улучшения его стабильности, (2) **Trajectory Predictor**, который реализует глобальное планирование на более высоком уровне, чтобы улучшить соответствие активности инструкциям, и (3) **Imagination Predictor**, который добавляет в систему прогностическую способность, позволяющую роботу предполагать дальнейшие действия на более длительные периоды времени. Эти компоненты объединены в единую систему, чтобы обеспечить более эффективное и точное взаимодействие робота с реальным миром. ## Результаты На основе экспериментов на VLN-CE и реальных тестах DreamNav показал выдающиеся результаты. Он завоевал новый zero-shot state-of-the-art (SOTA), повысив результаты по метрикам Success Rate (SR) и Success weighted by Path Length (SPL) на 7.49% и 18.15% соответственно, в сравнении с самым близким конкурентом, использующим дополнительную информацию. Эти результаты отвечают высоким стандартам эффективности и реалистичности в VLN-CE. ## Значимость Данный подход может быть применён в различных областях, включая робототехнику, виртуальную реальность и интеллектуальные системы управления. Он обеспечивает более точное планирование, экономичность в реализации и улучшенную стабильность. Таким образом, он открывает новые возможности для применения в реальном мире, улучшая качество и эффективность взаимодействия роботов с окружающим миром. ## Выводы Разработанная система DreamNav представляет собой новую модель zero-shot VLN, которая стабильно улучшает результаты в многих аспектах. В дальнейшем, авторы планируют расширить возможности данного подхода, ориентируясь на более сложные сценарии и более высокую степень интеграции с окружающим миром.

Annotation:

Vision-and-Language Navigation in Continuous Environments (VLN-CE), which links language instructions to perception and control in the real world, is a core capability of embodied robots. Recently, large-scale pretrained foundation models have been leveraged as shared priors for perception, reasoning, and action, enabling zero-shot VLN without task-specific training. However, existing zero-shot VLN methods depend on costly perception and passive scene understanding, collapsing control to point-l...

ID: 2509.11197v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech

2025-09-15

Авторы:

Ngoc-Son Nguyen, Hieu-Nghia Huynh-Nguyen, Thanh V. T. Tran, Truong-Son Hy, Van Nguyen

#### Контекст Zero-shot Text-to-Speech (TTS) — это задача синтеза речи, которая нацелена на то, чтобы создать голос, который бы повторял голос неизвестного речи, используя только короткий референсный звуковой фрагмент. Это задача требует не только подгонки голосового стиля, но и точной моделировании просодических атрибутов, таких как тембр, ритм и интонация. Несмотря на то, что некоторые последние подходы, основанные на языковых моделях, диффузии и потоковой моделировании, демонстрируют уверенные результаты в этой области, они по-прежнему страдают от медлительных процессов инференции и репититивных артефактов. Выбор сжатых кодировок речи, таких как дискретные значения, в качестве исходных данных для диффузионных моделей может улучшить эффективность и качество синтеза речи. Именно этот принцип стал основой для разработки DiFlow-TTS. #### Метод DiFlow-TTS — это первая модель, в которой применяется полностью дискретное моделирование потоков для синтеза речи. Модель использует факторизованные представления речи, включая звуковые атрибуты, ритм и акцент, которые основываются на дискретных кодированных символах. Она применяет дискретные диффузионные модели для точного моделирования этих атрибутов. Для улучшения произносимости и стиля голоса DiFlow-TTS применяет вкладывание контекста, позволяя модели учитывать текст, просодические и акустические атрибуты от ссылочного речи. Эта модель также использует независимые механизмы предсказания для просодических и акустических деталей, что позволяет детально управлять каждым аспектом речи. #### Результаты Наши эксперименты показали, что DiFlow-TTS превосходит существующие подходы по многим ключевым показателям. Она достигает высокого уровня природности речи, точности воспроизведения звуковых атрибутов и стиля речи. Благодаря факторизованной архитектуре, модель обеспечивает низкую задержку инференции и способна синтезировать речь до 25.8 раз быстрее, чем существующие модели. Эксперименты проводились на различных датасетах речи, и результаты показали, что DiFlow-TTS эффективно моделирует просодические и акцентные характеристики, даже при очень коротких референсных фрагментах. #### Значимость DiFlow-TTS открывает новые возможности для дискретных диффузионных моделей в области текстового говорящего ассистента. Ее применение может иметь значительное влияние в сферах, где требуется высококачественный синтез речи с минимальной задержкой, таких как видеоконференцсвязь, голосовые помощники и синтез речи для личных устройств. Благодаря своему компактному размеру модели и быстрой инференции, DiFlow-TTS может быть испо

Annotation:

Zero-shot Text-to-Speech (TTS) aims to synthesize high-quality speech that mimics the voice of an unseen speaker using only a short reference sample, requiring not only speaker adaptation but also accurate modeling of prosodic attributes. Recent approaches based on language models, diffusion, and flow matching have shown promising results in zero-shot TTS, but still suffer from slow inference and repetition artifacts. Discrete codec representations have been widely adopted for speech synthesis, ...

ID: 2509.09631v2 cs.SD, cs.CL, cs.CV

arXiv PDF

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-15

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

## Контекст В последние годы, развитие многомодальных больших языковых моделей (MLLMs) обеспечило новые возможности для развития обеспечивает моделей, обладающих способностью к объединению разных модальностей, выполнять логическое рассуждение и взаимодействовать в реальном мире. Тем не менее, существуют две ключевые проблемы в существующих MLLM-ориентированных обеспеченных системах. Во-первых, **Geometric Adaptability Gap**: модели, обученные только на 2D-входных данных или жестко инжектированных с 3D-геометрией, либо не могут достаточно интеллектуально справляться с пространственными задачами, либо ограничиваются лишь 2D-ограниченным генерализированным подходом. Во-вторых, **Embodiment Constraint Gap**: существующие системы часто игнорируют практические ограничения реальных роботов, что приводит к планам, которые теоретически могут быть верны, но невыполнимы в реальности. Данная работа предлагает решение этих проблем через разработку OmniEVA — универсального планировщика, который включает в себя развитые инновационные подходы к обеспеченному планированию. ## Метод OmniEVA основывается на двух ключевых инновационных механизмах: 1. **Task-Adaptive 3D Grounding**: Этот механизм включает в себя гейтед рутор, который регулирует селективное включение 3D-данных в зависимости от контекста. Это позволяет модели сделать контекстуально-адаптивные 3D-определения, делая ее более универсальной для различных задач. 2. **Embodiment-Aware Reasoning**: Рамочная модель включает в себя как цели задачи, так и ограничения физических возможностей робота в процессе логического рассуждения. Это приводит к решениям, которые как придерживаются целей, так и выполнены в соответствии с техническими возможностями робота. ## Результаты Для оценки OmniEVA, авторы проводили ряд экспериментов на имитационных и реальных средах. Были использованы следующие наборы данных: - **Task-Adaptive 3D Grounding**: Модель продемонстрировала улучшения в задачах, требующих высокого пространственного разума, таких как перемещение предметов и обнаружение. - **Embodiment-Aware Reasoning**: Анализ показал, что OmniEVA превосходит конкурентные модели в ситуациях, где требуется жесткое соблюдение физических ограничений, таких как ограничения на роботов в реальной зоне. В результате, OmniEVA показала значительные улучшения в общем embodied reasoning и демонстрирует высокую гибкость при решении различных задач. ## Значимость OmniEVA имеет широкое применение в различных областях: - Робототехника: Она может быть использована для планирования поведения роботов в различных пространственных конфигурациях. - Домашний ассистент: Модель может по

Annotation:

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalizati...

ID: 2509.09332v2 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

1
2
10
11
12
13
14
16
17

Показано 111 - 120 из 162 записей