📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Harshit Rajgarhia, Shivali Dalmia, Mengyang Zhao, Mukherji Abhishek, Kiran Ganesh

## Контекст В мире мультиязычного рынка адаптация рекламы для разных языковых аудиторий требует больше, чем просто перевода текста. Это включает сохранение визуальной консистентности, пропорций и стиля при переводе на разные языки и форматы. Однако существуют сложности, такие как обнаружение текста, интеграция стилистических элементов и обеспечение грамотной редактирования в многоязычных рекламных материалах. Эти проблемы существенно замедляют процессы оценки и согласования рекламных материалов, что вызывает потребность в продуктивных решениях. ## Метод Для развития эффективного подхода, комбинирующего автоматизированные компоненты и человеческий вклад, предлагается структурированная модель, включающую следующие элементы: - **Сценарное обнаружение текста:** Использование методов визуального анализа для выделения и извлечения текста из рекламных изображений. - **Инкрементная модель для заполнения отсутствующих частей (inpainting):** Удаление исходного текста и полная редактирования графической части, добавляя новую информацию. - **Машинный перевод (MT):** Преобразование текста на целевой язык с сохранением контекста и смысла. - **Перезапись текста (text reimposition):** Учет нового текста в графической части, сохраняя пропорции и стиль. Этот подход применяется в контексте рекламного центра, обеспечивая проверку и ускорение процессов оценки рекламных материалов. ## Результаты Эксперименты проводились на 6 разных языках, включая японский, китайский, русский, испанский, французский и немецкий. Использовались реальные рекламные материалы для проверки качества адаптации. Результаты показали, что предложенный подход обеспечивает: - **Повышение точности перевода:** 95% из текстовых элементов были корректно переведены и интегрированы. - **Визуальная консистентность:** Оцененные материалы сохранили стиль и пропорции. - **Ускорение процесса оценки:** Уменьшение времени на создание и оценку рекламного материала в 3 раза. ## Значимость Предложенный подход имеет широкое применение в международной рекламе, где необходимо быстро адаптировать рекламу к множеству языков и культурных контекстов. Он позволяет экономить время и ресурсы в процессе оценки рекламных материалов, повышая точность и эффективность. Этот подход также может быть применен в других областях, где требуется быстрая и точная переработка текста в графических ресурсах. ## Выводы Предложенный подход доказал свою эффективность в ускорении процесса оценки рекламного материала в многоязычной среде. Однако для его развити
Annotation:
Adapting advertisements for multilingual audiences requires more than simple text translation; it demands preservation of visual consistency, spatial alignment, and stylistic integrity across diverse languages and formats. We introduce a structured framework that combines automated components with human oversight to address the complexities of advertisement localization. To the best of our knowledge, this is the first work to integrate scene text detection, inpainting, machine translation (MT), ...
ID: 2509.12543v2 cs.AI, cs.CV, cs.LG
Авторы:

Deepti Kunte, Bram Cornelis, Claudio Colangeli, Karl Janssens, Brecht Van Baelen, Konstantinos Gryllias

## Контекст Аудиосигналы внутри электрических автомобилей играют ключевую роль в обеспечении качества продукции и комфорта пассажиров. Однако, обнаружение аномалий в этих звуках часто становится проблемой в условиях нехватки или полной отсутствия меток для неисправностей. Большинство существующих моделей обнаружения аномалий обучаются на звуковых данных, помеченных доброкачественными и неисправными примерами. На практике такие сценарии редко встречаются, что приводит к затруднению моделирования. Это ставит перед исследователями задачу разработки моделей, которые способны обнаруживать аномалии в аудиоданных, обучаясь только на звуках без аномалий. Такое подходение требует разработки новых методов для оценки и выбора моделей, так как простые метрики, такие как ошибка воспроизведения, могут оказаться недостаточно надежными. Таким образом, целью данной работы является разработка метода, информированного доменным знанием, для эффективного выбора моделей обнаружения аномалий в аудиоданных. ## Метод Разработанный метод основывается на инженерии прокси-аномалий, которые являются структурированными изменениями звуковых характеристик здоровых аудиоданных. Для этого аудиозаписи разделяются на фиксированные сегменты, а затем в эти сегменты применяются структурированные шумы, процессы искажения и другие манипуляции, чтобы эмулировать аномалии. Эти прокси-аномалии используются в качестве значков для оценки моделей, которые стремятся отличить их от здоровых звуков. Базовая модель обучается на здоровых данных, а затем проверяется на прокси-аномалиях. Эта процедура позволяет подбирать модели, которые оптимально распознают реальные аномалии, так как прокси-аномалии подобны им в своем структурном поведении. Такой подход позволяет улучшить выбор моделей и повысить надежность обнаружения аномалий в условиях ограниченных данных. ## Результаты Исследование проводилось на высококачественной коллекции данных, содержащей звуковые записи внутри электрических автомобилей в нормальных и аномальных условиях. Обучение проводилось на здоровых звуковых данных, а модели оценивались на прокси-аномалиях. Эксперименты проводились на 5 типах аномалий: Imbalance, Modulation, Whine, Wind и Pulse Width Modulation. Результаты показали, что модели, выбранные с помощью прокси-аномалий, показали значительно лучшие показатели по отношению к традиционным методам, таким как ошибка воспроизведения. Эти результаты подтвердили эффективность инженерии прокси-аномалий в подборе моделей, которые более точно отличают нормальные звуки от аномалий в условиях сильного недостатка меток. ## Значимость Разработа
Annotation:
The detection of anomalies in automotive cabin sounds is critical for ensuring vehicle quality and maintaining passenger comfort. In many real-world settings, this task is more appropriately framed as an unsupervised learning problem rather than the supervised case due to the scarcity or complete absence of labeled faulty data. In such an unsupervised setting, the model is trained exclusively on healthy samples and detects anomalies as deviations from normal behavior. However, in the absence of ...
ID: 2509.13390v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS, I.2.1; I.2.6; I.2.10; I.5.1; I.5.2; J.2; J.7
Авторы:

Mohammadreza Narimani, Ali Hajiahmad, Ali Moghimi, Reza Alimardani, Shahin Rafiee, Amir Hossein Mirzabe

Растениеводство в грунтовом системе или аэропресшенах предполагает интеграцию виртуальных систем управления с прогностическим анализом, чтобы заменить традиционные методы ведения сельского хозяйства. Однако трудности в прогнозировании и реагировании на заболевания в грунтовой системе возникают из-за частоты заболеваний и трудности в определении болезней в этапах их развития. Чтобы уменьшить влияние данных проблем, в настоящей работе предлагается вариант решения для развития смарт-грилла с аэропресшеном, используя технологии IoT и ИИ, чтобы добиться эффективного мониторинга статуса растений и окружающей среды. Использовались три модели ИИ — VGG-19, InceptionResNetV2, и InceptionV3 — для определения болезней листьев, и VGG-19 достигло точности 92% в классификации растений с заболеваниями. Основной вывод: смарт-грилл с аэропресшеном, оснащенный IoT и ИИ, может эффективно контролировать и защищать растения от болезней.
Annotation:
Controlling environmental conditions and monitoring plant status in greenhouses is critical to promptly making appropriate management decisions aimed at promoting crop production. The primary objective of this research study was to develop and test a smart aeroponic greenhouse on an experimental scale where the status of Geranium plant and environmental conditions are continuously monitored through the integration of the internet of things (IoT) and artificial intelligence (AI). An IoT-based pla...
ID: 2509.12274v1 cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.4.8; I.2.6; I.5.4; C.3
Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

## Контекст Vision-language-action (VLA) модели, порожденные из vision-language models (VLMs), предлагают возможность использования богатых предобученных представлений для создания генерализованных роботов, способных выполнять различные задачи в различных средах. Однако прямое оточечение таких моделей на данные из реального мира часто приводит к искажению предобученных представлений, что существенно ограничивает их общеупотребимость. Наличие этой проблемы вызывает нужды в разработке методов, позволяющих лучше сохранить предобученные представления в процессе оточечения на конкретные задачи. ## Метод Методология предложенного подхода основывается на трех ключевых компонентах. Во-первых, используется дизайн двухмасштабной энкодерной системы: один энкодер (для визуальных данных) остается неизменным, чтобы сохранить предобученные представления, а другой энкодер (для задач) тренируется для адаптации к конкретной задаче. Во-вторых, введена структура порождения действий на основе строк текста, которая преобразует непрерывные действия в последовательности символов, соответствующие предобученной модели. В-третьих, предлагается стратегия совместного обучения (co-training), которая объединяет данные от демонстраций робота и визуально-языковых данных, с фокусом на спатсальном рассуждении и навыках удобства действий. ## Результаты Эксперименты проводились как в симуляционной среде, так и на реальных роботах. Модель демонстрировала значительное улучшение в области устойчивости к визуальным нарушениям, общеупотребимости в новых инструкциях и средах, а также общей эффективности в выполнении задач. Эти результаты сравнивались с базовыми моделями, подтверждая значительную выгоду от применения предложенного подхода. ## Значимость Продемонстрированный подход может быть применен в различных областях, включая робототехнику, автоматизацию производственных процессов и визуальных систем управления. Он обеспечивает значительное увеличение общеупотребимости роботов в различных средах и задачах, предоставляя роботам возможность лучшего понимания инструкций и реагирования на новые условия. Это, в свою очередь, может привести к значительным преимуществам в производительности и удобстве использования в различных приложениях. ## Выводы Предложенная модель продемонстрировала улучшение в области общеупотребимости VLA-моделей, сохранив предобученные представления и при этом адаптируя модель к конкретным задачам. Будущие исследования будут сосредоточены на улучшении эффективности обучения, отказе от тренировочных данных, а также рассмотрении более сложных искусственных и настоящих с
Annotation:
Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with on...
ID: 2509.11417v2 cs.RO, cs.AI, cs.CV, cs.LG
Авторы:

Harshit Rajgarhia, Shivali Dalmia, Mengyang Zhao, Mukherji Abhishek, Kiran Ganesh

## Контекст Адаптация рекламы для многоязычных аудиторий представляет собой более сложную задачу, чем простая текстовая переводка. Эта процедура требует сохранения визуальной консистенции, пространственной аналогии и стилистической целостности в разных языках и форматах. Несмотря на развитие технологий, существуют значительные проблемы в управлении частями текста, внедрении информации в изображения, локализации рекламных позиций, а также в поддержании стилистической целостности при переводе. Наша мотивация заключается в разработке системы, которая объединяет автоматические компоненты и человеческий вклад для оптимизации процесса локализации рекламных материалов. ## Метод Мы предлагаем структурированный подход, который объединяет методы автоматизированной обработки и человеческий опыт. Алгоритм начинает с использования системы обнаружения и преобразования текста на сценах (Scene Text Detection and Inpainting), чтобы извлечь и перестроить текстовые элементы на рекламных изображениях. Затем, машинный перевод (Machine Translation, MT) используется для перевода текста на целевой язык. Наконец, текст реимпозируется на изображение с помощью методов внедрения, обеспечивая сохранение стилистической целостности. Эта система адаптируются для работы в реальных условиях и используется для ускорения процесса локализации рекламных материалов. ## Результаты Мы провели эксперименты на шести разных языках и форматах. Наши результаты показывают, что автоматизированные компоненты обеспечивают высокую точность в обнаружении и преобразовании текста, а также эффективность в машинном переводе. Человеческий вклад помогает улучшить точность и гармонию результатов. Основываясь на этих экспериментах, мы показали, что наш подход может значительно ускорить процесс локализации рекламных материалов, сохранив соответствующую точность и стилистическую целостность. ## Значимость Наш подход может применяться во многих областях, включая массовую рекламу, интернет-магазины и локальные медиа. Он обеспечивает значительное ускорение процесса локализации рекламы, повышает точность и качество, а также уменьшает необходимое время и затраты на ручную работу. Этот подход поднимает уровень локализации рекламы на новый уровень, позволяя быстрее адаптироваться к многоязычным аудиториям и повышая эффективность в международной рекламе. ## Выводы Мы представили первый рабочий подход, который объединяет методы автоматизации и человеческий опыт для ускорения процесса локализации рекламных материалов. Наши эксперименты показали, что наш подход эффек
Annotation:
Adapting advertisements for multilingual audiences requires more than simple text translation; it demands preservation of visual consistency, spatial alignment, and stylistic integrity across diverse languages and formats. We introduce a structured framework that combines automated components with human oversight to address the complexities of advertisement localization. To the best of our knowledge, this is the first work to integrate scene text detection, inpainting, machine translation (MT), ...
ID: 2509.12543v1 cs.AI, cs.CV, cs.LG
Авторы:

Damola Agbelese, Krishna Chaitanya, Pushpak Pati, Chaitanya Parmar, Pooya Mobadersany, Shreyas Fadnavis, Lindsey Surace, Shadi Yarandi, Louis R. Ghanem, Molly Lucas, Tommaso Mansi, Oana Gabriela Cula, Pablo F. Damasceno, Kristopher Standish

#### Контекст В области медицинского искусственного интеллекта (МИИ), надежный кванторный анализ (Uncertainty Quantification, UQ) является ключевым для обеспечения надежности и качества результатов. Особенно это актуально при оценке заболеваний, таких как ульцерозная колитис (Ulcerative Colitis, UC), где интервальная вариативность между экспертами является распространенной проблемой. Традиционные методы, такие как Monte Carlo (MC) Dropout и Deep Ensembles (DE), хотя и эффективны для UQ, часто основываются на аннотациях от одного эксперта, что недостаточно учитывает эту вариативность. #### Метод Мы предлагаем MEGAN (Mixture of Experts for Robust Uncertainty Estimation) — сеть, основанную на многоэкспертной модели Evidential Deep Learning (EDL). Эта модель объединяет несколько версий МОД, каждая из которых обучалась на разных аннотационных источниках, отражающих вариативность между экспертами. Гаттинг-сеть MEGAN оптимально объединяет эти модели, уменьшая суммарные ошибки и улучшая калибровку результатов. Наша архитектура позволяет объединять множество "экспертов" с разными источниками данных, что обеспечивает разрешение проблемы вариативности. #### Результаты Мы провели эксперименты на корпусе видео endoscopy для оценки серьезности UC по Mayo Endoscopic Subscore (MES). Результаты показали, что MEGAN превышает традиционные методы: F1-score улучшился на 3.5%, а Expected Calibration Error (ECE) сократился на 30.5%. Модель также позволила установить приоритеты при выборе образцов для аннотации, что может существенно снизить нагрузку на экспертов и улучшить эффективность интерпретации данных. #### Значимость MEGAN оказалась эффективной в области UC-диагностики, но её принципы могут быть распространены на другие медицинские задачи, где важна точная оценка неуверенности. Важность MEGAN также заключается в снижении количества необходимых аннотаций, что сокращает время и ресурсы, необходимые для работы экспертов. #### Выводы Мы доказали, что MEGAN превосходит традиционные методы в некоторых аспектах UQ в медицинских видео. Будущие исследования будут направлены на расширение модели MEGAN для обработки более сложных задач и учета дополнительных факторов, таких как географическая и историческая вариативность между экспертами.
Annotation:
Reliable uncertainty quantification (UQ) is essential in medical AI. Evidential Deep Learning (EDL) offers a computationally efficient way to quantify model uncertainty alongside predictions, unlike traditional methods such as Monte Carlo (MC) Dropout and Deep Ensembles (DE). However, all these methods often rely on a single expert's annotations as ground truth for model training, overlooking the inter-rater variability in healthcare. To address this issue, we propose MEGAN, a Multi-Expert Gatin...
ID: 2509.12772v1 eess.IV, cs.AI, cs.CV, cs.LG
Авторы:

Axel Wiebe Werner, Jonas Beskow, Anna Deichler

## Контекст Гестатуры (Gesture) являются основополагающим элементом человеческих взаимодействий, позволяя выражаться невербально. С появлением цифровых аватаров, использование имитационных гестатур, создаваемых с помощью ИИ, становится все более распространенным для улучшения жизненности моделей. Однако, принято оценивать такие гестатуры в 2D среде, не используя потенциала виртуальной реальности (VR). Виртуальная реальность предлагает более иммерсивный способ оценки, который может изменить представление о гестатурах. В данной работе предлагается сравнительная оценка гестатур, сгенерированных компьютером, в VR и 2D. Для этого использовались три модели, принявшие участие в 2023 году в GENEA Challenge. ## Метод Эксперименты проводились с использованием видео с гестатурами, отображенных в 2D и VR. Участники просматривали записи в тестовой установке и оценивали качество гестатур по нескольким критериям. Данные были сгруппированы и проанализированы с помощью статистических методов. Модели, использованные в тестировании, были обучены с помощью различных техник анализа гестатур, включая модель со встроенной аналитикой, модель с синтезированными гестатурами и модель с морфологическими анализаторами. Архитектура оценочной системы включала в себя интерактивный видео-проигрыватель, виртуальную среду и систему для анализа ответов участников. ## Результаты Гестатуры, просматриваемые в VR, получили более высокую оценку по сравнению с 2D версией. Это отличие было наиболее заметно при использовании модели с морфологическими анализаторами. Однако, рейтинги моделей оставались стабильными в обоих условиях. В VR участники отметили более высокий уровень иммерсии и реализма, что влияло на их представление о качестве гестатур. Эти результаты подтверждают, что VR может стать более эффективным инструментом для оценки гестатур, позволяя улучшить понимание их невербального смысла. ## Значимость Результаты имеют значительное значение для развития технологий в трех областях: 1. **Интерактивные системы**: Улучшение жизненности аватаров в VR системах, позволяющее более точно отображать гуманность и эмоциональность. 2. **Оценка гестатур**: Обеспечение более точной и интуитивно понятной оценки гестатур в имитационных сценариях. 3. **Невербальная коммуникация**: Создание более естественных и эмоционально насыщенных сред для взаимодействия в VR. ## Выводы Основными достижениями являются установленные преимущества VR для оценки гестатур и выявленные отличия в поведении участников в зависимости от среды
Annotation:
Gestures are central to human communication, enriching interactions through non-verbal expression. Virtual avatars increasingly use AI-generated gestures to enhance life-likeness, yet evaluations have largely been confined to 2D. Virtual Reality (VR) provides an immersive alternative that may affect how gestures are perceived. This paper presents a comparative evaluation of computer-generated gestures in VR and 2D, examining three models from the 2023 GENEA Challenge. Results show that gestures ...
ID: 2509.12816v1 cs.HC, cs.AI, cs.CV, cs.LG, 68T50, 68T07, 68U35, H.5.1; H.5.2; I.2.10; I.3.7
Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Parastoo Farajpoor, Hamid Jafarbiglu, Mohsen Mesgaran

## Контекст Branched broomrape (Phelipanche ramosa (L.) Pomel) является клорофилл-дефицитным паразитическим растением, которое наносит существенный ущерб томатным урожаям, выводя из хоста необходимые для роста вещества. Это вредительное растение создает угрозу по высокой продуктивности семян (более 200,000 семян на одно растение, жизнеспособные до 20 лет) и скрытому циклу жизни, который трудно обнаружить в ранних стадиях. Это сильно сказывается на экономических показателях сельского хозяйства, с отчисленными убытками до 80 процентов. Требуется разработать алгоритмы, позволяющие выявлять рассеянные заражения в начальных стадиях развития, чтобы земледельцы могли предпринять меры по борьбе с паразитическим растением вовремя. ## Метод Данная работа предлагает комплексный подход к выявлению рассеянных заражений branched broomrape в туманных зонах теплиц томатных ферм в Калифорнии. Для сбора исходных данных были использованы спутниковые снимки Sentinel-2, отфильтрованные на основе облачности (менее 10%) и временного режима. Далее, проводилась работа с 12 спектральными бандами и геометрией солнца-спутник, численное моделирование 20 вегетационных индексов (например, NDVI, NDMI) с помощью нейронной сети. Для получения траектории развития растения был рассчитан граница периода пересадки-комменulations, а также включены градуирующиеся степени дней. Обучение LSTM-сети проводилось на 18,874 векторах данных по временным рядам 48-х GDD, чтобы выявить тренды в Canopy Chlorophyll Content (CCC). Итоговая модель достигла высокой точности и предсказаний, что демонстрирует возможность спутниковых данных для расширения масштаба обнаружения. ## Результаты В ходе экспериментов разработана система, которая обрабатывала 12 спектральных банд, настраивалась на важные для томатовых ферм вегетационные индексы. Обучение LSTM-сети производилось на 18,874 векторах данных по временным рядам 48-х GDD. Модель достигла 88% точности на обучающем наборе и 87% на тестовом, с предсказанием F1-меры 0.89. Разрешающая способность информативных индексов (например, NDMI, CCC, FAPAR, chlorophyll red-edge index) была проверена на различиях в физиологических условиях в зараженных и нет зараженных полях. Это подтвердило работу системы на основе спутниковых данных для обнаружения паразитических видов в полевых условиях. ## Значимость Разработанная модель представляет собой надежное решение для повышения эффективности борьбы с branched broomrape в тепличных условиях. Она может быть применена в других сельскохозяйственных производствах, где вредители создают угрозу урожаям. Инновационный подхо
Annotation:
Branched broomrape (Phelipanche ramosa (L.) Pomel) is a chlorophyll-deficient parasitic plant that threatens tomato production by extracting nutrients from the host, with reported yield losses up to 80 percent. Its mostly subterranean life cycle and prolific seed production (more than 200,000 seeds per plant, viable for up to 20 years) make early detection essential. We present an end-to-end pipeline that uses Sentinel-2 imagery and time-series analysis to identify broomrape-infested tomato fiel...
ID: 2509.10804v1 eess.IV, cs.AI, cs.CV, cs.LG
Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

## Контекст Vision-language-action (VLA) модели, полученные путем подгонки от vision-language моделей (VLMs), обладают перспективой использования богатых предварительно обученных представлений для создания общих роботов, способных выполнять разнообразные задачи в различных средах. Однако прямое тюнинге на данных роботов часто приводит к разрушению этих представлений и ограничению их общеприменимости. Задача, стоящая перед нами, заключается в разработке метода, который лучше сохранит предварительно обученные функции при одновременной адаптации моделей к задачам роботов. Мы предлагаем рамку, которая лучше сохраняет предварительно обученные функции, при этом их адаптируя к задачам роботов. Данная рамка может повысить общую устойчивость, улучшить общеприменимость и повысить уровень успеха в выполнении задач. ## Метод Мы предлагаем двухэнкодерную архитектуру, где один из энкодеров заморожен для сохранения предварительно обученных представлений, а другой тренируется для адаптации к конкретным задачам. Для того чтобы сделать модели более работоспособными в сфере роботов, мы предлагаем вводить строковые вектора действий, которые преобразуют непрерывные действия в последовательности из символов, подстраиваясь под домен, в котором производилось предварительное обучение модели. Также мы предлагаем стратегию координированного обучения (co-training), которая объединяет данные с демонстраций роботов с данными визуально-языковых моделей, ориентируясь на спациальное рассуждение и аффорданты. Эта стратегия помогает восстановить предварительно обученные представления, при этом добавляя новые специфические для задач роботов функции. ## Результаты Мы проводим эксперименты в симуляционной среде и на реальных роботах, сравнивая наши результаты с традиционными подходами. Наши эксперименты показали, что наш подход увеличивает устойчивость к визуальным возмущениям, улучшает общие способности моделей к новым командам и средам, а также повышает общую степень успеха в выполнении задач. Мы также измеряли производительность на различных тестовых данных, демонстрируя, что наша методология превосходит базовые модели в целом наборе метрик. ## Значимость Наш подход может быть применен в различных областях, таких как автоматизация производственных процессов, помощь инвалидам, и управление домашними устройствами. Он предлагает несколько преимуществ, таких как улучшение общей устойчивости моделей, повышение общей гибкости и устойчивость к изменениям в задачах и окружении. Мы считаем, что наша работа может способствовать развитию универсальных моделей, способных выполнять различные задачи в разных с
Annotation:
Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with on...
ID: 2509.11417v1 cs.RO, cs.AI, cs.CV, cs.LG
Авторы:

Wei-Hsin Yeh, Yu-An Su, Chih-Ning Chen, Yi-Hsueh Lin, Calvin Ku, Wen-Hsin Chiu, Min-Chun Hu, Lun-Wei Ku

## Контекст Спорт — важная часть жизнедеятельности, способствующая физическому здоровью, развитию координации и самооценки. Однако для достижения высоких результатов необходимы качественные тренировки и корректировка техники. Одной из ключевых задач тренера является обнаружение ошибок в движениях и предоставление конструктивного фидбэка. Несмотря на развитие мультимодальных моделей, которые улучшают понимание движений, генерация точных и специфических для спорта инструкций остается трудной задачей. Особенностью данной области является необходимость в доступном, информативном и целевом фидбэке, который может помочь спортсмену в понимании и устранении двигательных ошибок. ## Метод Разработанная модель CoachMe использует референсный подход для разбора спортивных движений. Она анализирует различия между движениями спортсмена и стандартными движениями, учтя такие аспекты, как физические особенности и временные показатели. Такой подход позволяет модели обучаться с применением общих знаний о движениях, а затем применять их к конкретным типам спорта. Модель вырабатывает инструкции, которые не только становятся более конкретными для спорта, но и включают подробные описания ошибок и методы их устранения. ## Результаты За счет использования техники сравнения движений внутри специфических спортивных движений, CoachMe демонстрирует высокую точность в генерации инструкций. Например, в шахте этой модели удалось преобразовать общие модели распознавания движений в технические инструкции для спортсменов. Также были проведены эксперименты на фигурном катании. На тестировании показатель G-Eval показал, что CoachMe превосходит GPT-4o на 31.6% в оценке качества инструкций по фигурному катанию и на 58.3% в случае бокса. Эти результаты подтверждают эффективность модели в генерировании понятных и полезных инструкций. ## Значимость CoachMe может применяться в различных отраслях спорта, в том числе в фигурном катании, боксе и других спортивных дисциплинах. Ее преимущества заключаются в том, что она может обучаться на универсальных данных о движениях и применять их к конкретным видам спорта с ограниченным объемом тренировочных данных. Это увеличивает эффективность тренировок и позволяет спортсменам быстро корректировать свою технику. В будущем модель может быть расширена для других видов спорта и использована для создания интерактивных систем тренировочного контроля. ## Выводы CoachMe представляет собой прорыв в области корректировки техники в спорте, обеспечивая точные и информативные инструкции. Она применяет референсный подход, что позволяет
Annotation:
Motion instruction is a crucial task that helps athletes refine their technique by analyzing movements and providing corrective guidance. Although recent advances in multimodal models have improved motion understanding, generating precise and sport-specific instruction remains challenging due to the highly domain-specific nature of sports and the need for informative guidance. We propose CoachMe, a reference-based model that analyzes the differences between a learner's motion and a reference und...
ID: 2509.11698v1 cs.CL, cs.AI, cs.CV, cs.LG, I.2.7; I.2.10
Показано 81 - 90 из 124 записей