Large VLM-based Stylized Sports Captioning

2508.19295v1 cs.CV, cs.LG 2025-08-29

Авторы:

Sauptik Dhar, Nicholas Buoncristiani, Joe Anakata, Haoyu Zhang, Michelle Munson

Резюме на русском

## Контекст Область исследования сосредоточена на автоматизации генерации научного текста с использованием больших лингвистических моделей. Данная область имеет реlevance, так как существуют различные системы, которые могут автоматизировать поиск, рекомендации и создание контента. Несмотря на это, существуют недостатки, так как большинство текущих моделей недостаточно интегрированы в понятие моделирования текста, а также не могут применяться к специальным отраслям, таким как спорт. Для спортивных событий, в частности, создание стилизованных картинных стилизованных каптионов является достаточно сложным делом. Исследование этой проблемы может способствовать развитию более глубокого понимания спортивных действий и их описания в естественном языке. ## Метод Предлагаемый подход - это двухуровневая оптимизация большой лингвистической модели (LVLM) с использованием специальных критериев для генерации стилизованных спортивных каптионов. Методология включает в себя: 1) тренировку LVLM с использованием специального набора данных спортивных изображений с тегами, 2) пост-обработку результатов генерации с использованием техники fine-tuning, которая позволяет применять стилизованные стили текста и улучшать точность описания. Архитектура включает в себя несколько слоев сверточных и аттенционных нейронных сетей, а также механизмы для управления стилистическими функциями текста. ## Результаты Использовались данные из популярных спортивных событий, включая Super Bowl LIX. Модель была проверена на различных показателях качества, таких как F1-меры и BERT-скоры. Полученные результаты показали улучшение в 8-10% в F1-мере и 2-10% в BERT-скоре в сравнении с альтернативными подходами. Также была оценена скорость исполнения модели, которая позволяла генерировать каптионы в режиме реального времени во время игры. На Super Bowl LIX модель способна применяться в практических целях, таких как журналистика и анализ спортивных событий в реальном времени. ## Значимость Предлагаемый подход может применяться в различных областях, включая спортивную журналистику, создание стилизованных спортивных контента в реальном времени и анализ игровых действий. Благодаря small runtime memory footprint, модель может быть интегрирована в production-grade системы для журналистики или обработки данных в спорте. Это может повлиять на развитие технологий, способствующих лучшему пониманию и описанию спортивных контентов в стилях. ## Выводы Основным достижением является создание метода, который позволяет генерировать стилизованные спортивные каптионы с более высоким качеством. Будущие исследования будут напра

Abstract

The advent of large (visual) language models (LLM / LVLM) have led to a deluge of automated human-like systems in several domains including social media content generation, search and recommendation, healthcare prognosis, AI assistants for cognitive tasks etc. Although these systems have been successfully integrated in production; very little focus has been placed on sports, particularly accurate identification and natural language description of the game play. Most existing LLM/LVLMs can explain generic sports activities, but lack sufficient domain-centric sports' jargon to create natural (human-like) descriptions. This work highlights the limitations of existing SoTA LLM/LVLMs for generating production-grade sports captions from images in a desired stylized format, and proposes a two-level fine-tuned LVLM pipeline to address that. The proposed pipeline yields an improvement > 8-10% in the F1, and > 2-10% in BERT score compared to alternative approaches. In addition, it has a small runtime memory footprint and fast execution time. During Super Bowl LIX the pipeline proved its practical application for live professional sports journalism; generating highly accurate and stylized captions at the rate of 6 images per 3-5 seconds for over 1000 images during the game play.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Large VLM-based Stylized Sports Captioning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация