Large VLM-based Stylized Sports Captioning
2508.19295v1
cs.CV, cs.LG
2025-08-29
Авторы:
Sauptik Dhar, Nicholas Buoncristiani, Joe Anakata, Haoyu Zhang, Michelle Munson
Резюме на русском
## Контекст
Область исследования сосредоточена на автоматизации генерации научного текста с использованием больших лингвистических моделей. Данная область имеет реlevance, так как существуют различные системы, которые могут автоматизировать поиск, рекомендации и создание контента. Несмотря на это, существуют недостатки, так как большинство текущих моделей недостаточно интегрированы в понятие моделирования текста, а также не могут применяться к специальным отраслям, таким как спорт. Для спортивных событий, в частности, создание стилизованных картинных стилизованных каптионов является достаточно сложным делом. Исследование этой проблемы может способствовать развитию более глубокого понимания спортивных действий и их описания в естественном языке.
## Метод
Предлагаемый подход - это двухуровневая оптимизация большой лингвистической модели (LVLM) с использованием специальных критериев для генерации стилизованных спортивных каптионов. Методология включает в себя: 1) тренировку LVLM с использованием специального набора данных спортивных изображений с тегами, 2) пост-обработку результатов генерации с использованием техники fine-tuning, которая позволяет применять стилизованные стили текста и улучшать точность описания. Архитектура включает в себя несколько слоев сверточных и аттенционных нейронных сетей, а также механизмы для управления стилистическими функциями текста.
## Результаты
Использовались данные из популярных спортивных событий, включая Super Bowl LIX. Модель была проверена на различных показателях качества, таких как F1-меры и BERT-скоры. Полученные результаты показали улучшение в 8-10% в F1-мере и 2-10% в BERT-скоре в сравнении с альтернативными подходами. Также была оценена скорость исполнения модели, которая позволяла генерировать каптионы в режиме реального времени во время игры. На Super Bowl LIX модель способна применяться в практических целях, таких как журналистика и анализ спортивных событий в реальном времени.
## Значимость
Предлагаемый подход может применяться в различных областях, включая спортивную журналистику, создание стилизованных спортивных контента в реальном времени и анализ игровых действий. Благодаря small runtime memory footprint, модель может быть интегрирована в production-grade системы для журналистики или обработки данных в спорте. Это может повлиять на развитие технологий, способствующих лучшему пониманию и описанию спортивных контентов в стилях.
## Выводы
Основным достижением является создание метода, который позволяет генерировать стилизованные спортивные каптионы с более высоким качеством. Будущие исследования будут напра
Abstract
The advent of large (visual) language models (LLM / LVLM) have led to a
deluge of automated human-like systems in several domains including social
media content generation, search and recommendation, healthcare prognosis, AI
assistants for cognitive tasks etc. Although these systems have been
successfully integrated in production; very little focus has been placed on
sports, particularly accurate identification and natural language description
of the game play. Most existing LLM/LVLMs can explain generic sports
activities, but lack sufficient domain-centric sports' jargon to create natural
(human-like) descriptions. This work highlights the limitations of existing
SoTA LLM/LVLMs for generating production-grade sports captions from images in a
desired stylized format, and proposes a two-level fine-tuned LVLM pipeline to
address that. The proposed pipeline yields an improvement > 8-10% in the F1,
and > 2-10% in BERT score compared to alternative approaches. In addition, it
has a small runtime memory footprint and fast execution time. During Super Bowl
LIX the pipeline proved its practical application for live professional sports
journalism; generating highly accurate and stylized captions at the rate of 6
images per 3-5 seconds for over 1000 images during the game play.
Ссылки и действия
Дополнительные ресурсы: