ToonOut: Fine-tuned Background-Removal for Anime Characters

2509.06839v1 cs.CV, cs.LG 2025-09-10
Авторы:

Matteo Muratori, Joël Seytre

Резюме на русском

## Контекст Цель исследования — улучшить модели фонового сегментирования для рисунков в стиле аниме. Основная проблема заключается в том, что современные методы фонового сегментирования, хотя они эффективны для реальных изображений, часто сталкиваются с трудностями при обработке аниме-стиля. Это обусловлено сложностью восприятия таких элементов как комплексные прически, прозрачность и утонченные детали. Эти особенности требуют более точной адаптации моделей для эффективного фонового сегментирования в этой специфической области. Этот аспект определяет мотивацию для разработки и адаптации моделей, которые могут обеспечить более высокую точность и релевантность в этом контексте. ## Метод Для достижения целей была создана пользовательская аннотированная база данных, содержащая 1228 качественных изображений аниме-стиля с подробными метками. Модель BiRefNet была изначально основана на открытом исходном коде и последующей файн-тюнингом на основе созданной настраиваемой базы данных. Технический подход заключался в использовании адаптированных архитектур сети для улучшения точности распознавания изображений, а также в интеграции методов, оптимизированных для улучшения понимания комплексных аниме-стилевых элементов, таких как прозрачные области и транспарентные прически. ## Результаты Эксперименты показали значительные улучшения в точности фонового сегментирования. Использование обученной модели BiRefNet привело к увеличению Pixel Accuracy с 95.3% до 99.5% для изображений в стиле аниме. Эти результаты демонстрируют значительное повышение точности в сравнении с исходной моделью. Данные результаты были получены с помощью внедрения различных методов оптимизации, включая улучшенные методы сжатия данных и повышения чувствительности к деталям в сложностных областях изображений. ## Значимость Полученный подход имеет широкое применение в области анимации, синтеза изображений и видео-анализа в аниме-стиле. Модель BiRefNet, после тонкой настройки, может быть использована для плавного фонового сегментирования в аниме-интерфейсах, видеоредактировании и даже в синтезе новых изображений. Это улучшение возможностей модели может иметь потенциал для упрощения процессов в коммерческой индустрии, включая графический дизайн, анимацию и творческие проекты. ## Выводы Адаптированная модель BiRefNet достигла высокой точности в фоновом сегментировании изображений в стиле аниме. Это решение открывает новые возможности в использовании изображений стиля аниме в коммерческих и творческих приложениях. На будущее, модель может быть улучшена еще дальше с помощь

Abstract

While state-of-the-art background removal models excel at realistic imagery, they frequently underperform in specialized domains such as anime-style content, where complex features like hair and transparency present unique challenges. To address this limitation, we collected and annotated a custom dataset of 1,228 high-quality anime images of characters and objects, and fine-tuned the open-sourced BiRefNet model on this dataset. This resulted in marked improvements in background removal accuracy for anime-style images, increasing from 95.3% to 99.5% for our newly introduced Pixel Accuracy metric. We are open-sourcing the code, the fine-tuned model weights, as well as the dataset at: https://github.com/MatteoKartoon/BiRefNet.

Ссылки и действия