Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms: Introducing the PNGT-26K Dataset
2509.11136v1
cs.LG, cs.AI, cs.CL, cs.SI
2025-09-17
Авторы:
Farbod Bijary, Mohsen Ebadpour, Amirhosein Tajbakhsh
Резюме на русском
## Контекст
Задачи понимания языка и анализа цифровых идентитетов возникают во многих приложениях, от социальных сетей до центров вызовов. Одна из сложных проблем в этой области — определение пола пользователя на основе его имени или других текстовых данных. Это особенно актуально для языков с уникальными транслитерационными и именновыми паттернами, таких как персидский. Существующие решения часто сталкиваются с ошибками, особенно при работе с нестандартными именами или недостаточно представительными данными. Это приводит к понижению качества услуг и недовольство пользователей. Мы предлагаем PNGT-26K — большую, представительную базу данных персидских имён, и два инструмента для её использования: Open Gender Detection и Nominalist.
## Метод
PNGT-26K — это база данных, состоящая из примерно 26,000 записей, каждая содержащая персидское имя, его типичное полное склонение, английскую транслитерацию и связанное пол. Данные собраны с помощью статистического анализа и оптимизированы для применения в гендерном определении. Для вычислительного эффективности мы внедрили Open Gender Detection, использующий свёрточные нейронные сети для определения пола с использованием имени и фото. Для создания новых юзернеймов мы предложили Nominalist, основанный на агентном AI, который помогает пользователям найти новое имя, сочетая семантическую аналитику с творческим подходом.
## Результаты
Мы провели обширные эксперименты для оценки качества PNGT-26K, Open Gender Detection и Nominalist. Для гендерного определения использовались тысячи изображений и имен, что позволило достичь высокой точности. Для Nominalist мы проверили генерацию юзернеймов на ряде пользовательских сценариев, установив его эффективность в генерировании новых идей.
## Значимость
PNGT-26K, Open Gender Detection и Nominalist могут применяться в различных областях, таких как социальные сети, сервисы поддержки клиентов и платформы регистрации. Они обеспечивают более точное понимание пола пользователя и помогают создать более личностный и точный юзернейм. Эти инструменты также способствуют улучшению пользовательского опыта и уменьшению барьеров для новых пользователей в цифровых пространствах.
## Выводы
Мы представили PNGT-26K, Open Gender Detection и Nominalist — инновационные решения для проблемы определения пола и генерирования юзернеймов в контексте персидских имен. Наши работы могут способствовать развитию методов анализа языка и поддержки цифровой идентитети в широких приложениях. Мы планируем расширить нашу работу на другие языки и приложения, а также создать более сложные модели для понимания цифровых идентитетов.
Abstract
Persian names present unique challenges for natural language processing
applications, particularly in gender detection and digital identity creation,
due to transliteration inconsistencies and cultural-specific naming patterns.
Existing tools exhibit significant performance degradation on Persian names,
while the scarcity of comprehensive datasets further compounds these
limitations. To address these challenges, the present research introduces
PNGT-26K, a comprehensive dataset of Persian names, their commonly associated
gender, and their English transliteration, consisting of approximately 26,000
tuples. As a demonstration of how this resource can be utilized, we also
introduce two frameworks, namely Open Gender Detection and Nominalist. Open
Gender Detection is a production-grade, ready-to-use framework for using
existing data from a user, such as profile photo and name, to give a
probabilistic guess about the person's gender. Nominalist, the second framework
introduced by this paper, utilizes agentic AI to help users choose a username
for their social media accounts on any platform. It can be easily integrated
into any website to provide a better user experience. The PNGT-26K dataset,
Nominalist and Open Gender Detection frameworks are publicly available on
Github.