📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Knowledge Homophily in Large Language Models

2025-10-01

Авторы:

Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang

#### Контекст Large Language Models (LLMs) являются мощными инструментами для поддержки знаний-интенсивных приложений, таких как вопрос-ответ и проверка фактов. Однако структура, в которой хранится их знание, пока остается недостаточно изученной. Это ограничивает возможности для эффективного управления и расширения знаний внутри этих моделей. Наблюдения из когнитивной науки, такие как семантическое кластеризация и прайминг, описывают связь между знаниями, при которой знание одного факта повышает вероятность помнить связанные с ним факты. Эта теория подсказывает, что LLMs также могут иметь аналогичную структуру. Несмотря на высокую точность LLMs, неясно, как их знания организованы, что делает необходимым подробное исследование. Наша мотивация заключается в выявлении и использовании этой структуры для улучшения эффективности и точности работы LLMs. #### Метод Для изучения структуры знаний в LLMs мы представляем их в виде графа, где узлы представляют собой сущности, а рёбра — отношения между ними, определяемые знаниями, которые модель обладает. Для построения этого графа используется техника знаний-проверки на двух уровнях: триплетах и сущностях. Это позволяет определить, насколько хорошо LLM знает отдельные факты и отношения. Затем мы проводим анализ взаимосвязи знаний между сущностями, определяя, насколько знания одной сущности похожи на знания её соседних в графе. Это позволяет выделить тренд: ближайшие в графе сущности имеют более похожие уровни знаний. Основываясь на этой идее, мы предложили Graph Neural Network (GNN) для регрессионной оценки уровня знаний для каждого триплета, используя знания соседей в графе. #### Результаты Мы провели эксперименты с широким спектром данных, включая TripleGraph и внешние ресурсы, чтобы проверить эффективность нашей модели. Результаты показали, что GNN-модель успешно предсказывает уровень знаний для триплетов, оптимизируя покрытие знаний в пределах ограниченного бюджета. Это приводит к улучшению активного метода лейблинга, который требуется для развития модели. Также, мы продемонстрировали, что наш подход повышает эффективность рассуждений в задачах вопроса-ответа, позволяя лучше организовывать поиск путей во многоступенчатых задачах. #### Значимость Предложенный подход имеет широкие потенциальные применения в области знаний-интенсивных приложений. Он позволяет улучшить эффективность активного лейблинга, обеспечивая более точный выбор триплетов для лейблинга, чтобы получить максимальное покрытие новых знаний с минимальными зат

Annotation:

Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we m...

ID: 2509.23773v1 cs.LG, cs.AI, cs.CL, cs.SI

arXiv PDF

📄 Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms: Introducing the PNGT-26K Dataset

2025-09-17

Авторы:

Farbod Bijary, Mohsen Ebadpour, Amirhosein Tajbakhsh

## Контекст Задачи понимания языка и анализа цифровых идентитетов возникают во многих приложениях, от социальных сетей до центров вызовов. Одна из сложных проблем в этой области — определение пола пользователя на основе его имени или других текстовых данных. Это особенно актуально для языков с уникальными транслитерационными и именновыми паттернами, таких как персидский. Существующие решения часто сталкиваются с ошибками, особенно при работе с нестандартными именами или недостаточно представительными данными. Это приводит к понижению качества услуг и недовольство пользователей. Мы предлагаем PNGT-26K — большую, представительную базу данных персидских имён, и два инструмента для её использования: Open Gender Detection и Nominalist. ## Метод PNGT-26K — это база данных, состоящая из примерно 26,000 записей, каждая содержащая персидское имя, его типичное полное склонение, английскую транслитерацию и связанное пол. Данные собраны с помощью статистического анализа и оптимизированы для применения в гендерном определении. Для вычислительного эффективности мы внедрили Open Gender Detection, использующий свёрточные нейронные сети для определения пола с использованием имени и фото. Для создания новых юзернеймов мы предложили Nominalist, основанный на агентном AI, который помогает пользователям найти новое имя, сочетая семантическую аналитику с творческим подходом. ## Результаты Мы провели обширные эксперименты для оценки качества PNGT-26K, Open Gender Detection и Nominalist. Для гендерного определения использовались тысячи изображений и имен, что позволило достичь высокой точности. Для Nominalist мы проверили генерацию юзернеймов на ряде пользовательских сценариев, установив его эффективность в генерировании новых идей. ## Значимость PNGT-26K, Open Gender Detection и Nominalist могут применяться в различных областях, таких как социальные сети, сервисы поддержки клиентов и платформы регистрации. Они обеспечивают более точное понимание пола пользователя и помогают создать более личностный и точный юзернейм. Эти инструменты также способствуют улучшению пользовательского опыта и уменьшению барьеров для новых пользователей в цифровых пространствах. ## Выводы Мы представили PNGT-26K, Open Gender Detection и Nominalist — инновационные решения для проблемы определения пола и генерирования юзернеймов в контексте персидских имен. Наши работы могут способствовать развитию методов анализа языка и поддержки цифровой идентитети в широких приложениях. Мы планируем расширить нашу работу на другие языки и приложения, а также создать более сложные модели для понимания цифровых идентитетов.

Annotation:

Persian names present unique challenges for natural language processing applications, particularly in gender detection and digital identity creation, due to transliteration inconsistencies and cultural-specific naming patterns. Existing tools exhibit significant performance degradation on Persian names, while the scarcity of comprehensive datasets further compounds these limitations. To address these challenges, the present research introduces PNGT-26K, a comprehensive dataset of Persian names, ...

ID: 2509.11136v1 cs.LG, cs.AI, cs.CL, cs.SI

arXiv PDF