Uncertainty in Semantic Language Modeling with PIXELS

2509.19563v1 cs.CL, cs.LG 2025-09-26

Авторы:

Stefania Radu, Marco Zullich, Matias Valdenegro-Toro

Резюме на русском

#### Контекст Проблемай неопределенности в семантической моделировании языка представляет собой значительные сложности в обработке естественного языка, особенно при работе с пиксельно-ориентированными моделями. Несмотря на их высокую точность в задачах предсказания и разбора текста, эти модели часто игнорируют неопределенность в своих выводах. Это ключевая проблема, которая может привести к неточным результатам в реальных задачах, таких как автоматическая синтезированная генерация текста и точечная идентификация слов. В этом исследовании рассматривается неопределенность в моделях, основанных на пикселях, с целью оценить, насколько эти модели успешно учитывают неопределенность в своих выводах. Это особенно актуально в свете многоязычности и различных скриптов, где модели должны осуществлять точные оценки в различных языковых контекстах. #### Метод Для изучения неопределенности в пиксельно-ориентированных моделях были применены несколько методов. **Monte Carlo Dropout** позволил оценивать неопределенность путем повторного вывода с неизвестными входными данными. **Transformer Attention** исследовал вклад каждого пикселя в вывод модели, чтобы определить, как модель принимает решения об уровне уверенности. **Ensemble Learning** позволил создавать несколько моделей, решающих одинаковую задачу, и сравнивать их выводы для улучшения точности. Эти методы были применены к 18 языкам и 7 скриптам, изучая их в трех различных семантических задачах: предсказание слов, именование сущностей и вопрос-ответ. Это позволило изучить неопределенность в различных текстовых задачах и языках. #### Результаты Исследование показало, что пиксель-ориентированные модели часто **подвешивают уровень неопределенности** при реконструкции текстовых патчей, особенно в случае текстов на нелатинских скриптах. Например, в моделях, использующих **Transformer Attention**, были выявлены ситуации, когда модель недостаточно учитывала варианты возможных значений, что приводит к ошибкам в понимании текста. Было также обнаружено, что **скрипт сильно влияет** на уровень неопределенности, и что модели в латинице оказываются более уверенными, чем в других скриптах. **Ensemble Learning** показал значительные улучшения в производительности, особенно в задачах NER (именования сущностей) и QA (вопрос-ответ), когда использовалась гиперпараметрическая оптимизация. #### Значимость Результаты этого исследования имеют значимость для различных областей, в которых неопределенность играет важную роль. Например, в **машинном обучении** эти сведения могут помочь создавать более надежные модели, которые смогут учитывать неопределенность в своих выводах. Кроме того

Abstract

Pixel-based language models aim to solve the vocabulary bottleneck problem in language modeling, but the challenge of uncertainty quantification remains open. The novelty of this work consists of analysing uncertainty and confidence in pixel-based language models across 18 languages and 7 scripts, all part of 3 semantically challenging tasks. This is achieved through several methods such as Monte Carlo Dropout, Transformer Attention, and Ensemble Learning. The results suggest that pixel-based models underestimate uncertainty when reconstructing patches. The uncertainty is also influenced by the script, with Latin languages displaying lower uncertainty. The findings on ensemble learning show better performance when applying hyperparameter tuning during the named entity recognition and question-answering tasks across 16 languages.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Uncertainty in Semantic Language Modeling with PIXELS

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-...

Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Again...

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Навигация