Uncertainty in Semantic Language Modeling with PIXELS
2509.19563v1
cs.CL, cs.LG
2025-09-26
Авторы:
Stefania Radu, Marco Zullich, Matias Valdenegro-Toro
Резюме на русском
#### Контекст
Проблемай неопределенности в семантической моделировании языка представляет собой значительные сложности в обработке естественного языка, особенно при работе с пиксельно-ориентированными моделями. Несмотря на их высокую точность в задачах предсказания и разбора текста, эти модели часто игнорируют неопределенность в своих выводах. Это ключевая проблема, которая может привести к неточным результатам в реальных задачах, таких как автоматическая синтезированная генерация текста и точечная идентификация слов. В этом исследовании рассматривается неопределенность в моделях, основанных на пикселях, с целью оценить, насколько эти модели успешно учитывают неопределенность в своих выводах. Это особенно актуально в свете многоязычности и различных скриптов, где модели должны осуществлять точные оценки в различных языковых контекстах.
#### Метод
Для изучения неопределенности в пиксельно-ориентированных моделях были применены несколько методов. **Monte Carlo Dropout** позволил оценивать неопределенность путем повторного вывода с неизвестными входными данными. **Transformer Attention** исследовал вклад каждого пикселя в вывод модели, чтобы определить, как модель принимает решения об уровне уверенности. **Ensemble Learning** позволил создавать несколько моделей, решающих одинаковую задачу, и сравнивать их выводы для улучшения точности. Эти методы были применены к 18 языкам и 7 скриптам, изучая их в трех различных семантических задачах: предсказание слов, именование сущностей и вопрос-ответ. Это позволило изучить неопределенность в различных текстовых задачах и языках.
#### Результаты
Исследование показало, что пиксель-ориентированные модели часто **подвешивают уровень неопределенности** при реконструкции текстовых патчей, особенно в случае текстов на нелатинских скриптах. Например, в моделях, использующих **Transformer Attention**, были выявлены ситуации, когда модель недостаточно учитывала варианты возможных значений, что приводит к ошибкам в понимании текста. Было также обнаружено, что **скрипт сильно влияет** на уровень неопределенности, и что модели в латинице оказываются более уверенными, чем в других скриптах. **Ensemble Learning** показал значительные улучшения в производительности, особенно в задачах NER (именования сущностей) и QA (вопрос-ответ), когда использовалась гиперпараметрическая оптимизация.
#### Значимость
Результаты этого исследования имеют значимость для различных областей, в которых неопределенность играет важную роль. Например, в **машинном обучении** эти сведения могут помочь создавать более надежные модели, которые смогут учитывать неопределенность в своих выводах. Кроме того
Abstract
Pixel-based language models aim to solve the vocabulary bottleneck problem in
language modeling, but the challenge of uncertainty quantification remains
open. The novelty of this work consists of analysing uncertainty and confidence
in pixel-based language models across 18 languages and 7 scripts, all part of 3
semantically challenging tasks. This is achieved through several methods such
as Monte Carlo Dropout, Transformer Attention, and Ensemble Learning. The
results suggest that pixel-based models underestimate uncertainty when
reconstructing patches. The uncertainty is also influenced by the script, with
Latin languages displaying lower uncertainty. The findings on ensemble learning
show better performance when applying hyperparameter tuning during the named
entity recognition and question-answering tasks across 16 languages.
Ссылки и действия
Дополнительные ресурсы: