Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

2509.18577v1 cs.CL, 68T50, I.2.7 2025-09-25
Авторы:

Yeongbin Seo, Gayoung Kim, Jaehyung Kim, Jinyoung Yeo

Резюме на русском

------------------------------------------------------ ## Контекст ------------------------------------------------------ Обучение больших языковых моделей (LLMs) основывается на масштабных текстовых корпусах, но не все тексты в таких корпусах полезны для эффективного обучения. Большинство существующих методов фильтрации данных, таких как фильтрация по perplexity (PPL), требуют долгого моделирования для оценки качества текстов. Несмотря на то, что PPL показывает высокую точность, он лишен серьезных недостатков — высокая стоимость вычислений и недостаточная надежность при работе с шумными или выбросовыми данными. Таким образом, есть необходимость в разработке более быстрой и надежной альтернативы для фильтрации текстов. ------------------------------------------------------ ## Метод ------------------------------------------------------ Метод, предложенный в работе, основывается на оценке лексической плотности текста с помощью статистических признаков, взятых из корпуса. Авторы предлагают использовать среднюю и дисперсию частот лексических единиц (токенов) в документе в качестве признаков для фильтрации. Эти признаки логически связаны с языковыми признаками, такими как грамматическая целостность и семантическая глубина текста. Оценка лексической плотности работает быстрее, чем PPL, и не требует моделирования, что делает процесс фильтрации более эффективным. Также, при построении метода использовались языковые признаки, вдохновленные лингвистическими теориями о ролях слов в языке. ------------------------------------------------------ ## Результаты ------------------------------------------------------ Авторы провели эксперименты на 20 различных нишевых датасетах, сравнивая свою предложенную модель с PPL-фильтром. Удивительно, но предложенный подход показал себя лучше во всех конфигурациях, существенно превосходя PPL-фильтр по признаку точности и эффективности. Благодаря статистической природе фильтрации, время работы модели сократилось на 1000 раз по сравнению с PPL-фильтром. Были проведены эксперименты на различных типах текстов, включая коды и тексты математического характера, где утверждена высокая эффективность инструмента. Наконец, авторы продемонстрировали модель на многоязычных данных, показав её адаптивность и безучительность. ------------------------------------------------------ ## Значимость ------------------------------------------------------ Предложенный подход может быть применён в различных областях, где требуется быстрая и надежная фильтрация текстовых данных. Например, он может использоваться при обучении LLMs, фильтрации текстов в технических или специализированных языковых корпусах, а также при работе с многоязычными данными. Одним из основных преимуществ является очень высокая скорость обработки, что экономит вычислительные ресурсы. Более того, предложенный метод демонстрирует высокую надежность в работе с шумовыми и выбросовыми данны

Abstract

As large language models (LLMs) are pretrained on massive web corpora, careful selection of data becomes essential to ensure effective and efficient learning. While perplexity (PPL)-based filtering has shown strong performance, it suffers from drawbacks: substantial time costs and inherent unreliability of the model when handling noisy or out-of-distribution samples. In this work, we propose a simple yet powerful alternative: a prior-based data filtering method that estimates token priors using corpus-level term frequency statistics, inspired by linguistic insights on word roles and lexical density. Our approach filters documents based on the mean and standard deviation of token priors, serving as a fast proxy to PPL while requiring no model inference. Despite its simplicity, the prior-based filter achieves the highest average performance across 20 downstream benchmarks, while reducing time cost by over 1000x compared to PPL-based filtering. We further demonstrate its applicability to symbolic languages such as code and math, and its dynamic adaptability to multilingual corpora without supervision

Ссылки и действия

Связанные статьи

Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

## Контекст Область исследования, известная как Computational Linguistics (CL) или языковой моделирование, занимается ра...

2025-09-25

Quantifying Self-Awareness of Knowledge in Large Language Models

## Контекст Современные большие языковые модели (LLMs) представляют собой мощные инструменты, способные выполнять широки...

2025-09-23

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence...

## Контекст В современном мире развитие интеллектуальных технологий приводит к появлению моделей языка, которые становя...

2025-09-05

Testing the assumptions about the geometry of sentence embedding spaces: the cos...

## Контекст Основной контекст данного исследования заключается в оценке предположений о геометрии пространств слов и пре...

2025-09-05