------------------------------------------------------
## Контекст
------------------------------------------------------
Обучение больших языковых моделей (LLMs) основывается на масштабных текстовых корпусах, но не все тексты в таких корпусах полезны для эффективного обучения. Большинство существующих методов фильтрации данных, таких как фильтрация по perplexity (PPL), требуют долгого моделирования для оценки качества текстов. Несмотря на то, что PPL показывает высокую точность, он лишен серьезных недостатков — высокая стоимость вычислений и недостаточная надежность при работе с шумными или выбросовыми данными. Таким образом, есть необходимость в разработке более быстрой и надежной альтернативы для фильтрации текстов.
------------------------------------------------------
## Метод
------------------------------------------------------
Метод, предложенный в работе, основывается на оценке лексической плотности текста с помощью статистических признаков, взятых из корпуса. Авторы предлагают использовать среднюю и дисперсию частот лексических единиц (токенов) в документе в качестве признаков для фильтрации. Эти признаки логически связаны с языковыми признаками, такими как грамматическая целостность и семантическая глубина текста. Оценка лексической плотности работает быстрее, чем PPL, и не требует моделирования, что делает процесс фильтрации более эффективным. Также, при построении метода использовались языковые признаки, вдохновленные лингвистическими теориями о ролях слов в языке.
------------------------------------------------------
## Результаты
------------------------------------------------------
Авторы провели эксперименты на 20 различных нишевых датасетах, сравнивая свою предложенную модель с PPL-фильтром. Удивительно, но предложенный подход показал себя лучше во всех конфигурациях, существенно превосходя PPL-фильтр по признаку точности и эффективности. Благодаря статистической природе фильтрации, время работы модели сократилось на 1000 раз по сравнению с PPL-фильтром. Были проведены эксперименты на различных типах текстов, включая коды и тексты математического характера, где утверждена высокая эффективность инструмента. Наконец, авторы продемонстрировали модель на многоязычных данных, показав её адаптивность и безучительность.
------------------------------------------------------
## Значимость
------------------------------------------------------
Предложенный подход может быть применён в различных областях, где требуется быстрая и надежная фильтрация текстовых данных. Например, он может использоваться при обучении LLMs, фильтрации текстов в технических или специализированных языковых корпусах, а также при работе с многоязычными данными. Одним из основных преимуществ является очень высокая скорость обработки, что экономит вычислительные ресурсы. Более того, предложенный метод демонстрирует высокую надежность в работе с шумовыми и выбросовыми данны