📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Data coarse graining can improve model performance

2025-09-20

Авторы:

Alex Nguyen, David J. Schwab, Vudtiwat Ngampruetikorn

################################# ## Контекст ################################# В нынешней практике машинного обучения часто используются процедуры, называемые "дата-прунинг" и "дата-аугментация", которые позволяют улучшить общую устойчивость моделей. Однако эти методы основываются на целенаправленном удалении или модификации данных, что, по определению, приводит к утере информации. Эта странность привлекла внимание исследователей, поскольку логично предположить, что удаление данных или сужение их объема может привести к ухудшению качества модели. Тем не менее, на практике неоднократно наблюдается улучшение результатов. Одним из примеров такого поведения является данная статья, которая исследует возможность улучшения моделей машинного обучения с помощью "дата-коарсе-грейдинга" — способа сужения данных, основанного на их релевантности к целевой задаче. ################################# ## Метод ################################# Авторы используют модель, основанную на задаче высокомерной линейной регрессии с регуляризацией риджем. Исходные данные были подвергнуты "коарсе-грейдингу", то есть систематическим удалению менее важных признаков, определяемых их вкладом в модель. Они использовали принципы из теории статистической физики, а именно, методы "ренормализационной группы" (renormalization group), чтобы систематизировать процесс отбора признаков. Оптимальная регуляризация, использованная в исследовании, позволила авторам анализировать характеристики данных и их влияние на модель, включая влияние коарсе-грейдинга на риск предсказания. ################################# ## Результаты ################################# Изучение результатов показало, что некоторые схемы коарсе-грейдинга могут улучшить прогностическую способность модели. Например, "high-pass" схема, которая убирает менее релевантные, но менее влиятельные признаки, может улучшить общую точность. Тем не менее, "low-pass" схема, которая удаляет более важные признаки, приводит к ухудшению модели. Эти результаты были получены с помощью регуляризации, при помощи которой авторы могли оптимизировать процесс удаления данных. Это позволило исследователям объяснить, почему "дата-аугментация" может улучшать модели — она фокусируется на самых важных признаках, исключая менее полезные. ################################# ## Значимость ################################# Результаты статьи имеют значительные последствия для области машинного обучения. Они показывают, что удаление менее важных признаков может улучшить модель, но только при оптимальной регуляризации. Этот подход может быть применен в ситуациях, когда данные имеют огромные объемы, но не все признаки оказывают влияние на результат. Также значимость исследования заключается в том, что оно продемонстрировало, как физические принципы, такие как "ренорма

Annotation:

Lossy data transformations by definition lose information. Yet, in modern machine learning, methods like data pruning and lossy data augmentation can help improve generalization performance. We study this paradox using a solvable model of high-dimensional, ridge-regularized linear regression under 'data coarse graining.' Inspired by the renormalization group in statistical physics, we analyze coarse-graining schemes that systematically discard features based on their relevance to the learning ta...

ID: 2509.14498v1 cond-mat.stat-mech, cond-mat.dis-nn, cs.LG, q-bio.NC, stat.ML

arXiv PDF