Toward Storage-Aware Learning with Compressed Data An Empirical Exploratory Study on JPEG

2508.12833v1 cs.LG, cs.AI, 68Txx, I.2; I.4.2; E.4 2025-08-20
Авторы:

Kichang Lee, Songkuk Kim, JaeYeon Park, JeongGil Ko

Резюме на русском

## Контекст Настоящее исследование рассматривает проблему ограниченного объема памяти в системах машинного обучения, работающих на устройствах с низким мощностным потреблением. Эта проблема становится особенно актуальной при непрерывной сборке данных, когда система должна эффективно управлять ресурсами памяти. Особенно затруднена оценка того, как компрессия данных влияет на качество обучения моделей. Данный работа адресует эти вопросы, рассматривая стратегии компрессии, основывающиеся на анализе того, насколько данные чувствительны к компрессии. Этот аспект является ключевым для развития систем, которые могут адаптироваться к ресурсным ограничениям с оптимальным соотношением качества и объема данных. ## Метод Исследование основывается на исследовательских экспериментах с использованием методов компрессии изображений JPEG. Авторы рассматривают различные стратегии, включая универсальную компрессию, удаление данных в универсальной форме, а также адаптивные стратегии, когда каждый образец данных компрессируется с различным уровнем сжатия. Для экспериментов использовались стандартные датасеты изображений, на которых проводились различные задачи обучения, такие как классификация изображений. Авторы приводят подробные оценки по производительности и качеству, подчеркивая индивидуальную чувствительность данных к компрессии. ## Результаты Эксперименты показали, что универсальные стратегии компрессии, такие как однородное удаление данных или стандартное сжатие, приводят к существенным потерям в качестве. Адаптивная компрессия, при которой каждый образец данных компрессируется по-разному, демонстрирует значительное повышение эффективности. Например, некоторые образцы, которые являются ключевыми для модели, лучше всего переносятся в уменьшенном виде, в то время как другие могут быть более чувствительны к компрессии. Эти результаты подтверждают, что адаптивная стратегия является более эффективной, чем общая стратегия применения компрессии. ## Значимость Результаты данного исследования открывают путь к развитию новых систем обучения, которые могут эффективно управлять ресурсами памяти. Это применимо в ситуациях, когда необходимо обучать модели на устройствах с ограниченным объемом памяти, например, на мобильных устройствах или в IoT-системах. Адаптивная компрессия может существенно повысить эффективность таких систем, уменьшив потери в качестве обучения при минимизации объема хранимых данных. Это имеет потенциал для расширения применения машинного обучения в ситуациях, где ресурсы ограничены и э

Abstract

On-device machine learning is often constrained by limited storage, particularly in continuous data collection scenarios. This paper presents an empirical study on storage-aware learning, focusing on the trade-off between data quantity and quality via compression. We demonstrate that naive strategies, such as uniform data dropping or one-size-fits-all compression, are suboptimal. Our findings further reveal that data samples exhibit varying sensitivities to compression, supporting the feasibility of a sample-wise adaptive compression strategy. These insights provide a foundation for developing a new class of storage-aware learning systems. The primary contribution of this work is the systematic characterization of this under-explored challenge, offering valuable insights that advance the understanding of storage-aware learning.

Ссылки и действия