Toward Storage-Aware Learning with Compressed Data An Empirical Exploratory Study on JPEG
2508.12833v1
cs.LG, cs.AI, 68Txx, I.2; I.4.2; E.4
2025-08-20
Авторы:
Kichang Lee, Songkuk Kim, JaeYeon Park, JeongGil Ko
Резюме на русском
## Контекст
Настоящее исследование рассматривает проблему ограниченного объема памяти в системах машинного обучения, работающих на устройствах с низким мощностным потреблением. Эта проблема становится особенно актуальной при непрерывной сборке данных, когда система должна эффективно управлять ресурсами памяти. Особенно затруднена оценка того, как компрессия данных влияет на качество обучения моделей. Данный работа адресует эти вопросы, рассматривая стратегии компрессии, основывающиеся на анализе того, насколько данные чувствительны к компрессии. Этот аспект является ключевым для развития систем, которые могут адаптироваться к ресурсным ограничениям с оптимальным соотношением качества и объема данных.
## Метод
Исследование основывается на исследовательских экспериментах с использованием методов компрессии изображений JPEG. Авторы рассматривают различные стратегии, включая универсальную компрессию, удаление данных в универсальной форме, а также адаптивные стратегии, когда каждый образец данных компрессируется с различным уровнем сжатия. Для экспериментов использовались стандартные датасеты изображений, на которых проводились различные задачи обучения, такие как классификация изображений. Авторы приводят подробные оценки по производительности и качеству, подчеркивая индивидуальную чувствительность данных к компрессии.
## Результаты
Эксперименты показали, что универсальные стратегии компрессии, такие как однородное удаление данных или стандартное сжатие, приводят к существенным потерям в качестве. Адаптивная компрессия, при которой каждый образец данных компрессируется по-разному, демонстрирует значительное повышение эффективности. Например, некоторые образцы, которые являются ключевыми для модели, лучше всего переносятся в уменьшенном виде, в то время как другие могут быть более чувствительны к компрессии. Эти результаты подтверждают, что адаптивная стратегия является более эффективной, чем общая стратегия применения компрессии.
## Значимость
Результаты данного исследования открывают путь к развитию новых систем обучения, которые могут эффективно управлять ресурсами памяти. Это применимо в ситуациях, когда необходимо обучать модели на устройствах с ограниченным объемом памяти, например, на мобильных устройствах или в IoT-системах. Адаптивная компрессия может существенно повысить эффективность таких систем, уменьшив потери в качестве обучения при минимизации объема хранимых данных. Это имеет потенциал для расширения применения машинного обучения в ситуациях, где ресурсы ограничены и э
Abstract
On-device machine learning is often constrained by limited storage,
particularly in continuous data collection scenarios. This paper presents an
empirical study on storage-aware learning, focusing on the trade-off between
data quantity and quality via compression. We demonstrate that naive
strategies, such as uniform data dropping or one-size-fits-all compression, are
suboptimal. Our findings further reveal that data samples exhibit varying
sensitivities to compression, supporting the feasibility of a sample-wise
adaptive compression strategy. These insights provide a foundation for
developing a new class of storage-aware learning systems. The primary
contribution of this work is the systematic characterization of this
under-explored challenge, offering valuable insights that advance the
understanding of storage-aware learning.