Context Steering: A New Paradigm for Compression-based Embeddings by Synthesizing Relevant Information Features

2508.14780v1 cs.LG, cs.IT, math.IT 2025-08-22
Авторы:

Guillermo Sarasa Durán, Ana Granados Fontecha, Francisco de Borja Rodríguez Ortíz

Резюме на русском

## Контекст Compression-based distances (CD) представляют собой гибкий и доменно-независимый метод измерения схожести, основанный на выявлении неявной информации через реплицированность между объектами данных. Однако применение CD в сложных задачах кластеризации и классификации может оказаться сложным, так как отбор информации, определяющей схожесть, происходит неявно, а не на основе предварительно заданных признаков. Это порождает проблему: несоответствие выбранной структуры данных задаче, которая требует активной интерпретации данных. Наша работа адресует эту проблему, предлагая новый подход, который активно управляет процессом формирования признаков. ## Метод Метод "контекстная направленность" (context steering) предлагает систематический подход к формированию семантически значимых признаков. Вместо того, чтобы просто получить структуру данных, возникающую в результате применения CD, мы активно "руководим" процессом, анализируя, как каждый объект влияет на контекст отношений в фреймворке кластеризации. Это позволяет синтезировать пользовательские признаки, которые акцентуют класс-различимую информацию. Мы используем нормализованную дистанцию по сжатию (NCD) и относительную дистанцию по сжатию (NRC) для кластеризации, что дает эффективный алтернативный подход к трансдуктивным методам. ## Результаты Мы проверили наш подход на широком спектре данных, включая тексты, аудио и реальные многообразные данные. Эксперименты показали, что "контекстная направленность" активно формирует признаки, которые лучше адаптируются к задачам классификации и кластеризации. Это не только улучшает точность результатов, но и демонстрирует силу этого подхода в создании признакового пространства, которое активно моделирует задачу, а не просто отражает структуру данных. ## Значимость Подход "контекстная направленность" может быть применен в различных областях, включая текстовый анализ, анализ аудио-данных и даже биоинформатику. Он преобразует применение CD, превращая их из простого выявления структуры данных в активный инструмент для формирования признакового пространства, которое напрямую отвечает на задачи моделирования. Это открывает новые возможности в области машинного обучения и анализа данных. ## Выводы "Контекстная направленность" представляет собой новую модель управления контекстом при формировании признаков. Достижения этого подхода показали, что он может активно моделировать структуру данных в зависимости от задачи. Будущие исследования будут направлены на расширение этого подхода для работы с более сложными данными и задачами.

Abstract

Compression-based distances (CD) offer a flexible and domain-agnostic means of measuring similarity by identifying implicit information through redundancies between data objects. However, as similarity features are derived from the data, rather than defined as an input, it often proves difficult to align with the task at hand, particularly in complex clustering or classification settings. To address this issue, we introduce "context steering," a novel methodology that actively guides the feature-shaping process. Instead of passively accepting the emergent data structure (typically a hierarchy derived from clustering CDs), our approach "steers" the process by systematically analyzing how each object influences the relational context within a clustering framework. This process generates a custom-tailored embedding that isolates and amplifies class-distinctive information. We validate the capabilities of this strategy using Normalized Compression Distance (NCD) and Relative Compression Distance (NRC) with common hierarchical clustering, providing an effective alternative to common transductive methods. Experimental results across heterogeneous datasets-from text to real-world audio-validate the robustness and generality of context steering, marking a fundamental shift in their application: from merely discovering inherent data structures to actively shaping a feature space tailored to a specific objective.

Ссылки и действия