Small transformer architectures for task switching

2508.04461v1 cs.LG, cs.AI 2025-08-09

Авторы:

Claudius Gros

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распространение технологий генеративного искусственного интеллекта в последнее время тесно связано с механизмом внимания, который лежит в основе архитектур трансформеров. Однако, несмотря на их успех в крупномасштабных задачах, не всегда трансформеры показывают преимущество над традиционными моделями, такими как многослойные персептроны (MLP) или рекуррентные сети (RNN), в малых задачах. Особенно это заметно в контексте **"таск-свитчинга" (task switching)** — задачи, где модели должны эффективно переключаться между различными подзадачами в рамках последовательных данных. В этой работе исследуется проблема эффективности трансформеров в таск-свитчинге, особенно в задачах, требующих высокой адаптивности к изменяющимся условиям. Основная мотивация заключается в том, чтобы оценить, могут ли трансформеры, основанные на механизме внимания, превосходить традиционные подходи в подобных сценариях. Исследуется специфическая модель задачи, основанная на арифметических операциях (IARC: increment, addition, reverse copy, context), в которой модели должны обрабатывать последовательности токенов, содержащие контрольные токены, определяющие текущую подзадачу. Изучение этого контекста важно, поскольку понимание ограничений и возможностей трансформеров в малых задачах может помочь улучшить их применение в реальных системах, требующих быстрого переключения между задачами. Также, это позволяет понять, как различные варианты механизма внимания влияют на производительность моделей в таких ситуациях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования были рассмотрены несколько вариантов архитектур, включая стандартные трансформеры, рекуррентные сети типа LSTM, и MLP. Кроме того, были предложены модификации архитектуры трансформера, такие как **cisformer** — расширенная версия трансформера, которая не является трансляционно-инвариантной, и **extensive attention** — альтернативный механизм внимания. Cisformer предлагает более гибкую структуру, позволяющую модели более эффективно обрабатывать последовательности с переключениями между задачами. Extensive attention, в свою очередь, модифицирует стандартный механизм внимания, обеспечивая более глубокое понимание контекста и повышая точность предсказаний. Ключевым моментом является то, что эти модификации позволяют преодолеть ограничения стандартных трансформеров в задачах с частыми переключениями контекста. Модели были тщательно оптимизированы для работы с последовательностями, где каждая подзадача требует различного подхода к обработке. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов были использованы данные, содержащие последовательности токенов с контрольными токенами, определяющими текущую подзадачу. Модели были оценены по их способности к предсказанию следующих токенов в последовательности. Результаты показали, что стандартные трансформеры, MLP и LSTM достигают сравнительно низких точностей в задаче таск-свитчинга, не превышая 60-70%. Однако, комбинация cisformer с extensive attention показала значительно лучшие результаты, достигая точности около **95%**. Эти результаты демонстрируют, что модифицированные архитектуры трансформеров, особенно с использованием расширенного механизма внимания, могут значительно превосходить традиционные модели в задачах, требующих быстрого переключения контекста. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенные модификации трансформеров могут быть применены в областях, требующих быстрого переключения между различными задачами, таких как **робототехника**, **автоматизированные системы управления**, и **естественный язык обработки**. Например, в робототехнике, где робот должен выполнять различные задачи в зависимости от контекста, эффективное переключение между задачами критически важно. Достижение высокой точности в таких задачах может улучшить производительность систем, особенно в ситуациях, где необходимо быстрое адаптирование к новым условиям. Это может быть особенно полезно в системах, где нужно обрабатывать потоки данных в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что модификации архитектуры трансформера, такие как cisformer и extensive attention, могут значительно повысить производительность в задачах таск-свитчинга. Это открывает перспективы для дальнейших исследований в области модификации механизма внимания и его применении в реальных системах. Будущие исследования могут фокусироваться на дальнейшем улучшении этих модификаций, а также на их применении в более широких областях, таких как мультизадачность и адаптивное обучение. Кроме того, эти результаты могут быть использованы для лучшего понимания того, как работает механизм внимания в различных контекстах.

Abstract

The rapid progress seen in terms of large-scale generative AI is largely based on the attention mechanism. It is conversely non-trivial to conceive small-scale applications for which attention-based architectures outperform traditional approaches, such as multi-layer perceptrons or recurrent networks. We examine this problem in the context of 'task switching'. In this framework models work on ongoing token sequences with the current task being determined by stochastically interspersed control tokens. We show that standard transformers cannot solve a basic task switching reference model based on finite domain arithmetics which contains subtasks dedicated to increment / addition / reverse copy / context (IARC). We show that transformers, long short-term memory recurrent networks (LSTM), and plain multi-layer perceptrons (MLPs) achieve similar, but only modest prediction accuracies. We enlarge our comparative study by including an extension of the standard transformer architecture to its non-translational invariant counterpart, the cisformer, and an alternative attention mechanism, extensive attention. A combination of the latter is found to be the only model able to achieve considerable performance levels, of around 95%. Our results indicate that the workings of attention can be understood better, and even improved, when comparing qualitatively different formulations in task-switching settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Small transformer architectures for task switching

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация