ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers
2509.07282v1
cs.LG, cs.AI, cs.CL, cs.CR
2025-09-11
Авторы:
Jeff Shen, Lindsay Smith
Резюме на русском
## Контекст
В области исследований нейронных сетей по-прежнему существуют значительные проблемы, связанные с генерализацией моделей в рамках высокосложностных комбинаторных задач. Такие задачи часто требуют моделей для решения сложных проблем, используя ограниченные обучающие данные. В частности, задача расшифровки шифров со сменой букв (сущ. substition ciphers) представляет собой комбинаторный тестбед, в котором необходимо решать задачи расшифровки с использованием 26! возможных комбинаций букв. Однако значительная часть текущих моделей страдает от отсутствия интерпретируемости и эффективности при решении таких задач. Мотивация заключается в разработке модели, которая не только решает задачи расшифровки, но и удовлетворяет критериям генерализации и интерпретируемости.
## Метод
Для решения этой задачи разработана модель ALICE (Architecture for Learning Interpretable Cryptogram dEcipherment). ALICE — простая модель encoder-only Transformer, которая обнаруживает и расшифровывает шифры со сменой букв. Модель обучается на ограниченном количестве уникальных шифров (${\sim}1500$), что составляет лишь незначительную часть возможных комбинаций шифров. Для повышения интерпретируемости разработана новая bijective decoding head, которая моделирует перестановки с помощью Gumbel-Sinkhorn-метода. Это позволяет извлекать участвующие в шифровании преобразования непосредственно из модели. Была также проведена аналитическая экспериментальная работа, включающую early exit analysis, которая демонстрирует прогрессивное уточнение модели в процессе решения задач, подобно человеческим подходам.
## Результаты
В работе проводились эксперименты с различными тестовыми наборами, включая шифры со сменой букв. Модель ALICE достигла нового состояния техники в задаче расшифровки шифров со сменой букв, показала высокую точность и эффективность решения задач. Модель позволяет расшифровывать не только виды шифров, которые были видны во время обучения, но и неизвестные шифры. Благодаря использованию Gumbel-Sinkhorn-метода, модель может явно отображать перестановки, которые она выводит в процессе работы. Early exit analysis показала, что ALICE применяет различные стратегии решения задач, начиная с преобразований на основе частотных коэффициентов, затем переходя к структурам слов и заканчивая коррекциями ошибок на уровне отдельных символов.
## Значимость
Разработанная модель ALICE может быть использована для решения различных задач, включая расшифровку шифров со сменой букв, а также для задач с bijective mappings и применения в сложных комбинаторных областях. Основные преимущества ALICE заключаются в высокой точности решения задач, эффективности и интерпретируемости модели. Эти характеристики делают модель применимой в различных обла
Abstract
We present cryptogram solving as an ideal testbed for studying neural network
generalization in combinatorially complex domains. In this task, models must
decrypt text encoded with substitution ciphers, choosing from 26! possible
mappings without explicit access to the cipher. We develop ALICE (an
Architecture for Learning Interpretable Cryptogram dEcipherment): a simple
encoder-only Transformer that sets a new state-of-the-art for both accuracy and
speed on this decryption problem. Surprisingly, ALICE generalizes to unseen
ciphers after training on only ${\sim}1500$ unique ciphers, a minute fraction
($3.7 \times 10^{-24}$) of the possible cipher space. To enhance
interpretability, we introduce a novel bijective decoding head that explicitly
models permutations via the Gumbel-Sinkhorn method, enabling direct extraction
of learned cipher mappings. Through early exit analysis, we reveal how ALICE
progressively refines its predictions in a way that appears to mirror common
human strategies for this task: early layers employ frequency-based heuristics,
middle layers form word structures, and final layers correct individual
characters. Our architectural innovations and analysis methods extend beyond
cryptograms to any domain with bijective mappings and combinatorial structure,
offering new insights into neural network generalization and interpretability.