ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers

2509.07282v1 cs.LG, cs.AI, cs.CL, cs.CR 2025-09-11

Авторы:

Jeff Shen, Lindsay Smith

Резюме на русском

## Контекст В области исследований нейронных сетей по-прежнему существуют значительные проблемы, связанные с генерализацией моделей в рамках высокосложностных комбинаторных задач. Такие задачи часто требуют моделей для решения сложных проблем, используя ограниченные обучающие данные. В частности, задача расшифровки шифров со сменой букв (сущ. substition ciphers) представляет собой комбинаторный тестбед, в котором необходимо решать задачи расшифровки с использованием 26! возможных комбинаций букв. Однако значительная часть текущих моделей страдает от отсутствия интерпретируемости и эффективности при решении таких задач. Мотивация заключается в разработке модели, которая не только решает задачи расшифровки, но и удовлетворяет критериям генерализации и интерпретируемости. ## Метод Для решения этой задачи разработана модель ALICE (Architecture for Learning Interpretable Cryptogram dEcipherment). ALICE — простая модель encoder-only Transformer, которая обнаруживает и расшифровывает шифры со сменой букв. Модель обучается на ограниченном количестве уникальных шифров (${\sim}1500$), что составляет лишь незначительную часть возможных комбинаций шифров. Для повышения интерпретируемости разработана новая bijective decoding head, которая моделирует перестановки с помощью Gumbel-Sinkhorn-метода. Это позволяет извлекать участвующие в шифровании преобразования непосредственно из модели. Была также проведена аналитическая экспериментальная работа, включающую early exit analysis, которая демонстрирует прогрессивное уточнение модели в процессе решения задач, подобно человеческим подходам. ## Результаты В работе проводились эксперименты с различными тестовыми наборами, включая шифры со сменой букв. Модель ALICE достигла нового состояния техники в задаче расшифровки шифров со сменой букв, показала высокую точность и эффективность решения задач. Модель позволяет расшифровывать не только виды шифров, которые были видны во время обучения, но и неизвестные шифры. Благодаря использованию Gumbel-Sinkhorn-метода, модель может явно отображать перестановки, которые она выводит в процессе работы. Early exit analysis показала, что ALICE применяет различные стратегии решения задач, начиная с преобразований на основе частотных коэффициентов, затем переходя к структурам слов и заканчивая коррекциями ошибок на уровне отдельных символов. ## Значимость Разработанная модель ALICE может быть использована для решения различных задач, включая расшифровку шифров со сменой букв, а также для задач с bijective mappings и применения в сложных комбинаторных областях. Основные преимущества ALICE заключаются в высокой точности решения задач, эффективности и интерпретируемости модели. Эти характеристики делают модель применимой в различных обла

Abstract

We present cryptogram solving as an ideal testbed for studying neural network generalization in combinatorially complex domains. In this task, models must decrypt text encoded with substitution ciphers, choosing from 26! possible mappings without explicit access to the cipher. We develop ALICE (an Architecture for Learning Interpretable Cryptogram dEcipherment): a simple encoder-only Transformer that sets a new state-of-the-art for both accuracy and speed on this decryption problem. Surprisingly, ALICE generalizes to unseen ciphers after training on only ${\sim}1500$ unique ciphers, a minute fraction ($3.7 \times 10^{-24}$) of the possible cipher space. To enhance interpretability, we introduce a novel bijective decoding head that explicitly models permutations via the Gumbel-Sinkhorn method, enabling direct extraction of learned cipher mappings. Through early exit analysis, we reveal how ALICE progressively refines its predictions in a way that appears to mirror common human strategies for this task: early layers employ frequency-based heuristics, middle layers form word structures, and final layers correct individual characters. Our architectural innovations and analysis methods extend beyond cryptograms to any domain with bijective mappings and combinatorial structure, offering new insights into neural network generalization and interpretability.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Opt...

MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Gener...

Навигация