From Formal Language Theory to Statistical Learning: Finite Observability of Subregular Languages
2509.22598v1
cs.CL, cs.FL, cs.LG
2025-09-30
Авторы:
Katsuhiko Hayashi, Hidetaka Kamigaito
Резюме на русском
## Контекст
Область исследования — теория языков, в частности, подрегулярные языки, которые широко применяются в лингвистике и языковых моделях. Одной из ключевых проблем является необходимость формального представления языковых структур, которые могут быть эффективно обучены и интерпретированы. Ограниченность доступных данных (финитность наблюдений) и необходимость простоты моделей становятся мотивацией для изучения того, насколько эффективно подрегулярные языки могут быть описаны и выучены в условиях финитности наблюдений.
## Метод
Исследование основано на математической теории языков и машинного обучения. Методология основывается на доказательстве того, что подрегулярные языки могут быть представлены с помощью линейно разделимых моделей. Технические решения включают доказательство линейной разделимости для всех классов подрегулярных языков, использование принципов статистического обучения, а также архитектуру простой линейной модели для решения задачи. Архитектура основывается на отделении функций признаков от линейной модели, что гарантирует интерпретируемость и эффективность.
## Результаты
В ходе экспериментов было показано, что подрегулярные языки могут быть эффективно сегментированы и классифицированы с помощью линейных моделей. Использовались два типа данных: синтетические, подтверждающие теоретические выводы, и реальные данные на базе английского языка, подтверждающие теоретические предположения на практике. Результаты экспериментов показали, что модели не только эффективно классифицируют языковые данные, но и вырабатывают признаки, соответствующие известным лингвистическим соглашениям.
## Значимость
Результаты имеют значительное значение для области лингвистики и машинного обучения. Они позволяют использовать подрегулярные языки в моделях, гарантирующих линейную разделимость и, следовательно, эффективность обучения. Приложения включают модели естественного языка, морфологическую обработку, интерпретируемую модель понимания языка. Преимущества заключаются в том, что модели на основе подрегулярных языков являются просто разбиваемыми и интерпретируемыми, что обеспечивает их применимость в реальных задачах.
## Выводы
Исследование успешно продемонстрировало, что подрегулярные языки могут быть представлены линейно разделимыми моделями, что обеспечивает их финитную наблюдаемость и обучаемость. Эти результаты открывают пути для дальнейшего исследования в области моделирования языковых структур с использованием теории языков
Abstract
We prove that all standard subregular language classes are linearly separable
when represented by their deciding predicates. This establishes finite
observability and guarantees learnability with simple linear models. Synthetic
experiments confirm perfect separability under noise-free conditions, while
real-data experiments on English morphology show that learned features align
with well-known linguistic constraints. These results demonstrate that the
subregular hierarchy provides a rigorous and interpretable foundation for
modeling natural language structure. Our code used in real-data experiments is
available at https://github.com/UTokyo-HayashiLab/subregular.
Ссылки и действия
Дополнительные ресурсы: