Introducing OmniGEC: A Silver Multilingual Dataset for Grammatical Error Correction

2509.14504v1 cs.CL, cs.AI, cs.LG 2025-09-20

Авторы:

Roman Kovalchuk, Mariana Romanyshyn, Petro Ivaniuk

Резюме на русском

#### Контекст Граматическое исправление ошибок (GEC) является важной областью искусственного интеллекта, нацеленной на автоматическое исправление грамматических и пунктуационных ошибок в текстах. Несмотря на то, что имеются развитые решения для английского языка, проблематичностью для текущих исследований является недостаток качественных многоязычных данных для обучения и оценки GEC-систем. Данная проблема становится особенно заметной при попытке адаптировать англоязычные модели GEC к другим языкам, где данных для обучения относительно мало. Мотивируя нашу работу, наша цель заключается в создании многоязычного датасета, который может помочь решить эту проблему и улучшить развитие многоязычных моделей GEC. #### Метод Для решения этой проблемы мы предлагаем OmniGEC, коллекцию многоязычных датасетов для GEC, охватывающую 11 языков: Чешский, Английский, Эстонский, Немецкий, Греческий, Исландский, Итальянский, Латышский, Словенский, Шведский и Украинский. Тексты в этих датасетах были получены из трех источников: 1) Изменения в Википедии на 11 языках, 2) Различные подredditы на этих языках, а также 3) Украинский социально-медийный корпус UberText 2.0. Записи из Википедии были созданы через ручное исправление ошибок, тогда как данные из Reddit и UberText 2.0 были автоматически исправлены с использованием модели GPT-4o-mini. Мы также провели эVALУАЦИЮ КАЧЕСТВА исправленных данных, как автоматически, так и вручную, чтобы гарантировать их качество. #### Результаты Мы использовали данные OmniGEC для оценки и файн-тюнинга двух моделей: Aya-Expanse (8B) и Gemma-3 (12B). Эти модели были обучены на многоязычных данных OmniGEC, и результаты показали состояние технологии (SOTA) для задачи многоязычного GEC на уровне абзацев. Мы также провели автоматическую валидацию, чтобы убедиться в постоянном улучшении качества исправлений по сравнению с другими существующими моделями. #### Значимость Область применения OmniGEC широка. Этот датасет может быть использован для развития новых многоязычных моделей GEC, а также для адаптации англоязычных моделей к другим языкам. Одним из преимуществ является то, что OmniGEC помогает устранить недостаток качественных многоязычных данных, который характерен для многих языков. Это ведет к повышению точности и общей эффективности GEC-систем. Потенциальное влияние этого исследования заключается в том, что оно может привести к более точным и доступным решениям для GEC в многоязычных средах. #### Выводы В ходе этой работы мы представили OmniGEC, первый много

Abstract

In this paper, we introduce OmniGEC, a collection of multilingual silver-standard datasets for the task of Grammatical Error Correction (GEC), covering eleven languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Slovene, Swedish, and Ukrainian. These datasets facilitate the development of multilingual GEC solutions and help bridge the data gap in adapting English GEC solutions to multilingual GEC. The texts in the datasets originate from three sources: Wikipedia edits for the eleven target languages, subreddits from Reddit in the eleven target languages, and the Ukrainian-only UberText 2.0 social media corpus. While Wikipedia edits were derived from human-made corrections, the Reddit and UberText 2.0 data were automatically corrected with the GPT-4o-mini model. The quality of the corrections in the datasets was evaluated both automatically and manually. Finally, we fine-tune two open-source large language models - Aya-Expanse (8B) and Gemma-3 (12B) - on the multilingual OmniGEC corpora and achieve state-of-the-art (SOTA) results for paragraph-level multilingual GEC. The dataset collection and the best-performing models are available on Hugging Face.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Introducing OmniGEC: A Silver Multilingual Dataset for Grammatical Error Correction

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация