Introducing OmniGEC: A Silver Multilingual Dataset for Grammatical Error Correction
2509.14504v1
cs.CL, cs.AI, cs.LG
2025-09-20
Авторы:
Roman Kovalchuk, Mariana Romanyshyn, Petro Ivaniuk
Резюме на русском
#### Контекст
Граматическое исправление ошибок (GEC) является важной областью искусственного интеллекта, нацеленной на автоматическое исправление грамматических и пунктуационных ошибок в текстах. Несмотря на то, что имеются развитые решения для английского языка, проблематичностью для текущих исследований является недостаток качественных многоязычных данных для обучения и оценки GEC-систем. Данная проблема становится особенно заметной при попытке адаптировать англоязычные модели GEC к другим языкам, где данных для обучения относительно мало. Мотивируя нашу работу, наша цель заключается в создании многоязычного датасета, который может помочь решить эту проблему и улучшить развитие многоязычных моделей GEC.
#### Метод
Для решения этой проблемы мы предлагаем OmniGEC, коллекцию многоязычных датасетов для GEC, охватывающую 11 языков: Чешский, Английский, Эстонский, Немецкий, Греческий, Исландский, Итальянский, Латышский, Словенский, Шведский и Украинский. Тексты в этих датасетах были получены из трех источников: 1) Изменения в Википедии на 11 языках, 2) Различные подredditы на этих языках, а также 3) Украинский социально-медийный корпус UberText 2.0. Записи из Википедии были созданы через ручное исправление ошибок, тогда как данные из Reddit и UberText 2.0 были автоматически исправлены с использованием модели GPT-4o-mini. Мы также провели эVALУАЦИЮ КАЧЕСТВА исправленных данных, как автоматически, так и вручную, чтобы гарантировать их качество.
#### Результаты
Мы использовали данные OmniGEC для оценки и файн-тюнинга двух моделей: Aya-Expanse (8B) и Gemma-3 (12B). Эти модели были обучены на многоязычных данных OmniGEC, и результаты показали состояние технологии (SOTA) для задачи многоязычного GEC на уровне абзацев. Мы также провели автоматическую валидацию, чтобы убедиться в постоянном улучшении качества исправлений по сравнению с другими существующими моделями.
#### Значимость
Область применения OmniGEC широка. Этот датасет может быть использован для развития новых многоязычных моделей GEC, а также для адаптации англоязычных моделей к другим языкам. Одним из преимуществ является то, что OmniGEC помогает устранить недостаток качественных многоязычных данных, который характерен для многих языков. Это ведет к повышению точности и общей эффективности GEC-систем. Потенциальное влияние этого исследования заключается в том, что оно может привести к более точным и доступным решениям для GEC в многоязычных средах.
#### Выводы
В ходе этой работы мы представили OmniGEC, первый много
Abstract
In this paper, we introduce OmniGEC, a collection of multilingual
silver-standard datasets for the task of Grammatical Error Correction (GEC),
covering eleven languages: Czech, English, Estonian, German, Greek, Icelandic,
Italian, Latvian, Slovene, Swedish, and Ukrainian. These datasets facilitate
the development of multilingual GEC solutions and help bridge the data gap in
adapting English GEC solutions to multilingual GEC. The texts in the datasets
originate from three sources: Wikipedia edits for the eleven target languages,
subreddits from Reddit in the eleven target languages, and the Ukrainian-only
UberText 2.0 social media corpus. While Wikipedia edits were derived from
human-made corrections, the Reddit and UberText 2.0 data were automatically
corrected with the GPT-4o-mini model. The quality of the corrections in the
datasets was evaluated both automatically and manually. Finally, we fine-tune
two open-source large language models - Aya-Expanse (8B) and Gemma-3 (12B) - on
the multilingual OmniGEC corpora and achieve state-of-the-art (SOTA) results
for paragraph-level multilingual GEC. The dataset collection and the
best-performing models are available on Hugging Face.
Ссылки и действия
Дополнительные ресурсы: