Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

2509.19033v2 cs.CL, 68T50, I.2.7 2025-09-25

Авторы:

Chiara Alzetta, Serena Auriemma, Alessandro Bondielli, Luca Dini, Chiara Fazzone, Alessio Miaschi, Martina Miliani, Marta Sartor

Резюме на русском

## Контекст Область исследования, известная как Computational Linguistics (CL) или языковой моделирование, занимается разработкой методов и алгоритмов для обработки и анализа естественных языков с помощью компьютеров. Эта область имеет решающее значение в развитии технологий, таких как Natural Language Processing (NLP), машинный перевод, распознавание речи и другие. За последнее десятилетие, CL и NLP получили огромный уклад, в основном благодаря появлению трансформерных больших языковых моделей (LLMs). Национальные сообщества в этой области также отражают эти изменения. В частности, сборники тезисов и докладов, подготовленные для ключевых международных и локальных конференций, стали ценными источниками для изучения этих изменений. В данной работе анализируется российское сообщество CL, а именно исследования, представленные на международной конференции CLiC-it за первые 10 лет её существования. ## Метод Для данного исследования был создан CLiC-it Corpus, содержащий все процесинги конференций CLiC-it за период с 2014 по 2024 год. Этот корпус включает в себя метаданные, такие как авторские происхождения, пол (пол), факультеты и другие, и содержание докладов, адресованных различным тематикам. Исследователи составили подробный справочник по метаданным и оценили тематики докладов, выявляя тенденции и направления в развитии CL и NLP в Италии. Методология исследования включала в себя обработку текстов, автоматическую классификацию статей, а также статистический анализ данных. ## Результаты Результаты исследования показали, что CLiC-it Corpus состоит из более чем 1000 докладов, составивших общую массу работ, представленных на конференции за первые 10 лет. Изучение метаданных позволило выявить тенденции в появлении новых авторов, росте интернационализации и изменении приоритетов в исследованиях. Тематический анализ показал, что в начале периода преобладали работы по Lexical and Semantic Resources, но в последние годы стало появляться больше работ, связанных с Language Modelling и Multimodality. Эти изменения отражают глобальный тренд в NLP. ## Значимость Результаты исследования подтверждают роль CLiC-it как важного мероприятия для развития CL в Италии. Изучение тенденций позволяет понять, как сообщество CLiC-it адаптировалось к новым технологиям и изменениям в области естественных языков. Этот корпус может быть полезен для других исследователей, желающих изучить тенденции и проблемы в области CL и NLP, а также для подготовки будущих исследований. Данные, собранные в этом исследовании, также могут помочь определить новые направления для развития технологий естественных языков в Итали

Abstract

Over the past decade, Computational Linguistics (CL) and Natural Language Processing (NLP) have evolved rapidly, especially with the advent of Transformer-based Large Language Models (LLMs). This shift has transformed research goals and priorities, from Lexical and Semantic Resources to Language Modelling and Multimodality. In this study, we track the research trends of the Italian CL and NLP community through an analysis of the contributions to CLiC-it, arguably the leading Italian conference in the field. We compile the proceedings from the first 10 editions of the CLiC-it conference (from 2014 to 2024) into the CLiC-it Corpus, providing a comprehensive analysis of both its metadata, including author provenance, gender, affiliations, and more, as well as the content of the papers themselves, which address various topics. Our goal is to provide the Italian and international research communities with valuable insights into emerging trends and key developments over time, supporting informed decisions and future directions in the field.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for...

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexit...

Quantifying Self-Awareness of Knowledge in Large Language Models

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence...

Testing the assumptions about the geometry of sentence embedding spaces: the cos...

Навигация