EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks

2508.17008v1 cs.CL, cs.LG 2025-08-27
Авторы:

Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova

Резюме на русском

## Контекст Образовательные учреждения получают каждый год большой объем текстовых отзывов от студентов о курсах, преподавателях и общем опыте обучения. Однако превращение этих отзывов в полезные инсайды представляется сложной задачей. До сих пор не было успешного применения автоматических методов анализа тональности для такого рода данных из-за высокой сложности текстов и необходимости высокой точности в низкоуровневой обработке. **Aspect-based Sentiment Analysis (ABSA)** предлагает уникальный подход, обеспечивая подробный анализ тональности на уровне предложений и фрагментов. Тем не менее, существующие исследования и ресурсы по ABSA сфокусированы в основном на коммерческих данных, в то время как в образовательной сфере доступные данные и исследования очень мало. Необходима высококачественная аннотированная база данных, чтобы способствовать развитию этой недоосвещенной области. ## Метод В работе представлен **EduRABSA**, первый публично доступный аннотированный набор данных ABSA для анализа отзывов об образовании. Он содержит отзывы о курсах, преподавателях и университетах, а также поддерживает все основные задачи ABSA, включая скрытый аспект и скрытая тональность. Мы также представляем **ASQE-DPT**, удобный инструмент для мануальной аннотации данных, позволяющий генерировать многозадачные данные ABSA из одного типа аннотации. ## Результаты Набор данных EduRABSA был создан с помощью ASQE-DPT и содержит 1,6 тысячи обзоров с тремя уровнями аннотации. Эксперименты показали, что EduRABSA эффективно поддерживает все задачи ABSA, включая скрытые аспекты и тональность. Инструмент ASQE-DPT упрощает процесс аннотации, позволяя создавать и делиться данными в хорошем качестве. ## Значимость Набор данных EduRABSA может быть использован в различных областях, таких как образовательный интерфейс, анализ отзывов и моделирование языка. Он предлагает новые возможности для повышения точности и широкого применения ABSA в образовательных наборах данных. Это также открывает пути для развития инструментов и методов для анализа отзывов в образовательных задачах. ## Выводы EduRABSA является первым публично доступным, аннотированным ABSA-набором данных для образовательных отзывов. Он устраняет барьеры для исследователей, обеспечивая высококачественные данные для обучения и тестирования моделей ABSA. Мы надеемся, что наша работа способствует развитию сообщества ABSA и способствует созданию новых ресурсов и инструментов в образовательных задачах.

Abstract

Every year, most educational institutions seek and receive an enormous volume of text feedback from students on courses, teaching, and overall experience. Yet, turning this raw feedback into useful insights is far from straightforward. It has been a long-standing challenge to adopt automatic opinion mining solutions for such education review text data due to the content complexity and low-granularity reporting requirements. Aspect-based Sentiment Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level opinion mining capabilities. However, existing ABSA research and resources are very heavily focused on the commercial domain. In education, they are scarce and hard to develop due to limited public datasets and strict data protection. A high-quality, annotated dataset is urgently needed to advance research in this under-resourced area. In this work, we present EduRABSA (Education Review ABSA), the first public, annotated ABSA education review dataset that covers three review subject types (course, teaching staff, university) in the English language and all main ABSA tasks, including the under-explored implicit aspect and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool), an offline, lightweight, installation-free manual data annotation tool that generates labelled datasets for comprehensive ABSA tasks from a single-task annotation. Together, these resources contribute to the ABSA community and education domain by removing the dataset barrier, supporting research transparency and reproducibility, and enabling the creation and sharing of further resources. The dataset, annotation tool, and scripts and statistics for dataset processing and sampling are available at https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.

Ссылки и действия