📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MedKGent: A Large Language Model Agent Framework for Constructing Temporally Evolving Medical Knowledge Graph

2025-08-20

Авторы:

Duzhen Zhang, Zixiao Wang, Zhong-Zhi Li, Yahan Yu, Shuncheng Jia, Jiahua Dong, Haotian Xu, Xing Wu, Yingying Zhang, Tielin Zhang, Jie Yang, Xiuying Chen, Le Song

## Контекст В последние десятилетия рост объема медицинской литературы представляет собой серьезную проблему для поиска, структурирования и интеграции биомедицинских знаний. Одним из продвинутых подходов является использование знаний в форме графов (Knowledge Graphs, KGs), которые эффективно поддерживают автоматическое обобщение, восстановление информации и выявление знаний. Однако, существующие методы строительства KGs либо ограничены в области применения, либо используют широкомасштабный шанс от LLMs, не учитывая динамику знаний во времени и контекстное неопределенность. Для решения этих проблем предлагается MedKGent, новый фреймворк на основе LLMs для построения динамически изменяющихся KGs в медицинской области. Он основывается на более 10 миллионов абстрактов PubMed, начиная с 1975 года и до 2023 года, и строится при помощи двух специальных агентов, работающих на модели Qwen2.5-32B-Instruct. ## Метод MedKGent использует два основных агента для построения KG. **Extractor Agent** распознает знания в виде троек (субъект-предикат-объект) из текста и присваивает им доверительные оценки с помощью семплирования. Эти оценки используются для исключения низкого-доверительных элементов и для улучшения последующих этапов. **Constructor Agent** принимает доверительные тройки, сортирует их в соответствии с их временными метками и вносит в граф, в то же время разрешая конфликты и укрепляя стабильные знания. Эта последовательность позволяет MedKGent эффективно реагировать на динамические изменения в медицинской литературе, а также обеспечивать высокое качество и точность. ## Результаты Используя 10 миллионов абстрактов, MedKGent построил KG, содержащий 156,275 сущностей и 2,971,384 реляций. Тесты показали, что точность достигает 90% при оценке двумя SOTA LLMs и тремя экспертами в области. Эксперименты по расширенному рассуждению (Retrieval-Augmented Generation, RAG) показали, что MedKGent улучшает результаты на несколько бенчмарок, сравниваясь с лидирующими LLMs. Например, в случае использования в клиническом репутиринге, семплирование доверительных связей позволило увеличить точность инференции. ## Значимость MedKGent предлагает средство для эффективного строительства KGs, которые не только включают статические знания, но и учитывают временную динамику и контекст. Это может быть применено в сферах, таких как клинические решения, лекарственное репутиринг и образование в медицине. Избегая проблем статических KGs, MedKGent предоставляет динамическую модель знаний, усиливая уверенность в выводах и обеспечивая лучшую точность. ## Выводы

Annotation:

The rapid expansion of medical literature presents growing challenges for structuring and integrating domain knowledge at scale. Knowledge Graphs (KGs) offer a promising solution by enabling efficient retrieval, automated reasoning, and knowledge discovery. However, current KG construction methods often rely on supervised pipelines with limited generalizability or naively aggregate outputs from Large Language Models (LLMs), treating biomedical corpora as static and ignoring the temporal dynamics...

ID: 2508.12393v2 cs.CL, cs.AI

arXiv PDF

📄 CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection

2025-08-20

Авторы:

Seonglae Cho, Zekun Wu, Adriano Koshiyama

################################## ## Контекст ################################## Существуют большие языковые модели (LLMs), которые используются для обработки текстов в различных задачах, но их эффективность часто ограничивается необходимостью в специально подобранных данных для обучения или дополнительных ресурсах для мониторинга и корректировки их поведения. Одним из таких задач применения является управление поведением модели (steering), которое предназначено для влияния на результаты модели, чтобы сделать их более точными, безопасными или нейтральными. Большинство существующих подходов к steering в LLMs требуют дополнительного обучения, тестовых данных или сложных методов выделения функций, что снижает их эффективность и гибкость. Поэтому, в статье предлагается подход, позволяющий эффективно и автоматически выделять функции из спарсинговых автокодировщиков (Sparse Autoencoders, SAEs) для управления поведением модели. Этот подход основывается на выборе функций, соотносящих правильность ответов модели с активациями SAE при инференсе, что позволяет избежать нежелательных корреляций и улучшить точность решения задач. Этот подход может быть применен для различных задач, таких как моделирование ответов в виде вопросов-ответов (QA), снижение биаса, предотвращение жалобного поведения (jailbreaking) и развитие рационального мышления в моделях. ################################## ## Метод ################################## В ходе исследования предложен подход CorrSteer, который использует спарсинговые автокодировщики для выделения функций с учетом корреляции с правильностью ответов модели. В статье используется метод выбора функций, основанный на корреляции между ответом модели и активациями SAE, сгенерированными в момент инференса. Преимущество этого подхода заключается в том, что он использует только активации, полученные во время инференса, и не требует дополнительных данных для обучения или хранения. Это позволяет избежать спуфингов корреляций и улучшить качество решения задач. Кроме того, CorrSteer автоматизирует процесс выделения функций, получая коэффициенты управления (steering coefficients) на основе средних активаций SAE, что делает весь процесс более простым и эффективным. Метод протестирован на различных моделях, таких как Gemma 2 2B и LLaMA 3.1 8B, на таких задачах, как вопросы-ответы (QA), снижение биаса, предотвращение жалобного поведения и рациональное мышление. Это позволило продемонстрировать эффективность подхода в улучшении задач, в том числе повышении производительности модели на MMLU на +4.1% и улучшении исправления биаса на +22.9% с использованием только 4000 выборочных данных. ################################## ## Результаты ################################## Исследование показало, что CorrSteer эффективно улучшает задачи в области управления поведением моделей. Например, на

Annotation:

Sparse Autoencoders (SAEs) can extract interpretable features from large language models (LLMs) without supervision. However, their effectiveness in downstream steering tasks is limited by the requirement for contrastive datasets or large activation storage. To address these limitations, we propose CorrSteer, which selects features by correlating sample correctness with SAE activations from generated tokens at inference time. This approach uses only inference-time activations to extract more rel...

ID: 2508.12535v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning

2025-08-20

Авторы:

Yu-Hsuan Fang, Tien-Hong Lo, Yao-Ting Sung, Berlin Chen

## Контекст Автоматизированная оценка речи (Automated Speaking Assessment, ASA) является ключевым компонентом обучения иностранным языкам, позволяя анализировать и оценивать устную речь учащихся. Однако существующие системы ASA страдают ограничениями модальности: текстовые подходы не учитывают акустическую информацию, а аудио-подходы не учитывают семантический контекст. Это приводит к несовершенству в оценке таких аспектов, как содержание речи и языковой уровень. Более того, существует недоступность специализированных методов для оценки динамических аспектов речи, таких как дикция и интонация. Эти ограничения мотивируют развитие моделей, которые могут обрабатывать множество модальностей для полноценного анализа речи. ## Метод Данная работа представляет собой первую систематическую исследовательскую работу по применению Multimodal Large Language Models (MLLM) для полноценной ASA. MLLM объединяют в себе аудио- и текстовые данные в единой модели, что позволяет обрабатывать все аспекты речи — содержание, языковой уровень и динамические характеристики (дикция и интонация). Эта работа также представляет новую методологию Speech-First Multimodal Training (SFMT), основанную на принципах curriculum learning. SFMT укрепляет модельную основу для обработки речи до того, как происходит синергетическое сочетание мультимодальных данных. ## Результаты Эксперименты проводились на бенчмарк-датасете, содержащем звуковые записи устных высказываний с оценками по экспертным критериям. Результаты показали, что MLLM-системы повышают точность оценки речи, увеличивая корреляционный коэффициент (PCC) с 0.783 до 0.846. Особое внимание уделено аспекту "дикция" (динамические характеристики речи), где SFMT демонстрирует абсолютный прирост точности в 4% по сравнению с традиционными методами. Это свидетельствует о том, что SFMT может устранить существующие проблемы в оценке устной речи. ## Значимость Предложенная модель имеет широкие перспективы применения в обучении иностранным языкам, а также в системах личного и профессионального развития. Она предоставляет более точную и полную оценку устной речи, учитывая все аспекты — содержание, языковой уровень и динамические характеристики. Выявленный потенциал MLLM-моделей для ASA открывает новые технические и научные возможности в области машинного обучения и образовательных технологий. ## Выводы Результаты экспериментов подтверждают, что MLLM являются эффективным инструментом для полноценной ASA. Особое внимание уделено стратегии SFMT, которая устанавливает новый стандарт в обучении моделей к обработке речи. Будущие исследования буду

Annotation:

Traditional Automated Speaking Assessment (ASA) systems exhibit inherent modality limitations: text-based approaches lack acoustic information while audio-based methods miss semantic context. Multimodal Large Language Models (MLLM) offer unprecedented opportunities for comprehensive ASA by simultaneously processing audio and text within unified frameworks. This paper presents a very first systematic study of MLLM for comprehensive ASA, demonstrating the superior performance of MLLM across the as...

ID: 2508.12591v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 Breaking Language Barriers: Equitable Performance in Multilingual Language Models

2025-08-20

Авторы:

Tanay Nagar, Grigorii Khvatskii, Anna Sokol, Nitesh V. Chawla

## Контекст Проблема неравенства доступа к качественным выходам моделей языкового моделирования (LLM) в разных языках становится все более актуальной в условиях широкого распространения специализированных моделей. Многие LLMs демонстрируют неодинаковую эффективность в задачах резонения и понимания языка при работе с языками высокого ресурса (HRL, High-Resource Languages), такими как английский, и языками низкого ресурса (LRL, Low-Resource Languages), такими как индийский или свахили. Это неравенство создает значительные барьеры для моделей, препятствующие их эффективному применению в широком диапазоне языков. Одним из ключевых мотивов для решения этой проблемы является необходимость обеспечить доступ к справедливым выходам моделей для всех языков, включая низкоресурсные. Равенство в доступе к качественной модели LLM является критическим для развития лингвистического коммуникационного пространства, повышения уровня участия и улучшения общего контекста многоязычного понимания. ## Метод Чтобы устранить эти неравенства, авторы предлагают новый подход, основанный на технике использования синтетических код-шифтовых данных. Метод построен на методе порождения контролируемых текстов, сочетающих элементы нескольких языков, чтобы создать синтетические данные, которые могут быть использованы для улучшения моделей. Главная идея заключается в том, чтобы использовать синтетические код-шифтовые тексты, созданные с помощью методов, которые позволяют выделять различные языковые контексты в тексте. Это позволяет модели LLM адаптироваться к различным языкам, включая низкоресурсные, с целью повысить их уровень производительности в сложных задачах резонения. ## Результаты Для проверки эффективности предлагаемого подхода, авторы провели ряд экспериментов. Для этого была использована синтетическая кодовая структура, созданная на основе датасета CommonSenseQA. Этот датасет был конвертирован в три разных конфигурации языковых перекрестных смешаний. Эксперименты показали, что применение этого метода приводит к значительным улучшениям в производительности моделей языкового моделирования на низкоресурсных языках, при этом сохраняя или даже повышая производительность на высокоресурсных языках, таком как английский. Эксперименты подтвердили, что модели LLM, подвергнутые тренировке на таких синтетических данных, демонстрируют более высокий уровень универсальности и справедливости для различных языков. Это улучшение производительности особенно заметно при выполнении задач резонения в реальных условиях. ## Значимость Результаты демонстрируют

Annotation:

Cutting-edge LLMs have emerged as powerful tools for multilingual communication and understanding. However, LLMs perform worse in Common Sense Reasoning (CSR) tasks when prompted in low-resource languages (LRLs) like Hindi or Swahili compared to high-resource languages (HRLs) like English. Equalizing this inconsistent access to quality LLM outputs is crucial to ensure fairness for speakers of LRLs and across diverse linguistic communities. In this paper, we propose an approach to bridge this gap...

ID: 2508.12662v1 cs.CL, cs.AI

arXiv PDF

📄 ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction

2025-08-20

Авторы:

Xingshan Zeng, Weiwen Liu, Lingzhi Wang, Liangyou Li, Fei Mi, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu

## Контекст Одним из ключевых направлений развития ИИ является создание систем, способных эффективно взаимодействовать с пользователями в рамках сложных задач. Это включает в себя взаимодействия с несколькими шагами, вовлечение различных инструментов и динамические обмены. Но в существующих моделях нередко обнаруживаются проблемы с обеспечением точности, структуры и динамичности в таких сценариях. Это приводит к необходимости разработки методов, которые могут генерировать более качественные данные для обучения и оценки таких систем. ## Метод Предлагаемый подход, ToolACE-MT, основывается на неавторегрессионной генерировании диалогов, разделяющий процесс на три этапа. **Инициализация** формирует структурно полные, но семантически грубые диалоговые выводы. **Итеративное уточнение** вводит реалистичные сложности, расширяет диалог и добавляет контекстов. **Оффлайн-проверка** гарантирует качество и логичность результатов с помощью правил и моделей. Этот подход стремится создавать данные, которые не только содержат всю необходимую структуру, но и динамичны в своем смысле, чтобы отразить реальные сценарии интеракций. ## Результаты Используя этот подход, были проведены эксперименты, в которых генерировались диалоги с несколькими шагами, включая задачи с использованием инструментов. Обучающиеся данные были получены с помощью многих выборок, а результаты показали, что ToolACE-MT удалось увеличить качество данных, сократить время генерации и обеспечить более гибкий процесс сравнения многих моделей. Эти результаты опровергают необходимость в дорогостоящих многошаговых авторегрессионных процессах, предлагая более эффективную альтернативу. ## Значимость Модель ToolACE-MT может быть применима в различных сферах, таких как генерация диалогов для систем помощников, систем технической поддержки и интерактивных приложений. Одним из основных преимуществ является ее эффективность и универсальность, что позволяет улучшить качество данных в средах с несколькими шагами. Это может привести к повышению качества работы генерируемых моделей и к более естественным взаимодействиям с пользователями. ## Выводы Это исследование предлагает новую модель для генерирования данных для многошаговых сценариев с использованием инструментов. Достижения ToolACE-MT указывают на возможность создания улучшенных систем, которые будут более эффективными и реалистичными в своих взаимодействиях. Будущие исследования будут сконцентрированы на расширении модели для более сложных задач и интеграции дополнительных инструментальных функций.

Annotation:

Agentic task-solving with Large Language Models (LLMs) requires multi-turn, multi-step interactions, often involving complex function calls and dynamic user-agent exchanges. Existing simulation-based data generation methods for such scenarios rely heavily on costly autoregressive interactions between multiple LLM agents, thereby limiting real-world performance of agentic tasks. In this paper, we propose a novel Non-Autoregressive Iterative Generation framework, called ToolACE-MT, for constructin...

ID: 2508.12685v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models

2025-08-20

Авторы:

Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang

## Контекст В последние годы широко распространенность и востребованность бо LARGE LANGUAGE MODELS (LLMs) в технологических сферах требуют внимательного подхода к их безопасности в различных языковых и культурных контекстах. Несмотря на это, существующие методы оценки безопасности LLMs часто ограничены недостатком широкого языкового покрытия и разнообразия данных. Это существенно снижает эффективность текущих методов согласования безопасности LLMs, затрудняя развитие систем, которые могут быть эффективными в разных языковых и культурных средах. ## Метод Для решения этой проблемы мы предлагаем LinguaSafe, комплексный многоязычный бенчмарк, разработанный с учетом языковой аутентичности и культурной контекстности. LinguaSafe включает 45 тысяч записей на 12 языках, включая хунгарский и малайский, созданные с помощью перевода, переделки и родных ресурсов. Методология LinguaSafe включает в себя двухуровневую оценку безопасности (прямую и косвенную), а также оценку чувствительности. Это позволяет выявить проблемы, такие как переобучение и недообучение, в различных языковых контекстах. ## Результаты Используя LinguaSafe, мы провели эксперименты с несколькими LLMs, оценили их показатели безопасности и полезности в разных языковых контекстах. Результаты показали существенные различия в этих показателях, даже для языков с близкими уровнями ресурсов. Например, в группе языков с похожими ресурсами, таких как русский и украинский, значимость и безопасность могут отличаться в зависимости от конкретного языкового моделирования и применения. ## Значимость LinguaSafe позволяет проводить оценку безопасности LLMs в различных языковых и культурных средах. Бенчмарк может применяться в разработке безопасных систем для различных государственных и коммерческих целей. Он предоставляет потенциал для улучшения безопасности LLMs, особенно в тех областях, где языковые и культурные различия требуют особого внимания. ## Выводы LinguaSafe представляет собой первый подробный многоязычный бенчмарк для оценки безопасности LLMs. Наши результаты подчеркивают важность комплексного подхода к оценке безопасности в различных языковых контекстах. В будущем мы планируем расширить LinguaSafe, добавив более языков и тестовых случаев, чтобы повысить ценность и эффективность этого инструмента для безопасной разработки LLMs.

Annotation:

The widespread adoption and increasing prominence of large language models (LLMs) in global technologies necessitate a rigorous focus on ensuring their safety across a diverse range of linguistic and cultural contexts. The lack of a comprehensive evaluation and diverse data in existing multilingual safety evaluations for LLMs limits their effectiveness, hindering the development of robust multilingual safety alignment. To address this critical gap, we introduce LinguaSafe, a comprehensive multil...

ID: 2508.12733v1 cs.CL, cs.AI

arXiv PDF

📄 CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description

2025-08-20

Авторы:

Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Penge

## Контекст Текстовые-SQL-системы (Text-to-SQL) широко применяются для автоматизации построения SQL-запросов на основе естественного языка (NLQ). Однако, несмотря на улучшения, достигнутые с помощью больших языковых моделей (LLMs), текстовые-SQL-системы сталкиваются с существенными проблемами. Одна из них — семантический разрыв между NLQ и соответствующим SQL-запросом, особенно в больших кросс-доменных базах данных. Этот разрыв приводит к схемной несовпадению (schema mismatch) и семантическому сдвигу (semantic drift) в процессе генерации SQL-запросов. Эти проблемы существенно снижают точность и надежность текстовых-SQL-систем в реальной среде. Мотивация для данного исследования заключается в развитии эффективного подхода, который уменьшает семантический разрыв и повышает точность текстовых-SQL-систем в крупных кросс-доменных базах данных. ## Метод CRED-SQL — это новый подход для решения проблем семантического разрыва в текстовых-SQL-системах. Он состоит из двух основных компонентов: кластерная реtь-схема (Cluster Retrieval) и интерфейс управления выполнением (Execution Description). 1. **Кластерная реtь-схема**: CRED-SQL использует кластеризацию для выявления наиболее подходящих таблиц и столбцов в большой базе данных, относящихся к заданному естественному языковому запросу. Это позволяет уменьшить схемную несовпаденность, связанную с большим числом атрибутов в крупных базах данных. 2. **Интерфейс управления выполнением**: CRED-SQL представляет естественному языку запроса в виде нового языка — Execution Description Language (EDL). Этот язык декомпозирует задачу на две подзадачи: текст-к-EDL и EDL-к-SQL. Это позволяет глубоко интерпретировать запросы с помощью LLMs, что уменьшает семантический сдвиг и повышает точность. ## Результаты Для оценки эффективности CRED-SQL проводились эксперименты на двух крупных кросс-доменных базах данных: SpiderUnion и BirdUnion. Результаты показали, что CRED-SQL превосходит нынешние лучшие решения в метриках точности (accuracy) и F1-меры. Также была проведена сравнительная оценка с другими подходами, и CRED-SQL демонстрирует существенное улучшение в семантической точности и скорости выполнения. Эти результаты подтверждают значительное преимущество CRED-SQL в области текстовых-SQL-систем для крупных кросс-доменных баз данных. ## Значимость CRED-SQL может применяться в различных областях, где требуется автоматизация построения SQL-запросов на основе естественного языка. Например, в системах управления базами данных, в системах аналитики данных и в системах поддержки принятия решений. Одним из главных преимуществ CRED-SQL является его способность эффективно работать с б

Annotation:

Recent advances in large language models (LLMs) have significantly improved the accuracy of Text-to-SQL systems. However, a critical challenge remains: the semantic mismatch between natural language questions (NLQs) and their corresponding SQL queries. This issue is exacerbated in large-scale databases, where semantically similar attributes hinder schema linking and semantic drift during SQL generation, ultimately reducing model accuracy. To address these challenges, we introduce CRED-SQL, a fra...

ID: 2508.12769v2 cs.CL, cs.AI

arXiv PDF

📄 Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward

2025-08-20

Авторы:

Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng

## Контекст Поиск информации и глубокое исследование тем – это ключевые задачи, которые находят применение в различных сферах, включая образование, научный исследовательский процесс, профессиональную деятельность и жизненные задачи. Однако существуют серьезные проблемы в наличии методов, позволяющих автоматизировать эти процессы с учетом глубины и сложности задач. Большинство текущих систем, основанных на традиционных подходах, сталкиваются с ограничениями в многоэтапном (многохопном) рассуждении, стратегическом поиске и неструктурированном анализе данных. Эти ограничения приводят к неэффективности в выделении релевантных фактов, вывода выводов и формировании согласованных ответов. Мотивацией для этого исследования является развитие методов, которые позволили бы агентным глубоким исследованиям более эффективно решать сложные задачи, в том числе с использованием расширенных знаний и многоуровневого рассуждения. ## Метод Предложенный подход, Atom-Searcher, носит новаторский характер и состоит из двух основных компонентов: Atomic Thought и Atom-Searcher RL Framework. Atomic Thought представляет собой новую парадигму мышления для Лардных языковых моделей (LLMs), которая выделяет многочисленные мелкие моменты логического рассуждения, называемые Atomic Thought Units (ATUs). Каждая ATU является функциональным модулем, который решает часть задачи и может быть напрямую награждена Атомной Наградой Рассуждения (ATR). Атомная Награда Рассуждения – это новая подходящая мера, которая обеспечивает прецизионное управление глубоким рассуждением. Фармакологический фреймворк Atom-Searcher имеет курсивную структуру наград, которая начинается с наград по процессу (процесс-level ATR) и плавно переходит к наградам по результату (результат-level ATR). Это позволяет глубокому поиску более эффективно направляться к эффективным логическим путям. Эта архитектура обеспечивает гибкость, точность и улучшенную интерпретируемость в процессе глубокого исследования. ## Результаты Проведены серия экспериментов на семи стандартных наборах данных для оценки эффективности Atom-Searcher. Эти штандартные наборы данных включали задачи, требующие глубокого и многохопного рассуждения, такие как OpenBookQA, HotpotQA и CIF. Одним из ключевых показателей стали качество ответов, процесс улучшения логических путей и эффективность обучения. Эксперименты показали, что Atom-Searcher показал существенное улучшение в сравнении с другими современными системами, в том числе теми, которые опираются на reinforcement learning (RL). Особое внимание было уделено интерпретируемости результатов и транспарентности в проц

Annotation:

Large language models (LLMs) exhibit remarkable problem-solving abilities, but struggle with complex tasks due to static internal knowledge. Retrieval-Augmented Generation (RAG) enhances access to external information, yet remains limited in multi-hop reasoning and strategic search due to rigid workflows. Recent advancements in agentic deep research empower LLMs to autonomously reason, search, and synthesize information. However, current approaches relying on outcome-based reinforcement learning...

ID: 2508.12800v2 cs.CL, cs.AI

arXiv PDF

📄 Context Matters: Incorporating Target Awareness in Conversational Abusive Language Detection

2025-08-20

Авторы:

Raneem Alharthi, Rajwa Alharthi, Aiqi Jiang, Arkaitz Zubiaga

## Контекст Абузивный язык в социальных сетях является важной проблемой, которая сказывается на удовлетворении пользователей и здоровье общества. Несмотря на развитие моделей для определения абузивного языка, большая часть исследований ограничивается использованием отдельных сообщений без учета контекста, в котором они появляются. Данное исследование фокусируется на обменах в контексте диалогов, где пользователь отвечает на сообщение другого пользователя (родительское сообщение). Основный вопрос: улучшает ли использование контекста родительского сообщения точность определения абузивного языка, и какие функции в нем играют наиболее важную роль? ## Метод Исследование основывается на множественных моделях классификации для определения абузивности сообщений в контексте. Модели работают с двумя типами данных: отдельные сообщения (родительские и ответные) и пары родительских и ответных сообщений. Используются различные типы функций: контентные (содержание сообщения) и аккаунтные (данные пользователя). Эксперименты проводятся на небольшом, но применимом датасете, содержащем пары родительских и ответных сообщений, классифицированных как абузивные или неабузивные. Модели сравниваются по их точности и способности включать контекстную информацию. ## Результаты Исследования показали, что использование контекстной информации существенно повышает точность классификации. Методы, использующие контентные функции, показали лучшие результаты по сравнению с аккаунтными функциями. Также было замечено, что лучшая точность достигается при использовании разнообразия функций, а не при ограниченном выборе. Эта находка подтверждает важность контекста в моделях определения абузивного языка, особенно в контексте диалогов в социальных сетях. ## Значимость Результаты могут быть применены в разработке моделей для мониторинга социальных сетей и принятия решений о том, следует ли принять меры против пользователей, которые ведут себя абузивно. Данный подход также может быть применен для изучения других видов контекстной оценки в социальных сетях, повышая актуальность моделей в реальных условиях. ## Выводы Резюмируя, исследование подтвердило, что контекст родительского сообщения может значительно повысить точность определения абузивного языка в социальных сетях. Особенно важным оказалось использование разнообразных контентных функций. Будущие исследования будут ориентированы на улучшение моделей для более больших датасетов и учитывать другие факторы, такие как история поведения пользователей или их аудитории.

Annotation:

Abusive language detection has become an increasingly important task as a means to tackle this type of harmful content in social media. There has been a substantial body of research developing models for determining if a social media post is abusive or not; however, this research has primarily focused on exploiting social media posts individually, overlooking additional context that can be derived from surrounding posts. In this study, we look at conversational exchanges, where a user replies to...

ID: 2508.12828v1 cs.CL, cs.AI

arXiv PDF

📄 Word Meanings in Transformer Language Models

2025-08-20

Авторы:

Jumbly Grindrod, Peter Grindrod

## Контекст Transformer language models (LLMs) представляют собой мощные инструменты для обработки естественного языка, которые пользуются широким применением в различных областях. Одна из основных задач, связанных с этими моделями, заключается в понимании того, как они представляют и обрабатывают семантическую информацию. Несмотря на выдающиеся результаты, существует теоретическая проблема: непонятно, используют ли эти модели что-то подобное традиционной лексико-семантической системе (lexical store), где каждому слову соответствует определенный набор семантических свойств. Мотивация для данного исследования состоит в том, чтобы раскрыть, насколько LLMs, в частности transformer-модели, зависят от хранения лексической информации в виде отдельных "записей" для каждого слова. ## Метод Для изучения этой проблемы авторы применяют методику, основанную на анализе токен-эмбеддингов RoBERTa-base, полученных с помощью предварительно обученной модели. Они разбивают пространство токен-эмбеддингов на 200 кластеров с помощью алгоритма k-means. В первом этапе исследования проводится ручной анализ этих кластеров, чтобы определить, содержат ли они семантическую информацию. Во втором этапе исследования, кластеры тестируются с помощью пяти психолингвистических мер: valence, concreteness, iconicity, taboo и age of acquisition. Эти меры позволяют оценить, насколько кластеры реагируют на семантические и синтаксические свойства слов. ## Результаты Эксперименты показали, что в пространстве токен-эмбеддингов RoBERTa-base достаточное количество семантической информации хранится в виде кластеров, которые реагируют на психолингвистические меры. Это означает, что семантическая информация не хранится в виде отдельных, изолированных "записей" для каждого слова, но вместе с другими словами в зависимости от контекста. Нахождение нескольких лексических кластеров, реагирующих на психолингвистические признаки, указывает на то, что лексическая информация в LLMs процессируется не статически, а в зависимости от контекста. Это позволяет опровергнуть теории, которые считают, что transformer-модели не обрабатывают семантическую информацию. ## Значимость Изучение того, как transformer-модели обрабатывают семантическую информацию, имеет значительное значение для понимания их работы в области естественного языка. Это исследование открывает пути для более тонкого понимания процесса обучения моделей, а также может иметь важное применение в области естественного языка и текстового понимания. Кроме того, найденные результаты могут способствовать развитию новых методов для психолингвистического исследования языка. ## Выводы Результаты исследования показывают, что transformer-модели, такие

Annotation:

We investigate how word meanings are represented in the transformer language models. Specifically, we focus on whether transformer models employ something analogous to a lexical store - where each word has an entry that contains semantic information. To do this, we extracted the token embedding space of RoBERTa-base and k-means clustered it into 200 clusters. In our first study, we then manually inspected the resultant clusters to consider whether they are sensitive to semantic information. In o...

ID: 2508.12863v1 cs.CL, cs.AI

arXiv PDF

1
2
180
181
182
183
184
204
205

Показано 1811 - 1820 из 2042 записей