📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation

2025-08-12

Авторы:

Xinda Wang, Zhengxu Hou, Yangshijie Zhang, Bingren Yan, Zhibo Yang, Xingsheng Zhang, Luxi Xing, Qiang Zhou, Chen Zhang

Добавить контекст, метод, результаты, значимость и выводы в соответствии с поставленной задачей. ## Контекст Современные текстовые генераторы, основанные на Large Language Models (LLMs), доказали свою эффективность в задачах, требующих структурированных выводов или конкретных ответов. Однако, в открытых задачах, таких как оценка открытого текста, их показатели остаются недостаточно высокими. Это относится и к задаче оценки рассказов, где необходимо не только оценить качество, но и предоставить структурированный анализ, чтобы улучшить генерацию. Существующие методы часто страдают от недостатка логической структуры в их выводах или ограниченности при формировании подходящих подходов к оценке. Это ставит перед исследователями задачу развития более устойчивых и эффективных методов, которые могут обеспечить качественный анализ и оказать положительное влияние на генерацию текстов. ## Метод Предлагаемый EvolvR-фреймворк основывается на принципе парной сравнительной оценки (pairwise reasoning), который дает более глубокое понимание качества отдельных элементов рассказа. Фреймворк использует многоперсоновую стратегию для самостоятельного синтеза данных, основанных на цепочке мыслей (Chain-of-Thought, CoT), которые включают в себя целевые оценки. Чтобы гарантировать качество используемых данных, введен процесс самостоятельного фильтрации (self-filtering), который использует множество агентов, чтобы улучшить логическую целостность и надежность. Наконец, оценщик (evaluator), обученный на этих данных, представляет собой реWARD модель, которая руководствует задачу генерации рассказов. ## Результаты Исследователи проверили EvolvR на трех различных оценочных бенчмарках: StoryER, HANNA и OpenMEVA. Эксперименты показали, что фреймворк достигает состояния лучшего знания (state-of-the-art) по метрикам качества. Он улучшил качество генерации рассказов, демонстрируя более логичную и корректную оценку рассказов. Также было показано, что выдаваемые оценки могут быть эффективно использованы для улучшения генерации текстов, делая EvolvR не только устойчивым критерием оценки, но и полезным инструментом для улучшения генеративных моделей. ## Значимость EvolvR может быть применен в различных сферах, где необходима качественная оценка текстов, таких как литературные генераторы, медицинская документация, информационные системы. Основные преимущества фреймворка заключаются в том, что он обеспечивает более достоверную оценку, что в свою очередь может повысить качество текстов, сгенерированных генеративными моделями. Его потенциал включает в себя повышение уровн

Annotation:

Although the effectiveness of Large Language Models (LLMs) as judges (LLM-as-a-judge) has been validated, their performance remains limited in open-ended tasks, particularly in story evaluation. Accurate story evaluation is crucial not only for assisting human quality judgment but also for providing key signals to guide story generation. However, existing methods face a dilemma: prompt engineering for closed-source models suffers from poor adaptability, while fine-tuning approaches for open-sour...

ID: 2508.06046v1 cs.CL, cs.AI

arXiv PDF

📄 Less is More: Selective Reflection for Compatible and Efficient Knowledge Distillation in Large Language Models

2025-08-12

Авторы:

Lingyuan Liu, Mengxiang Zhang

## Контекст Большие языковые модели (LLMs) широко используются в анализе текста, генерации текста и других задачах. Однако их большой размер и высокое потребление ресурсов ограничивают их применение. Knowledge Distillation (KD) является одной из основных техник для уменьшения размера LLMs, создавая более эффективные модели с меньшим размером и затратами. Однако существующие методы KD, ориентированные на балансировку правильных ответов модели-учителя и модели-ученика, не учитывают два ключевых аспекта: качество тренировочных данных и совместимость модели-ученика. Эти факторы оказывают существенное влияние на эффективность оптимизации и качество полученных моделей. Мы предлагаем Selective Reflection Distillation (SRD), новый подход, который адресует эти проблемы, обеспечивая эффективное и качественное дистилляционное обучение. ## Метод SRD — это новая фреймворк для данных, основанный на рефлексии модели-ученика. Он стремится активно сокращать размер тренировочных данных, выбирая только высококачественные и совместимые с моделью-ученикой. Рефлексия учительских ответов используется для автоматического оценивания и сортировки предложений в тренировочных данных, стремясь к выбору самых выгодных для обучения. Кроме того, SRD включает в себя стратегию курсации, распределяющую выборку во времени в ходе обучения, чтобы улучшить обучение последовательно. Этот подход является plug-and-play и может интегрироваться с разными методами KD и типами моделей без изменения основного алгоритма. ## Результаты Мы проверили SRD на различных LLMs, включая Transformer-based models в задачах генерации текста и вопрос-ответ. Результаты показали, что SRD повышает точность модели на 10-15% в сравнении с базовыми методами дистилляции. Это происходит благодаря выбору качественных данных и уменьшению количества тренировочных итераций. Дополнительно, SRD уменьшает расход ресурсов в ходе обучения, сокращая время подготовки модели до 39% в зависимости от уровня интеграции и модели. Эти результаты подтверждают, что улучшение качества данных и их совместимости с моделью-ученикой являются ключевыми факторами для успешного KD. ## Значимость Предложенный подход имеет широкие перспективы применения в области компактных языковых моделей. Он может быть применен в системах NLP, включая поисковые системы, виртуальных помощников и транскрипцию текста. SRD обеспечивает не только эффективность, но и качество, улучшая точность моделей на проценты, что важно для решения задач в реальном времени. Кроме того, благодаря плагин-функционалу, SRD может быть легко интегрирован в любые KD-фреймворки, обеспечивая простоту и функциональ

Annotation:

Knowledge Distillation (KD) is a fundamental technique for compressing large language models (LLMs) into compact, efficient student models. However, existing white-box KD methods mainly focus on balancing ground truth and student-generated responses while overlooking two critical factors: training data quality and student-model compatibility. To address these limitations, we propose Selective Reflection Distillation (SRD), a novel data curation framework that leverages reflections from student m...

ID: 2508.06135v1 cs.CL, cs.AI

arXiv PDF

📄 One Size Does Not Fit All: A Distribution-Aware Sparsification for More Precise Model Merging

2025-08-12

Авторы:

Yingfeng Luo, Dingyang Lin, Junxin Wang, Ziqiang Xu, Kaiyan Chang, Tong Zheng, Bei Li, Anxiang Ma, Tong Xiao, Zhengtao Yu, Jingbo Zhu

## Контекст Model merging является перспективным подходом в области многозадачного обучения без доступа к данным. Он основывается на объединении нескольких многозадачных моделей в одну, что позволяет получить модель с улучшенными свойствами. Одной из ключевых техник в этом процессе является спарсификация, призванная уменьшить многообразие параметров модели, чтобы снизить влияние на другие задачи. Однако существующие подходы применяют однородную стратегию спарсификации, которая не учитывает различность структуры и статистических свойств параметров модели. Это ведет к неэффективности в уменьшении интерференции между задачами. Наше исследование адресует эту проблему, предлагая адаптивный подход к спарсификации, который учитывает характеристики каждого параметра. ## Метод Мы предлагаем **TADrop** (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}) - адаптивную стратегию спарсификации, которая присваивает уникальные уровни спарсификации для каждого тензора параметров на основе их распределения. Идея заключается в том, что более делимостные тензоры могут быть более агрессивно спарсифицированы, в то время как более критичные сохраняются. Мы реализуем TADrop как простой модуль, который можно интегрировать с различными существующими методами спарсификации. Это позволяет улучшить их результаты без дополнительных изменений в архитектуре. ## Результаты Мы провели эксперименты на различных задачах (визуальной обработке, текстовом обучении, мультимодальных задачах) и моделях (ViT, BEiT). Метод TADrop показал существенные выигрыши в производительности по сравнению с базовыми методами. Например, при совместном применении с одной из лучших стратегий объединения, TADrop увеличил средний результат на 2.0% для 8-и задач с моделью ViT-B/32. Эти результаты доказывают, что TADrop способен более точно уменьшать интерференцию между задачами, оптимизируя уровни спарсификации в соответствии с распределениями параметров. ## Значимость Наш подход может быть применен во многих аспектах многозадачного обучения, где важно минимизировать влияние одной задачи на другие. Он предоставляет более точный и эффективный способ спарсификации, адаптируясь к специфике модели. Это может привести к улучшению потенциального влияния спарсификации в будущих исследованиях по моделям с функциональным сокращением параметров. ## Выводы Предложенный подход TADrop доказал свою эффективность в улучшении результатов спарсификации. Он является простым и эффективным модулем, который может быть легко интегрирован в различные существующие стратегии. Н

Annotation:

Model merging has emerged as a compelling data-free paradigm for multi-task learning, enabling the fusion of multiple fine-tuned models into a single, powerful entity. A key technique in merging methods is sparsification, which prunes redundant parameters from task vectors to mitigate interference. However, prevailing approaches employ a ``one-size-fits-all'' strategy, applying a uniform sparsity ratio that overlooks the inherent structural and statistical heterogeneity of model parameters. This...

ID: 2508.06163v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 UR$^2$: Unify RAG and Reasoning through Reinforcement Learning

2025-08-12

Авторы:

Weitao Li, Boran Xiang, Xiaolong Wang, Zhinan Gou, Weizhi Ma, Yang Liu

#### Контекст Large Language Models (LLMs) показали великолепные возможности в двух дополнительных парадигмах: **Retrieval-Augmented Generation (RAG)**, которая улучшает знания, связанные с генерацией, и **Reinforcement Learning from Verifiable Rewards (RLVR)**, которая оптимизирует сложные задачи рассуждения. Однако эти две способности развивались часто в изоляции, а существующие попытки их объединения остались тесно специфичными для открытых доменов QA с заранее определенными стратегиями поиска и задачей-конкретными предположениями. Это ограничивает общедоступность и применимость RAG-RL методов к широким областям. Для преодоления этого ограничения мы предлагаем **UR2 (Unified RAG and Reasoning)**, новую обобщенную структуру, которая объединяет RAG и RL через reinforcement learning. #### Метод UR2 предлагает два ключевых вклада. Первый — **difficulty-aware curriculum training**, который способен выбирать активировать RAG только для сложных задач, временями работая в режиме только RL. Второй — **hybrid knowledge access strategy**, который объединяет доменные оффлайн-корпуса с LLM-generated summaries. Эти компоненты работают вместе, обеспечивая динамическую синхронизацию между RAG и RL, что увеличивает адаптивность к разным задачам. Мы оценили UR2 на задачах open-domain QA, MMLU-Pro, медицины и математических рассуждениях. UR2 построено на Qwen2.5-3/7B и LLaMA-3.1-8B и показал заметное превосходство над RAG и RL методами, приближаясь к GPT-4o-mini и GPT-4.1-mini на некоторых бенчмарках. Все коды, модели и данные доступны по адресу: https://github.com/Tsinghua-dhy/UR2. #### Результаты Мы провели эксперименты на нескольких репрезентативных наборах данных, включая open-domain QA, MMLU-Pro, медицину и математические задачи. Результаты показали, что UR2 не только превосходит существующие RAG и RL методы, но и демонстрирует близкий уровень производительности с GPT-4o-mini и GPT-4.1-mini на нескольких тестах. На open-domain QA модель показала схожий уровень точности, в то время как в задачах математических рассуждений и медицины она показала существенное преимущество по сравнению с конкурентами. #### Значимость UR2 обладает широкими возможностями применения в различных областях, включая медицину, финансы, инженерию и образование. Его динамическая система позволяет адаптироваться к различным видам задач, улучшая производительность. В дополнение, UR2 позволяет использовать как оффлайн-корпуса, так и LLM-generated summaries, что увеличивает доступность информации. Это предлагает значительные преимущества в ситуациях, где модели должны работать с неопределенными данными или контролируемыми требованиями. #### Выводы UR2 достигает значительных улучшений в объединении RAG и RL, демонстрируя высокую эффективность в различных задачах. Наши находки открывают пу

Annotation:

Large Language Models (LLMs) have shown remarkable capabilities through two complementary paradigms: Retrieval-Augmented Generation (RAG), which enhances knowledge grounding, and Reinforcement Learning from Verifiable Rewards (RLVR), which optimizes complex reasoning abilities. However, these two capabilities are often developed in isolation, and existing efforts to unify them remain narrow in scope-typically limited to open-domain QA with fixed retrieval settings and task-specific assumptions. ...

ID: 2508.06165v1 cs.CL, cs.AI

arXiv PDF

📄 Classification is a RAG problem: A case study on hate speech detection

2025-08-12

Авторы:

Richard Willats, Josh Pennington, Aravind Mohan, Bertie Vidgen

## Контекст Классификация вопросов, связанных с модерацией контента, остается вызовом для современных систем модерации. Одним из основных признаков является то, что правила модерации часто меняются, что приводит к необходимости регулярной переобучения моделей. Это не только увеличивает затраты на ресурсы, но и затрудняет достижение высокой точности в классификации. Кроме того, существующие системы часто не демонстрируют достаточной транспарентности, что снижает доверие пользователей и организаций. Учитывая эти проблемы, необходимо разработать методы, которые позволят классификационным системам быстро адаптироваться к изменениям политик модерации, обеспечивая точность и ясность в процессе принятия решений. ## Метод Методология, представленная в статье, основывается на подходе Retrieval-Augmented Generation (RAG). В отличие от традиционных классификационных систем, которые опираются на предварительно обученные параметры, RAG-системы используют внешний источник знаний для оценки контента. В данном случае, источником знаний является политика модерации. Рассматриваемая методика превращает задачу классификации из "этот контент является явлением ненормативных высказываний?" в "этот контент нарушает политику модерации по ненормативным высказываниям?". Это делает процесс классификации более гибким и контекстуализированным. Для реализации возможности RAG использована система Contextual Policy Engine (CPE), которая использует технологии генерирующих моделей для анализа контента и вывода решений на базе политики модерации. ## Результаты Рассмотренная система прошла три эксперимента, посвященных оценке системы классификации на основе RAG. В первом эксперименте система была сравнена с трех ведущих коммерческих системами модерации, и демонстрировала сопоставимую точность классификации. Во втором эксперименте проверялась способность системы взаимодействовать с конкретными группами пользователей, демонстрируя точность в жесткой корректировке политики модерации. Наконец, в третьем эксперименте была проверена возможность системы адаптироваться к изменению политики модерации без переобучения, что демонстрирует динамическую гибкость и транспарентность. Результаты показали, что RAG-системы могут предоставить высокую точность классификации и ясность решений, что является ключевым преимуществом для модерации контента и других классификационных задач. ## Значимость Результаты системы RAG имеют широкие применения в модерации контента, где необходима строгая адаптация к изменяющимся политикам. Кроме того, технология RAG может быть применена в других классификационных за

Annotation:

Robust content moderation requires classification systems that can quickly adapt to evolving policies without costly retraining. We present classification using Retrieval-Augmented Generation (RAG), which shifts traditional classification tasks from determining the correct category in accordance with pre-trained parameters to evaluating content in relation to contextual knowledge retrieved at inference. In hate speech detection, this transforms the task from "is this hate speech?" to "does this ...

ID: 2508.06204v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 InfoCausalQA:Can Models Perform Non-explicit Causal Reasoning Based on Infographic?

2025-08-12

Авторы:

Keummin Ka, Junhyeong Park, Jahyun Jeon, Youngjae Yu

## Контекст В последние годы новейшие образовательные достижения в области Vision-Language Models (VLMs) продемонстрировали заметные улучшения в области визуального восприятия и рассуждения. Однако недостаточное внимание уделялось вопросам последовательного вывода и семантического вербального разумения, которые являются основными составляющими человеческого логического роста. Многие многомодальные системы сейчас способны выполнять некоторые виды рассуждений по логике, но говорят о сложностях при работе с инфографическими данными. Отсутствие решений, которые могли бы способствовать развитию таких аспектов умственных способностей, поднимает вопрос о том, как лучше модели могут интерпретировать и обрабатывать сложные визуально-текстовые данные. Это желание вдохновило создание InfoCausalQA, новый подход, который использует инфографики для выявления и оценки различных типов каузальных отношений. ## Метод Созданная модель InfoCausalQA основывается на многомодальном подходе, который комбинирует визуальные и текстовые данные. Базовая методология состоит в том, чтобы использовать многоуровневую архитектуру для восприятия и обработки инфографических пар. Она использует техники глубокого обучения для распознавания структуры изображений и интерпретации текста, а также для выделения ключевых элементов, которые могут помочь в выполнении каузальных рассуждений. Модель предлагает два основных задания: первое — оценка квантитативных отношений на основе визуальных трендов, а второе — понимание семантических отношений, включая причинно-следственные, взаимосвязи времени и интервенционные. Для проведения экспериментов было собрано 494 пар текста с инфографиками из четырех открытых источников. Далее, GPT-4o был использован для генерации 1482 вопросов с несколькими вариантами ответов, которые подверглись редактированию человеческими экспертами для гарантии того, что ответы будут требовать глубокого понимания инфографики, а не простой выбора по словам. ## Результаты Полученные результаты показали, что нынешние VLMs несколько ограничены в способности выполнять продолжительные рассуждения. Задача 1, связанная с квантитативным рассуждением, требует моделей построения логических цепочек на основе визуальных данных, но несколько VLMs, включая CLIP и LXMERT, показали очень низкую точность в ответах. Кроме того, задача 2, связанная с семантическими отношениями, показала еще большую сложность для моделей. Наибольшую сложность вызывали рассуждения по временным отношениям и интервенционным законам. В целом, модели VLMs оказались не способны выполня

Annotation:

Recent advances in Vision-Language Models (VLMs) have demonstrated impressive capabilities in perception and reasoning. However, the ability to perform causal inference -- a core aspect of human cognition -- remains underexplored, particularly in multimodal settings. In this study, we introduce InfoCausalQA, a novel benchmark designed to evaluate causal reasoning grounded in infographics that combine structured visual data with textual context. The benchmark comprises two tasks: Task 1 focuses o...

ID: 2508.06220v1 cs.CL, cs.AI

arXiv PDF

📄 Harnessing Adaptive Topology Representations for Zero-Shot Graph Question Answering

2025-08-12

Авторы:

Yanbin Wei, Jiangyue Yan, Chun Kang, Yang Chen, Hua Liu, James T. Kwok, Yu Zhang

#### Контекст Large Multimodal Models (LMMs) показали свою способность к generalised zero-shot вопросам и ответам (QA) в различных областях, включая graph QA, которая включает в себя сложные графовые топологии. Однако большинство текущих подходов ограничиваются одним типом графовой представления, называемым Topology Representation Form (TRF), таким как промпт-объединенные текстовые описания или стилизованные визуальные стили. Такие "одно-размерное" решение не учитывает особенности и предпочтения различных моделей или задач, часто приводящие к неверным или слишком длинным ответам. Для решения этой проблемы мы проанализировали характеристики и слабые стороны существующих TRFs и разработали новый набор TRFs, названный $F_{ZS}$, призванный оптимизировать zero-shot graph QA. #### Метод Мы предлагаем DynamicTRF — развитое фреймворком, которое адаптивно выбирает лучший TRF для каждого вопроса во время выполнения. DynamicTRF состоит из двух ключевых компонентов. Во-первых, мы создали TRF Preference (TRFP) dataset, который рангован TRFs по их Graph Response Efficiency (GRE), чтобы определить предпочтения вопросов. Во-вторых, мы обучили TRF router, который использует TRFP dataset для адаптивного выделения лучшего TRF из комплекса $F_{ZS}$. Эта структура обеспечивает улучшение точности и краткости в zero-shot graph QA. #### Результаты Мы провели эксперименты на 7 внутренних задачах алгоритмического graph QA и 2 задачах за их пределами. Результаты показали, что DynamicTRF значительно улучшает точность zero-shot graph QA LMMs в отличие от стандартных подходов. Мы также провели анализ влияния каждого из компонентов на общую производительность, подтвердив эффективность DynamicTRF'a в сочетании с $F_{ZS}$. #### Значимость DynamicTRF может применяться в различных областях, где требуется zero-shot обучение для graph QA. Он предоставляет значительные преимущества по сравнению с традиционными подходами, такими как улучшение точности и эффективность ответа. Мы видим будущие исследования в расширении $F_{ZS}$ и экспериментах с другими моделями, а также в оптимизации GRE metrics для более широкого применения. #### Выводы Мы представили DynamicTRF, первый фреймворк, который адаптивно выбирает графовые представления для zero-shot graph QA. Это вытянуло значительные улучшения над существующими подходами. Наша работа открывает путь для будущих исследований в области графовых задач QA и динамического выбора представлений.

Annotation:

Large Multimodal Models (LMMs) have shown generalized zero-shot capabilities in diverse domain question-answering (QA) tasks, including graph QA that involves complex graph topologies. However, most current approaches use only a single type of graph representation, namely Topology Representation Form (TRF), such as prompt-unified text descriptions or style-fixed visual styles. Those "one-size-fits-all" approaches fail to consider the specific preferences of different models or tasks, often leadi...

ID: 2508.06345v1 cs.CL, cs.AI, cs.GR, cs.LG

arXiv PDF

📄 Memp: Exploring Agent Procedural Memory

2025-08-12

Авторы:

Runnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

## Контекст Large Language Models (LLMs) становятся все более успешными в решении разнообразных задач, но их процедурная память часто оказывается недостаточно устойчивой и гибкой. Эта проблема наблюдается при мануальном программировании памяти или при ее интеграции с статическими параметрами. В настоящей работе рассматривается задача обеспечения агентов с выработкой процедурной памяти, которая была бы изучаемой, обновляемой и жизненно длительной. Такие подходы могут увеличить эффективность агентов и позволить им работать в нестандартных ситуациях, не подразумеваемых при их разработке. ## Метод Методология, предлагаемая в работе, основывается на создании механизмов для построения, восстановления и обновления процедурной памяти. Агенту предлагается два уровня абстракции: пошаговые инструкции и скрипт-ориентированные абстракции. Для этого используется нейронная сеть, которая проанализировала большой объем данных, чтобы сформировать эти уровни абстракции. Изучены различные стратегии для построения, поиска и обновления памяти, которые позволяют агенту взаимодействовать с процедурным знанием в процессе работы. Динамическая система обновления позволяет максимально адаптировать память к новым опытным данным. ## Результаты Для оценки эффективности предложенного подхода проведены эксперименты на двух наборах данных: TravelPlanner и ALFWorld. Эти эксперименты показали, что агенты с динамической процедурной памятью показали высокую эффективность в решении задач, а также существенно улучшили свои результаты в сравнении с базовыми моделями. Также показано, что модели с более сильными предварительно обученными моделями могут быть эффективно использованы для повышения производительности более слабых моделей, если эти модели работают с общей процедурной памятью. ## Значимость Результаты этой работы могут быть применены в различных областях, таких как разработка систем-агентов для управления процессами, диалоговые системы, интеллектуальные системы поддержки решения задач и др. Этот подход увеличивает гибкость, эффективность и устойчивость агентов к изменениям в задачах и условиях работы. Также, он открывает новые возможности для развития методов обучения с подкреплением и динамического управления знаниями. ## Выводы Работа представляет собой значительный шаг в направлении создания устойчивой, обновляемой процедурной памяти для агентов, основанных на LLMs. Она показывает, что подход Memp может быть эффективно использован для улучшения результатов в различных задачах. В будущем могут быть проведены дополнительные исследования для идентификации новых стратегий построения и об

Annotation:

Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose Memp that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, R...

ID: 2508.06433v1 cs.CL, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 Learning the Topic, Not the Language: How LLMs Classify Online Immigration Discourse Across Languages

2025-08-12

Авторы:

Andrea Nasuto, Stefano Maria Iacus, Francisco Rowe, Devika Jain

Давайте создадим максимально подробное резюме научной статьи по выбранной тематике. ## Контекст В последние годы нейронные сети, особенно большие модели языка (LLM), приобрели важное место в области социальных наук. Они позволяют проводить более точные и масштабные анализы в различных направлениях. Однако возникает вопрос о том, могут ли эти модели, получившись на одних языках, адаптироваться к другим языкам, которые не участвовали в их обучении. Этот вопрос особенно актуален при работе с дискурсом, который характеризуется культурными и политическими особенностями. Например, проблемы иммиграции — это тема, которая очень сильно варьируется в её характере в разных странах. В связи с этим, в исследовании используется модель LLaMA 3.2-3B, которая была приспособлена для работы с тематикой иммиграции, протестированная на 13 языках. Цель — выявить, может ли модель работать на новых языках, если была подготовлена только на нескольких. Также исследуется вопрос, можно ли исправить предрасположения модели к определенным языкам и темам с помощью целенаправленного обучения на других языках. ## Метод Чтобы провести исследование, применялась модель LLaMA 3.2-3B, которая была приспособлена для обработки данных, связанных с иммиграцией. Модель была обучена на данных из социальных сетей, а именно — X/Twitter. Использовались данные на 13 языках, включая как широко распространенные, так и менее известные. Особое внимание было уделено исследованию того, может ли модель научиться распознавать иммиграционные темы, произносимые на других языках, не приспособляясь именно к ним во время обучения. Было проверено, насколько значительно меняется результат, если во время обучения добавлять целенаправленно новые языки. Также были изучены признаки предрасположений модели к определенным языкам и темам, которые могут возникать при обучении на ограниченном наборе данных. ## Результаты Исследование показало, что модель, обученная на одном или двух языках, впоследствии может достаточно точно различать иммиграционные темы на новых языках. Это означает, что модель способна понять "тему" — без необходимости знать все деталиы языка. Однако, в то же время, модель показала лучшие результаты в классификации позиций (про- или анти-иммиграционные), когда была приспособлена к нескольким языкам одновременно. Изучение предрасположений показало, что модель склоняется к темам, которые являются более популярными в широком обществе. Однако, даже небольшое добавление данных на непредставленные языки во время обучения приво

Annotation:

Large language models (LLMs) are transforming social-science research by enabling scalable, precise analysis. Their adaptability raises the question of whether knowledge acquired through fine-tuning in a few languages can transfer to unseen languages that only appeared during pre-training. To examine this, we fine-tune lightweight LLaMA 3.2-3B models on monolingual, bilingual, or multilingual data sets to classify immigration-related tweets from X/Twitter across 13 languages, a domain characteri...

ID: 2508.06435v1 cs.CL, cs.AI

arXiv PDF

📄 Echoes of Automation: The Increasing Use of LLMs in Newsmaking

2025-08-12

Авторы:

Abolfazl Ansari, Delvin Ce Zhang, Nafis Irtiza Tripto, Dongwon Lee

## Контекст В последние годы появление и развитие Generative AI (GenAI), особенно в области Large Language Models (LLMs), привлекло внимание в различных сферах, включая журналистику. Эта технология позволяет автоматизировать процессы создания новостных материалов, снижая затраты на ручную работу. Однако применение LLMs в новичестве порождает ряд проблем, в том числе вопросы о точности информации, авторстве и потенциальной деградации качества журналистики. Эти факторы могут повлиять на доверие зрителей к новостным источникам и влиять на профессиональную репутацию журналистов. Исследование посвящено изучению генеративных технологий в новичестве и их влияния на стиль написания, точность и информационное содержание новостных статей. ## Метод Для проведения исследования были проанализированы более 40 000 новостных статей, публикуемых различными новостными сайтами, включая крупные медийные площадки, локальные и колледжевые новости. Использовались три разных текстовых детектора для определения использования LLMs: Binoculars, Fast-Detect GPT и GPTZero. Эти инструменты позволяют проверить содержание текста на признаки генеративного текста, такие как стиль написания, присутствие грамматических ошибок и уникальность выражений. Был проведен анализ текста на уровне предложений, чтобы определить, где именно используются LLMs (например, в интродукции, основной части или заключении). Кроме того, проведена лингвистическая аналитика текста для изучения стилей написания, словарного ассортимента и уровня формальности в зависимости от типа новостного источника. ## Результаты Исследование выявило, что использование LLMs в новичестве значительно увеличилось в последние годы, особенно в локальных и колледжевых новостях. При этом наблюдается, что LLMs чаще всего используются в начале новостей (интродукция), в то время как заключение (контент) в большинстве случаев написано руками. Лингвистический анализ показал, что использование LLMs повышает грамматическую точность и словообороты, что представляет собой положительный момент. Однако, тексты, сгенерированные LLMs, чаще оказываются более простыми в формализации и избирательными в выборе стиля, что приводит к появлению более монотонных и стандартных текстов. Этот эффект наиболее заметен в локальных новостных статьях. ## Значимость Исследование имеет значительное значение для развития журналистики в контексте технологического прогресса. Данные показали, что GenAI может стать полезным инструментом для автоматизации новостного процесса, увеличивая производительность и сокращая время на создание новостей. Но есть и негативные

Annotation:

The rapid rise of Generative AI (GenAI), particularly LLMs, poses concerns for journalistic integrity and authorship. This study examines AI-generated content across over 40,000 news articles from major, local, and college news media, in various media formats. Using three advanced AI-text detectors (e.g., Binoculars, Fast-Detect GPT, and GPTZero), we find substantial increase of GenAI use in recent years, especially in local and college news. Sentence-level analysis reveals LLMs are often used i...

ID: 2508.06445v1 cs.CL, cs.AI

arXiv PDF

1
2
194
195
196
197
198
204
205

Показано 1951 - 1960 из 2042 записей