📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

2025-08-08

Авторы:

Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Непрерывное обучение (continual learning) является ключевым фактором для развития искусственного общего интеллекта, особенно в контексте крупных языковых моделей (LLMs). Однако при непрерывной файн-тюнинге LLMs на различных доменах возникает проблема катастрофического забывания (catastrophic forgetting). Эта проблема проявляется в двух основных аспектах: существенное забывание общих возможностей модели и резкое снижение эффективности на ранее выученных задачах. Традиционные подходы к решению этой проблемы часто требуют больших вычислительных ресурсов или затрат на хранение данных. Это создает серьезные ограничения для практического применения LLMs в непрерывном обучении. Мотивацией данного исследования является разработка эффективного и стабильного метода для предотвращения катастрофического забывания, способного одновременно сохранять общие возможности модели и повышать её производительность на последовательных задачах. Такой подход должен быть простым в реализации и мало затратным в плане вычислений и хранения данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод General Sample Replay (GeRe), основанный на использовании обычных текстов предварительного обучения для эффективного предотвращения забывания. Основная идея GeRe заключается в повторном использовании небольшого, фиксированного набора общих образцов для поддержания стабильности активационных состояний модели во время непрерывного обучения. Кроме того, в рамках GeRe введен метод оптимизации с использованием потерь на основе пороговой маржи (TM-loss). Этот метод позволяет сохранять согласованность активационных состояний модели во время повторного обучения. TM-loss оптимизирует модель, учитывая разницу между текущими и предыдущими активационными состояниями, что помогает избежать переобучения и поддерживает стабильность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов, сравнивая TM-loss с другими стратегиями повторения, такими как ванильное фиттирование по меткам, имитация логитов через KL-дивергенцию и имитация функций через L1/L2 потери. Использовались контролируемые наборы данных для моделирования непрерывного обучения. Результаты показали, что TM-loss последовательно превосходит другие стратегии в плане качества и робастности. Метод позволяет эффективно сохранять общие возможности модели и повышает её производительность на последовательных задачах. Было также подтверждено, что небольшой набор общих репликационных образцов достаточен для достижения этих целей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод GeRe имеет широкое применение в областях, требующих непрерывное обучение LLMs, таких как адаптивные системы диалогов, анализ текстов в различных доменах и автоматическое обучение на основе потоковых данных. Благодаря низким затратам на вычисления и хранение, GeRe делает непрерывное обучение более доступным для практического использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что использование фиксированного набора общих образцов в сочетании с TM-loss является эффективным способом для предотвращения катастрофического забывания в LLMs. Будущие исследования могут фокусироваться на дальнейшей оптимизации метода для более сложных сценариев и расширения его применимости к различным архитектурам моделей.

Annotation:

The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usua...

ID: 2508.04676v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

2025-08-08

Авторы:

Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu, Reshmi Ghosh, Samyadeep Basu, Wenlong Zhao, Ali Nasaeh, Sriram Balasubramanian, Soundararajan Srinivasan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие моделей искусственного интеллекта, оснащенных способностью к резонированию, открыло новые горизонты в решении сложных задач, требующих многошагового анализа. Эти решения включают задачи расширенного поиска, выделения ответов на вопросы и решения сложных математических проблем. Однако, несмотря на значительные успехи, модели, предназначенные для резонирования, часто проявляют высокую степень галлюцинаций – генерации неверных или несвязных ответов, что существенно ограничивает их эффективность. Особенно это проявляется в задачах много-шагового анализа, где необходимо обрабатывать информацию из нескольких источников. Традиционные методы оценки этих моделей часто основываются на метриках точности, которые не позволяют полноценно понять причины ошибок. Таким образом, существует критическая необходимость в более глубоком анализе и классификации ошибок, которые возникают в процессе много-шагового резонирования. Исследование, представленное в данной работе, направлено на то, чтобы заполнить этот пробел, предлагая новый подход к диагностике ошибок моделей резонирования. В данном контексте, речь идет о том, как модели резонирования сталкиваются с проблемами во время много-шагового анализа, когда необходимо собирать и обрабатывать информацию из нескольких документов. Эти проблемы могут быть связаны с плохой интеграцией информации, неполнотой анализа, или неэффективным использованием вычислительных ресурсов. Исследование таких проблем требует не только точного понимания внутренней работы моделей, но и систематического подхода к их классификации и анализу. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для диагностики ошибок в моделях резонирования, исследователи представили новый метод, основанный на систематическом анализе ошибок в процессе много-шагового резонирования. Основная идея заключается в том, чтобы разбить ошибки на три ключевых категории: 1. **Diversity and Uniqueness of Source Documents ("Hops")**: Эта категория заключается в оценке разнообразия и уникальности источников документов, которые модель использует для построения ответа. Большое количество разнообразных документов может привести к сложностям в их интеграции. 2. **Completeness in Capturing Relevant Information ("Coverage")**: Эта категория оценивает, насколько полно модель улавливает и использует всю необходимую информацию из источников. Неполное покрытие информации может привести к неверным выводам. 3. **Cognitive Inefficiency ("Overthinking")**: Эта категория фокусируется на неэффективности процесса резонирования, когда модель "зацикливается" на некоторых аспектах, неэффективно используя вычислительные ресурсы. Для реализации этого подхода, исследователи провели тщательную аннотацию данных с помощью человеческих экспертов, которые анализировали ошибки на каждом из этих уровней. Для подтверждения результатов, использовались также автоматические метрики, которые помогли оценить качество резонирования и выявить шаблоны ошибок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены серии экспериментов на большом корпусе данных, состоящем из много-шаговых вопросов и ответов. Исследователи использовали различные модели резонирования и провели сравнение их производительности. Результаты показали, что ошибки часто возникают из-за плохой интеграции информации из нескольких источников, что соотносится с категорией "Hops". Также, было обнаружено, что некоторые модели неэффективно используют ресурсы, что приводит к "Overthinking". Кроме того, было проведено сравнение точности моделей с их способностью к полному покрытию информации ("Coverage"). Результаты показали, что модели, которые лучше улавливают всю необходимую информацию, чаще дают верные ответы. Однако, даже у лучших моделей были замечены ошибки, связанные с неэффективностью резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование предлагает практические решения для улучшения резонирующих моделей. Оно позволяет разработчикам лучше понимать причины ошибок и разрабатывать более эффективные модели. Это может быть применено в различных областях, где необходим глубокий анализ, таких как медицинский диагноз, финансовый анализ и другие сферы, где критично точность и полнота выводов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование показало, что систематический подход к диагностике ошибок может значительно повысить эффективность моделей резонирования. В будущем, этот подход может быть использован для разработки более надежных и прозрачных моделей, способных лучше справляться с сложными задачами много-шагового анализа. Дальнейшие исследования могут фокусироваться на автоматизации процесса диагностики ошибок и разработке новых методов для улучшения интеграции информации из нескольких источников.

Annotation:

The emergence of reasoning models and their integration into practical AI chat bots has led to breakthroughs in solving advanced math, deep search, and extractive question answering problems that requires a complex and multi-step thought process. Yet, a complete understanding of why these models hallucinate more than general purpose language models is missing. In this investigative study, we systematicallyexplore reasoning failures of contemporary language models on multi-hop question answering ...

ID: 2508.04699v1 cs.CL, cs.AI

arXiv PDF

📄 CardiffNLP at CLEARS-2025: Prompting Large Language Models for Plain Language and Easy-to-Read Text Rewriting

2025-08-06

Авторы:

Mutaz Ayesh, Nicolás Gutiérrez-Rolón, Fernando Alva-Manchego

**Резюме** В данной работе команда CardiffNLP представляет свой подход к задаче адаптации текстов на испанском языке, представленной в рамках CLEARS-2025. Задача разделена на два подзадания, в которых необходимо перефразировать тексты в более простой и доступный для понимания формат. Авторы использовали метод промптинга больших языковых моделей (LLM), экспериментируя с различными вариациями приглашений. Начиная с LLaMA-3.2, они в конечном счёте перешли на Gemma-3, которая показала лучшие результаты. Этот подход позволил команде занять третье место в Подзадании 1 и второе место в Подзадании 2. Работа детально описывает использованные варианты промптингов, примеры и результаты экспериментов, подчеркивая эффективность выбранного подхода для создания текстов в простой и читаемой форме.

Annotation:

This paper details the CardiffNLP team's contribution to the CLEARS shared task on Spanish text adaptation, hosted by IberLEF 2025. The shared task contained two subtasks and the team submitted to both. Our team took an LLM-prompting approach with different prompt variations. While we initially experimented with LLaMA-3.2, we adopted Gemma-3 for our final submission, and landed third place in Subtask 1 and second place in Subtask 2. We detail our numerous prompt variations, examples, and experim...

ID: 2508.03240v1 cs.CL, cs.AI

arXiv PDF

📄 RooseBERT: A New Deal For Political Language Modelling

2025-08-06

Авторы:

Deborah Dore, Elena Cabrio, Serena Villata

**Резюме** Растущий объём политических дебатов и обсуждений высокого уровня требует разработки специализированных методов для автоматического анализа такого контента. Однако специфика политического языка, в том числе использование скрытых коммуникационных стратегий и неявных аргументов, представляет сложную задачу даже для современных общеуниверсальных предварительно обученных языковых моделей. Для решения этой проблемы авторы представляют RooseBERT — специализированную языковую модель, предварительно обученную на большом корпусе политических дебатов и речей на английском языке (8 тыс. дебатов, каждый из которых состоит из нескольких поддебатов по различным темам). RooseBERT была оценена на четырех задачах: распознавание именованных сущностей, анализ тональности, выделение и классифицирование компонентов аргументации, а также предсказание и классификация отношений аргументов. Результаты демонстрируют значительное улучшение показателей по сравнению с общеуниверсальными моделями, подчеркивая преимущества доменно-специфичного предварительного обучения в анализе политических дебатов. RooseBERT доступна для исследовательского сообщества.

Annotation:

The increasing amount of political debates and politics-related discussions calls for the definition of novel computational methods to automatically analyse such content with the final goal of lightening up political deliberation to citizens. However, the specificity of the political language and the argumentative form of these debates (employing hidden communication strategies and leveraging implicit arguments) make this task very challenging, even for current general-purpose pre-trained Langua...

ID: 2508.03250v1 cs.CL, cs.AI

arXiv PDF

📄 Pay What LLM Wants: Can LLM Simulate Economics Experiment with 522 Real-human Persona?

2025-08-06

Авторы:

Junhyuk Choi, Hyeonchu Park, Haemin Lee, Hyebeen Shin, Hyun Joung Jin, Bugeun Kim

**Резюме:** В статье исследуется способность современных Large Language Models (LLMs) моделировать экономическое поведение реальных людей на основе данных о 522 корейских участниках эксперимента Pay-What-You-Want (PWYW). Авторы сравнивают три современных мультимодальных LLMs, оценивая их способность предсказывать индивидуальные решения в сценариях культурного потребления. Обнаружено, что, несмотря на неточность предсказаний на индивидуальном уровне, LLMs успешно отражают групповые тенденции поведения. Также выяснено, что распространённые методы подачи запросов (prompting), такие как улучшенная генерация с дополнительным контекстом (retrieval-augmented generation) или реконструкция личностных портретов, не дают значимого преимущества по сравнению с простыми методами. Исследование представляет первую полную оценку возможностей LLMs в моделировании экономического поведения на основе реальных данных, оказывая полезные рекомендации для применения LLMs в вычислительных социальных науках.

Annotation:

Recent advances in Large Language Models (LLMs) have generated significant interest in their capacity to simulate human-like behaviors, yet most studies rely on fictional personas rather than actual human data. We address this limitation by evaluating LLMs' ability to predict individual economic decision-making using Pay-What-You-Want (PWYW) pricing experiments with real 522 human personas. Our study systematically compares three state-of-the-art multimodal LLMs using detailed persona informatio...

ID: 2508.03262v1 cs.CL, cs.AI

arXiv PDF

📄 Investigating Gender Bias in LLM-Generated Stories via Psychological Stereotypes

2025-08-06

Авторы:

Shahed Masoudian, Gustavo Escobedo, Hannah Strauss, Markus Schedl

В статье исследуется проблема гендерных предубеждений в генеративном поведении Large Language Models (LLMs) при создании рассказов. Учитывая, что существующие исследования часто фокусируются на коротких текстах или явных гендерных признаках, авторы предлагают новый подход, основанный на психологических стереотипах. Они создают набор данных StereoBias-Stories, включающий рассказы, созданные на основе случайных атрибутов, связанных со стереотипами, и различных завершений. Результаты показывают, что: (1) в неусловных задачах LLMs демонстрируют высокую степень гендерного смещения в пользу мужских признаков, но это смещение уменьшается при использовании нестереотипичных атрибутов; (2) комбинирование атрибутов, связанных со стереотипами, усиливает эффект смещения; (3) степень соответствия модельного поведения психологическим стереотипам возрастает с ростом размера модели. Эти наблюдения подчеркивают необходимость психологически обоснованного оценивания LLMs для снижения гендерных предубеждений.

Annotation:

As Large Language Models (LLMs) are increasingly used across different applications, concerns about their potential to amplify gender biases in various tasks are rising. Prior research has often probed gender bias using explicit gender cues as counterfactual, or studied them in sentence completion and short question answering tasks. These formats might overlook more implicit forms of bias embedded in generative behavior of longer content. In this work, we investigate gender bias in LLMs using ge...

ID: 2508.03292v1 cs.CL, cs.AI

arXiv PDF

📄 NLP Methods May Actually Be Better Than Professors at Estimating Question Difficulty

2025-08-06

Авторы:

Leonidas Zotos, Ivo Pascal de Jong, Matias Valdenegro-Toro, Andreea Ioana Sburlea, Malvina Nissim, Hedderik van Rijn

**Резюме** Оценка сложности вопросов экзамена является ключевой задачей для создания качественных тестов, однако профессора часто сталкиваются с трудностями в точной оценке уровня сложности. Исследование сравнивает возможности профессоров с методами, основанными на Large Language Models (LLM), в задаче прогнозирования процента успешных ответов студентов на True/False-вопросы в областях нейронных сетей и машинного обучения. Результаты показывают, что профессоры имеют ограниченные возможности различать простые и сложные вопросы, в то время как LLM Gemini 2.5 преуспевает в этой задаче. Более того, применение LLM в супервизорском обучении с использованием данных неопределенности при решении задач показало ещё более точные результаты, даже при ограниченном наборе данных из 42 обучающих выборок. Исследование показывает, что LLM, обученные с использованием методов супервизорского обучения, могут значительно повысить точность оценки сложности вопросов, что в конечном счете улучшает качество оценки студентов.

Annotation:

Estimating the difficulty of exam questions is essential for developing good exams, but professors are not always good at this task. We compare various Large Language Model-based methods with three professors in their ability to estimate what percentage of students will give correct answers on True/False exam questions in the areas of Neural Networks and Machine Learning. Our results show that the professors have limited ability to distinguish between easy and difficult questions and that they a...

ID: 2508.03294v1 cs.CL, cs.AI

arXiv PDF

📄 CTTS: Collective Test-Time Scaling

2025-08-06

Авторы:

Zhende Song, Shengji Tang, Peng Ye, Jiayuan Fan, Tao Chen

**Резюме** Test-time scaling (TTS) является перспедвидной областью исследований, направленной на повышение эффективности больших языковых моделей (LLMs) без дополнительного обучения. Однако существующие подходы, такие как Best-of-N и Self-Consistency, ограничены моделью с одним агентом, взаимодействующим с моделью вознаграждения (SA-SR), что не позволяет полностью реализовать потенциал метода. Недавние исследования показывают, что методы, основанные на коллективных агентах, могут преодолевать пределы производительности одноагентных систем за счёт координации разнообразных моделей. В данной работе предлагается новый подход Collective Test-Time Scaling (CTTS), охватывающий три основных парадигмы взаимодействия: один агент с несколькими моделями вознаграждения (SA-MR), несколько агентов с одной моделью вознаграждения (MA-SR) и несколько агентов с несколькими моделями вознаграждения (MA-MR). Результаты экспериментов показывают, что MA-MR является наиболее эффективной парадигмой. На этой основе разработан новый фреймворк CTTS-MM, который объединяет совместную работу нескольких агентов (Agent Collaboration Search, ACS) и нескольких моделей вознаграждения (Mixture of Reward Models, MoR) для оптимизации вывода. Эксперименты на семи популярных бенчмарках подтверждают превосходство CTTS-MM.

Annotation:

Test-time scaling (TTS) has emerged as a promising research field for enhancing the effectiveness of large language models (LLMs) without extra training. However, most existing approaches, e.g., Best-of-N and Self-Consistency rely on a single agent interacting with a reward model (SA-SR), constrained by limited capabilities of a single test-time scaling (STTS) paradigm. On the other hand, recent works demonstrate that collective-agent methods can break through the upper bound of single-agent sys...

ID: 2508.03333v1 cs.CL, cs.AI

arXiv PDF

📄 LLMs Have a Heart of Stone: Demystifying the Soft Thinking Ability of Large Reasoning Models

2025-08-06

Авторы:

Junhong Wu, Jinliang Lu, Zixuan Ren, Ganqiang Hu, Zhi Wu, Dai Dai, Hua Wu

Большие языковые модели (LLMs) обычно основываются на генерации дискретных токенов, что может ограничивать их способность к резкому мышлению в более абстрактных и непрерывных пространствах. Для решения этой проблемы, исследование посвящено изучению возможностей "мягкого мышления" (Soft Thinking) в LLMs, где модели используют более абстрактные, недискретные токены. Однако, анализ внутреннего поведения LLMs показал, что, несмотря на использование "мягких" входных данных, модели часто зависят от самого влиятельного компонента этих данных, что ограничивает их способность к исследованию разных путей резонанса и делает процесс похожим на жадный декодирования. Чтобы преодолеть эту проблему, исследователи предложили ввести случайность в процесс генерации, используя методы такие как Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют улучшить производительность LLMs в резонансе, особенно Gumbel-Softmax trick, который обеспечивает оптимальный баланс между случайностью и сглаживанием, показывая лучшие результаты на восемь различных задачах резонанса.

Annotation:

Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavio...

ID: 2508.03440v1 cs.CL, cs.AI

arXiv PDF

📄 fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval

2025-08-06

Авторы:

Pranshu Rastogi

**Резюме** В статье представлен подход к задаче SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval, решаемой как задача Learning-to-Rank. Используется би-энкодер, основанный на предобученном трансформере, оптимизированном для задач поиска похожих предложений. Для обучения в многоязычном режиме использовались исходные языки и их английские переводы, а в кросс-лингвистическом режиме — только английские переводы. Благодаря использованию легковесных моделей с параметрами менее 500 млн и обучения на Kaggle T4 GPUs, метод достиг показателей 92% Success@10 в многоязычной задаче и 80% Success@10 в кросс-лингвистической, заняв 5-е и 10-е места соответственно. Результаты демонстрируют эффективность предложенного подхода в решении задач многоязычного и кросс-лингвистического извлечения фактов.

Annotation:

SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval is approached as a Learning-to-Rank task using a bi-encoder model fine-tuned from a pre-trained transformer optimized for sentence similarity. Training used both the source languages and their English translations for multilingual retrieval and only English translations for cross-lingual retrieval. Using lightweight models with fewer than 500M parameters and training on Kaggle T4 GPUs, the method achieved 92% Success...

ID: 2508.03475v1 cs.CL, cs.AI, cs.IR

arXiv PDF

Показано 2031 - 2040 из 2042 записей