📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback

2025-09-30

Авторы:

Gen Li, Yuling Yan

## Контекст Reinforcement learning with human feedback (RLHF) является важной парадигмой для выравнивания больших языковых моделей (LLM) с целями и приоритетами человека. Однако в RLHF существуют сложности с эффективным исследованием окружения, которые необходимо решить для улучшения качества получаемых моделями решений. Основной проблемой является недостаточная эффективность сбора новых данных о предпочтениях, что приводит к плохой оптимизации политики и недостаточной информативности модели награды. Это сказывается на практической реализации RLHF, где необходимо минимизировать стоимость сбора данных и повысить эффективность оптимизации. ## Метод Мы предлагаем новую методологию для эффективного исследования окружения в среде RLHF. Алгоритм строится на основе оптимистических принципов исследования, но в отличие от существующих подходов, он направляет предпочтения в направлениях, которые максимально сильно влияют на повышение качества политики. Для этого мы предлагаем новую схему оптимизации, которая минимизирует неопределенность в отношении различий в наградах, связанных с наиболее важными действиями. Это подход не только улучшает эффективность сбора данных, но и позволяет избежать высокой стоимости сбора данных, которая характерна для ранее использовавшихся методов. ## Результаты Мы провели эксперименты на синтетических и реальных данных, которые подтвердили высокую эффективность нового подхода. На практических задачах, таких как выравнивание больших языковых моделей, наши результаты показали существенное повышение качества модели в сравнении с традиционными методами. Мы также показали, что уменьшение неопределенности в различиях наград приводит к более точному определению политики, что улучшает стабильность и эффективность RLHF. ## Значимость Наш подход может быть применен в различных областях применения RLHF, включая настройку больших языковых моделей, управление роботами и другие приложения, требующие эффективного управления сложными окружениями. Он позволяет снизить стоимость сбора данных, улучшить качество решений и уменьшить время обучения модели. Это открывает пути к более эффективной и практичной реализации RLHF в практических приложениях. ## Выводы Мы предложили новую методологию для эффективного исследования окружения в RLHF, которая позволяет уменьшить неопределенность в различиях наград. Наши результаты показали, что этот подход эффективен и может применяться в различных приложениях RLHF. Мы также обсудили перспективы будущих исследований в этой области, в частности, исследования новых стратегий эффективного исследования для более сложных задач.

Annotation:

Reinforcement learning with human feedback (RLHF), which learns a reward model from human preference data and then optimizes a policy to favor preferred responses, has emerged as a central paradigm for aligning large language models (LLMs) with human preferences. In this paper, we investigate exploration principles for online RLHF, where one seeks to adaptively collect new preference data to refine both the reward model and the policy in a data-efficient manner. By examining existing optimism-ba...

ID: 2509.22633v1 stat.ML, cs.AI, cs.CL, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Thinking Augmented Pre-training

2025-09-29

Авторы:

Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

#### Контекст Модели языка (LLM) широко применяются в различных областях, но их эффективность сильно зависит от качества и объема обучающих данных. Несмотря на то, что доступные данные растут, их качество часто оставляет желать лучшего, и многие токены, особенно высококачественные, остаются сложно научить для любого фиксированного моделирования. Это ограничивает потенциал моделей и требует новых подходов для улучшения их обучения. #### Метод Мы предлагаем Thinking Augmented Pre-Training (TPT), методологию, которая позволяет повысить эффективность обучения с помощью автоматического генерирования "thinking trajectories" — последовательностей логических рассуждений, которые разбивают сложные токены на простые компоненты. TPT работает путем добавления этих траекторий в обучающие данные, расширяя их объем и улучшая качество обучения. Эта методика а UNIVERSAL, включая сценарии с ограниченным и богатым объемом данных, а также сценарии переобучения с открытых моделей. #### Результаты Мы проверяли TPT в различных условиях, включая обучение с $100$B токенов, как с ограниченными, так и с богатыми наборами данных. Мы также применяли его к моделям с разным числом параметров. Эксперименты показали, что TPT повышает эффективность обучения на $3$ раза и повышает пост-обучение на $10\%$ и более на сложных тестах размышления (reasoning benchmarks). Это демонстрирует надежное улучшение качества и эффективности LLM-моделей. #### Значимость TPT может применяться в широком кругу задач, включая обучение с ограниченным объемом данных, переобучение существующих моделей и улучшение обучения с помощью глубокого рассуждения. Это подход не только повышает качество и объем обучения, но и снижает необходимость в постоянном увеличении моделирования. Это имеет потенциал для эффективного использования ресурсов и значительного улучшения возможностей LLM. #### Выводы TPT является простым и эффективным подходом к улучшению LLM-обучения, который позволяет эффективно использовать доступные данные. Будущим исследованиям следует сосредотачиваться на улучшении алгоритмов генерирования траекторий размышления и расширении применений TPT к другим моделям и задачам.

Annotation:

This paper introduces a simple and scalable approach to improve the data efficiency of large language model (LLM) training by augmenting existing text data with thinking trajectories. The compute for pre-training LLMs has been growing at an unprecedented rate, while the availability of high-quality data remains limited. Consequently, maximizing the utility of available data constitutes a significant research challenge. A primary impediment is that certain high-quality tokens are difficult to lea...

ID: 2509.20186v3 cs.CL, cs.LG

arXiv PDF

📄 Document Summarization with Conformal Importance Guarantees

2025-09-27

Авторы:

Bruce Kuwahara, Chen-Yuan Lin, Xiao Shi Huang, Kin Kwan Leung, Jullian Arta Yapeter, Ilya Stanevich, Felipe Perez, Jesse C. Cresswell

```## Контекст В статье рассматривается развитие автоматических систем автоматической суммирования документов с помощью больших языковых моделей (LLMs). Несмотря на значительные достижения в области LLMs, существуют значительные проблемы, связанные с отсутствием гарантий по включению критической информации в выделенные сводки, особенно в критических сферах, таких как здравоохранение, право и финансы. Эти проблемы могут привести к негативным последствиям, таким как ошибки в решающих процессах или недостаточность информации для принятия решений. Основная мотивация заключается в том, чтобы разработать метод, который обеспечивал бы гарантии по включению критической информации в автоматические сводки, уменьшая риски по неточности или пропускам важной информации. ## Метод Разработанная методика, названа **Conformal Importance Summarization**, основывается на подходе **conformal prediction** для обеспечения гарантий по включению критической информации. Метод работает с **sentence-level importance scores**, которые формируются на основе универсальных представлений текста из LLMs. Техника позволяет устанавливать пользовательские требования к **coverage и recall** для важной информации. Метод является **model-agnostic**, то есть может использоваться совместно с любыми LLMs без изменения их основной архитектуры. Он требует только небольшого **calibration set** для настройки гиперпараметров. Это позволяет ему быть мощным инструментом для применения в различных текстовых задачах, включая суммирования документов. ## Результаты На экспериментальных данных, взятых из популярных бенчмарков, таких как CNN/Daily Mail, наши результаты показывают, что Conformal Importance Summarization достигает теоретически обоснованных **coverage rates**, обеспечивая критическую информацию в выделенных сводках. Метод показал высокую **recall** и **precision** в сравнении с другими подходами, включая существующие методы, которые не обеспечивают гарантий по включению критической информации. ## Значимость Важность этого исследования заключается в том, что он предоставляет новый подход к решению проблемы недостатка гарантий в суммировании документов. Полученная методика может быть применена в критических сферах, где важность включения всей критической информации критична, таких как **legal analysis**, **medical documentation**, и **financial reporting**. Одним из основных преимуществ этого подхода является его универсальность и модельно-независимость, что делает его легко применяемым в различных существующих системах. ## Выводы Метод Conformal Importance Summarization представляет собой значительный шаг в области automatic summarization, обеспечивая гарантии по включению критической информации. Дальнейшие исследования будут сфокусированы

Annotation:

Automatic summarization systems have advanced rapidly with large language models (LLMs), yet they still lack reliable guarantees on inclusion of critical content in high-stakes domains like healthcare, law, and finance. In this work, we introduce Conformal Importance Summarization, the first framework for importance-preserving summary generation which uses conformal prediction to provide rigorous, distribution-free coverage guarantees. By calibrating thresholds on sentence-level importance score...

ID: 2509.20461v1 cs.CL, cs.LG

arXiv PDF

📄 Single Answer is Not Enough: On Generating Ranked Lists with Medical Reasoning Models

2025-09-27

Авторы:

Pittawat Taveekitworachai, Natpatchara Pongjirapat, Krittaphas Chaisutyakorn, Piyalitt Ittichaiwong, Tossaporn Saengja, Kunat Pipatanakul

## Контекст Клиническая решающая деятельность не ограничивается предоставлением отдельного, определенного ответа. Вместо этого она полагается на рассмотрение множества возможных вариантов для уменьшения риска ограниченного мышления. Существующие модели медицинского логического рассуждения (Medical Reasoning Models, MRMs) обычно разрабатываются так, чтобы они могли предоставлять только один ответ, даже при раскрытых вопросах. Это ограничение может привести к недостаточной полноте решения, особенно в таких областях, как медицинская практика, где несколько вариантов могут быть важны. Мы предлагаем рассмотреть вариант решения в виде ранжированных списков и изучаем возможности построения таких списков. ## Метод Мы рассматриваем две альтернативные подходы: **prompting** и **файн-тюнинг**. Формирование ответов в виде списков через prompting позволяет корректировать ответ MRM, задавая ему подсказки. Файн-тюнинг, в свою очередь, предполагает изменение текущей модели с помощью супервизированного обучения (Supervised Fine-Tuning, SFT) или участия в игровых процессах с помощью выравнивания наград (Reinforcement Fine-Tuning, RFT). Мы предлагаем новые функции награды, которые призваны использоваться для построения ранжированных списков. Мы также проводим абляционные исследования для оценки эффективности RFT в сравнении с SFT. ## Результаты Мы проводим эксперименты с различными MRMs, используя различные данные и форматы ответов, включая выбор, текст и списки. Мы проверяем, насколько эти модели могут оценивать различные варианты ответов и включать их в ранжированные списки. Наши результаты показывают, что SFT может улучшить ответы в некоторых форматах, но не всегда обеспечивает хорошую общую обработку различных форматов. В то же время, модели с RFT показывают более высокую устойчивость к различным форматам ответов, включая ранжированные списки. Мы также проводим случайное исследование на модифицированном наборе данных MedQA, где несколько ответов могут быть верными. Мы обнаружили, что MRMs могут распознавать многочисленные верные ответы, хотя они могут не совпадать с теми, которые установлены в бенчмарке. ## Значимость Предложенные подходы могут быть применены в медицинской практике для улучшения клинического решающего процесса. Они обеспечивают более широкое рассмотрение вариантов решения, что может привести к более разумным и информативным решениям. Модели с RFT, в частности, демонстрируют высокую гибкость и устойчивость к разным форматам ответов. Эти достижения могут быть полезны в областях, где требуется многопрофильный подход к решению задач. ## Выводы Мы представляем первую систематическую исследовательскую

Annotation:

This paper presents a systematic study on enabling medical reasoning models (MRMs) to generate ranked lists of answers for open-ended questions. Clinical decision-making rarely relies on a single answer but instead considers multiple options, reducing the risks of narrow perspectives. Yet current MRMs are typically trained to produce only one answer, even in open-ended settings. We propose an alternative format: ranked lists and investigate two approaches: prompting and fine-tuning. While prompt...

ID: 2509.20866v1 cs.CL, cs.LG

arXiv PDF

📄 Behind RoPE: How Does Causal Mask Encode Positional Information?

2025-09-27

Авторы:

Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi

#### Контекст Позиционная информация является ключевым компонентом работы трансформеров, особенно в контексте декодеров. Она позволяет моделям понимать отношения между словами в зависимости от их порядка в последовательности. Основной механизм, применяемый для представления позиционной информации, — это эксплиситные позиционные кодировки, такие как RoPE (Rotary Position Embeddings). Однако существуют дополнительные источники позиционной информации, которые могут повлиять на поведение моделей. Одним из таких источников является касуальная маска, которая широко используется в секвенциальных моделях для обеспечения секвенциального доступа к данным. Несмотря на то, что касуальная маска не является параметрическим компонентом, она может влиять на поведение моделей, оказывая влияние на представление позиции в последовательности. #### Метод Для исследования работы касуальной маски в трансформерах было проведено теоретическое и эмпирическое исследование. Теоретический подход заключался в построении моделей, позволяющих проанализировать отношение между касуальной маской и позиционными эффектами в поведении моделей. Эмпирические эксперименты проводились с использованием современных текстовых моделей, включая модели с RoPE и без него. Был проанализирован влияние касуальной маски на поведение моделей, в том числе на взаимодействие с RoPE, через измерение позиционных паттернов в поведении модели. #### Результаты Исследования показали, что касуальная маска может индуцировать позиционные паттерны в поведении моделей, даже если в основной последовательности нет какой-либо структуры. Это проявляется в виде позиционно-зависимых паттернов в аттенционных скорах. Эксперименты показали, что модели, обученные с касуальной маской, не только используют ее в качестве дополнительного источника позиционной информации, но и дальше усиливают эти паттерны в процессе обучения. Было также выявлено, что во взаимодействии с RoPE, касуальная маска может искажать относительные паттерны внимания, превращая их в более абсолютные. #### Значимость Результаты имеют значительное значение для понимания роли касуальной маски в трансформерах. Это означает, что не только эксплицитные позиционные кодировки, но и непараметрические компоненты, такие как касуальная маска, могут сильно повлиять на поведение моделей. Эти находки могут быть применены в различных областях, где позиционная информация играет ключевую роль, такие как текстовый пониманий, генерация текста и другие задачи, использующие последовательности. #### Выводы Основной вывод стать

Annotation:

While explicit positional encodings such as RoPE are a primary source of positional information in Transformer decoders, the causal mask also provides positional information. In this work, we prove that the causal mask can induce position-dependent patterns in attention scores, even without parameters or causal dependency in the input. Our theoretical analysis indicates that the induced attention pattern tends to favor nearby query-key pairs, mirroring the behavior of common positional encodings...

ID: 2509.21042v1 cs.CL, cs.LG

arXiv PDF

📄 Confidence Calibration in Large Language Model-Based Entity Matching

2025-09-26

Авторы:

Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro

## Контекст В последние годы Ларже Легги ей Сичерз являются ключевым инструментом в области различных автоматизированных задач. Эти модели превосходно подходят для различных ситуаций, в том числе для решения задач типа Entity Matching, которые заключаются в сравнении двух наборов данных и определении соответствия сущностей. Однако, несмотря на высокую точность, эти модели часто оставляют за собой недостаточно обоснованные уверенности в своих ответах, что может привести к ошибкам в принятии решений. Более того, нет в полной мере изученных способов улучшения уверенности в этих моделях. Наша исследовательская группа решила охватить этот вопрос и понять, насколько эффективны использование различных методов уверенности, таких как Temperature Scaling, Monte Carlo Dropout и Model Ensembles. Мы ставим целью сравнить калибровку уверенности в стандартной модели RoBERTa с калибровленными моделями, чтобы выявить наиболее эффективные подходы. ## Метод Мы использовали несколько техник, включая Temperature Scaling, Monte Carlo Dropout и Model Ensembles, для калибровки уверенности моделей стандартной RoBERTa. Наше исследование охватило несколько датасетов, в том числе Abt-Buy, DBLP-ACM, iTunes-Amazon и Company. Для каждого датасета мы сравнили оригинальную модель RoBERTa с калиброванными моделями, измеряя показатели качества и оценивая влияние калибровки на зависимость моделей. Наше значение показателя Expected Calibration Error (ECE) является основным критерием, по которому мы оценивали успех калибровки уверенности. ## Результаты Мы нашли, что стандартная модель RoBERTa показывает довольно высокий уровень уверенности, однако часто завышает эту уверенность. Это может привести к серьезным ошибкам в Entity Matching. Целью нашего исследования был выявлен способ, позволяющий улучшить калибровку уверенности. Мы убедились, что применение Temperature Scaling позволило значительно снизить Expected Calibration Error, улучшив точность модели. Например, на датасете iTunes-Amazon, ECE-показатель уменьшился на 23.83%. ## Значимость Мы обнаружили, что калибровка уверенности может существенно повысить точность и доверие к решениям, принятым на основе моделей Entity Matching. Наши результаты показывают, что Temperature Scaling — это эффективный подход для устранения переоценки уверенности в стандартных моделях RoBERTa. Это может иметь значительное влияние в области автоматизации, где точность и доверие к решениям крайне важны. ## Выводы Мы подтвердили, что калибровка уверенности может значительно повысить качество Entity Matching. Наше исследование показало, что Temperature Scaling — наиболее эффективный подход для уменьшения ошибок в моделях RoBERTa. Наши полученные результаты и указатели могут помочь в будущих исследованиях, направленных на улучшение уверенности в моделях Entity Matching.

Annotation:

This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with ...

ID: 2509.19557v1 cs.CL, cs.LG

arXiv PDF

📄 Uncertainty in Semantic Language Modeling with PIXELS

2025-09-26

Авторы:

Stefania Radu, Marco Zullich, Matias Valdenegro-Toro

#### Контекст Проблемай неопределенности в семантической моделировании языка представляет собой значительные сложности в обработке естественного языка, особенно при работе с пиксельно-ориентированными моделями. Несмотря на их высокую точность в задачах предсказания и разбора текста, эти модели часто игнорируют неопределенность в своих выводах. Это ключевая проблема, которая может привести к неточным результатам в реальных задачах, таких как автоматическая синтезированная генерация текста и точечная идентификация слов. В этом исследовании рассматривается неопределенность в моделях, основанных на пикселях, с целью оценить, насколько эти модели успешно учитывают неопределенность в своих выводах. Это особенно актуально в свете многоязычности и различных скриптов, где модели должны осуществлять точные оценки в различных языковых контекстах. #### Метод Для изучения неопределенности в пиксельно-ориентированных моделях были применены несколько методов. **Monte Carlo Dropout** позволил оценивать неопределенность путем повторного вывода с неизвестными входными данными. **Transformer Attention** исследовал вклад каждого пикселя в вывод модели, чтобы определить, как модель принимает решения об уровне уверенности. **Ensemble Learning** позволил создавать несколько моделей, решающих одинаковую задачу, и сравнивать их выводы для улучшения точности. Эти методы были применены к 18 языкам и 7 скриптам, изучая их в трех различных семантических задачах: предсказание слов, именование сущностей и вопрос-ответ. Это позволило изучить неопределенность в различных текстовых задачах и языках. #### Результаты Исследование показало, что пиксель-ориентированные модели часто **подвешивают уровень неопределенности** при реконструкции текстовых патчей, особенно в случае текстов на нелатинских скриптах. Например, в моделях, использующих **Transformer Attention**, были выявлены ситуации, когда модель недостаточно учитывала варианты возможных значений, что приводит к ошибкам в понимании текста. Было также обнаружено, что **скрипт сильно влияет** на уровень неопределенности, и что модели в латинице оказываются более уверенными, чем в других скриптах. **Ensemble Learning** показал значительные улучшения в производительности, особенно в задачах NER (именования сущностей) и QA (вопрос-ответ), когда использовалась гиперпараметрическая оптимизация. #### Значимость Результаты этого исследования имеют значимость для различных областей, в которых неопределенность играет важную роль. Например, в **машинном обучении** эти сведения могут помочь создавать более надежные модели, которые смогут учитывать неопределенность в своих выводах. Кроме того

Annotation:

Pixel-based language models aim to solve the vocabulary bottleneck problem in language modeling, but the challenge of uncertainty quantification remains open. The novelty of this work consists of analysing uncertainty and confidence in pixel-based language models across 18 languages and 7 scripts, all part of 3 semantically challenging tasks. This is achieved through several methods such as Monte Carlo Dropout, Transformer Attention, and Ensemble Learning. The results suggest that pixel-based mo...

ID: 2509.19563v1 cs.CL, cs.LG

arXiv PDF

📄 Thinking Augmented Pre-training

2025-09-26

Авторы:

Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

#### Контекст В последние годы технологии машинного обучения, особенно глубокого обучения, получили широкое применение в различных областях, в том числе в генерации текста, распознавании речи и анализе данных. Однако большие языковые модели (LLM) требуют огромных объемов данных и вычислительных ресурсов для эффективного обучения. Это приводит к значительным затратам времени и ресурсов. Однако доступ к высококачественным данным не всегда возможен, что приводит к ограничениям в процессе обучения. Таким образом, одной из основных проблем является увеличение эффективности используемых данных для обучения. В настоящей работе предлагается решение этой проблемы, основанное на методе Thinking Augmented Pre-training (TPT). #### Метод Предложенный метод, Thinking Augmented Pre-Training (TPT), представляет собой новую подходящую методологию для улучшения эффективности обучения больших языковых моделей. Метод TPT расширяет существующий текст, добавляя "thinking trajectories" — шаги рассуждения, которые помогают модели многоступенчато обобщить и понять логику вывода одного токена. Это решение выступает в качестве универсального шаблона, который может быть применен к различным наборам данных и моделям различных размеров. Техническая архитектура TPT включает в себя несколько этапов: 1. **Автоматическое генерирование шагов рассуждения** с помощью специальных алгоритмов, которые разбивают задачи на малые части и построительно построить логические выводы. 2. **Интеграция этих шагов** в существующий текст в обучающих данных. 3. **Обновление модели** с использованием нового, расширенного набора данных. Этот подход увеличивает количество обучающих данных и делает высококачественные токены более узнаваемыми для модели. #### Результаты Для исследования эффективности TPT были проведены многочисленные эксперименты с разными моделями и наборами данных. Мы рассмотрели обучение на больших объемах данных (до $100$B токенов), включая обучение с ограниченными и богатыми наборами данных. Были также проведены тесты на моделях с разными параметрами — от небольших до больших моделей. Наши результаты показали, что TPT значительно улучшает эффективность обучения: - **Увеличение data-efficiency** на 3 раза в сравнении с традиционными методами. - Улучшение пост-тренировочного результата 3B-параметровой модели на более чем 10% на разных бенчмарках, требующих рассуждений. Эти результаты подтверждают, что TPT значительно повышает пользу от доступных данных, даже если они не идеально размечены. #### Значимость Предложенный подход имеет широкие применения в области машинного обучения, в задачах анализа текста, генерации те

Annotation:

ID: 2509.20186v2 cs.CL, cs.LG

arXiv PDF

📄 Multilingual Hope Speech Detection: A Comparative Study of Logistic Regression, mBERT, and XLM-RoBERTa with Active Learning

2025-09-26

Авторы:

T. O. Abiola, K. D. Abiodun, O. E. Olumide, O. O. Adebanji, O. Hiram Calvo, Grigori Sidorov

#### Контекст Онлайн-дискурсы часто становятся местом развития негативных и конфликтных отношений. В этой светской реальности значимость слов, которые приносят надежду и оптимизм, высока. Изучение такого «hope speech** (слова вдохновения)** помогает создавать позитивные интеракции и снижать подстрекательство. Однако этот вид анализа сложно выполнить в многоязычных и недостаточно ресурсных языках. Недостаток аннотированных данных останавливает многие модели, особенно в слабо ресурсных языках. Наша мотивация заключается в разработке методов, которые смогут работать с минимальной аннотацией, используя преимущества трансформерных моделей и активного обучения. #### Метод Мы предлагаем мультиязычный подход к нахождению слов вдохновения, основанный на активном обучении и трансформерных моделях. Использовались модели **mBERT** и **XLM-RoBERTa**, воспроизводящие знания разных языков. Модели обучались на многоязычных данных, включая **английский, испанский, немецкий и урду**. Для детальной оценки использовались бенчмарк-тестовые наборы. Мы использовали **активное обучение**, при котором модель сама выбирала наиболее полезные для обучения данные. Это позволило повысить эффективность аннотации даже в условиях ограниченных ресурсов. #### Результаты Выполнены эксперименты на **4 языках**, включая **бенчмарк-тестовые наборы**. Модель **XLM-RoBERTa** показала высокую точность в 78,4%, превосходя другие модели и традиционные подходы. Метод активного обучения показал себя эффективным, даже при малых объемах аннотированных данных. Мультиязычная модель **mBERT** также продемонстрировала хорошие результаты, но оставалась слабой в сравнении с **XLM-RoBERTa**. Эти результаты показывают возможность использования преобразовательных моделей для нахождения положительных слов в мультиязычной среде. #### Значимость Наш подход может быть применен в **дискурс-анализе, моделировании позитивных отношений и мотивации в онлайн-средах**. Мы показали, что модели **transformer** могут работать даже в условиях нехватки данных, что важно в слабо ресурсных языках. Это может повысить диалог в межкультурных и многоязычных средах, способствовать пониманию и созданию благоприятных условий для общения. Также предложенный подход может быть расширен на другие сферы, такие как мотивационный анализ и управление позитивным контентом. #### Выводы Наша работа продемонстрировала, что **XLM-RoBERTa** является эффективной моделью для нахождения слов вдохновения в многоязычных условиях. Мы также показали, что активное обучение может оптимизировать использование ресурсов при обучении

Annotation:

Hope speech language that fosters encouragement and optimism plays a vital role in promoting positive discourse online. However, its detection remains challenging, especially in multilingual and low-resource settings. This paper presents a multilingual framework for hope speech detection using an active learning approach and transformer-based models, including mBERT and XLM-RoBERTa. Experiments were conducted on datasets in English, Spanish, German, and Urdu, including benchmark test sets from r...

ID: 2509.20315v1 cs.CL, cs.LG

arXiv PDF

📄 Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning

2025-09-26

Авторы:

Sai Teja Reddy Adapala

## Контекст Проблема стохастической природы вывода текста существующих Лангид (LLM, Large Language Models), даже при использовании очень высококачественных данных, является одной из ключевых проблем в области ИИ. Хотя Лангиды показали свою эффективность в многих задачах, их работа под влиянием высокой нагрузки на кеш-мент (Context Saturation) и переключениях задач (Attentional Residue) остается недостаточно раскрытой. Особенно это актуально при работе с задачами многошагового рассуждения (multi-hop reasoning). Этот рабочий процесс подчеркивает необходимость разработки более тщательных методов оценки и моделирования выполняемых задач Лангидов. ## Метод В данной работе рассматривается новая методология, основанная на формальной теории компьютерной нагрузки (computational cognitive load), которая позволяет определить уровень выполнения задач в условиях сильной нагрузки. Методом бенчмаркинга (benchmarking) использовалась интерактивная оценка (Interleaved Cognitive Evaluation, ICE), которая позволяет по одному шагу систематически увеличивать нагрузку на модель, используя различные варианты многошаговых задач. Это позволяет оценить точность работы моделей при возрастающей степени нагрузки. Для экспериментов использовались данные из различных источников, включая стандартные тестовые наборы, а также новые адаптированные наборы данных, созданные специально для этого исследования. ## Результаты На основе экспериментов была проведена систематическая оценка того, как различные Лангиды справляются с задачами многошагового рассуждения, при увеличивающейся нагрузке. Были проанализированы результаты работы пяти моделей, включая Лангиды с открытым исходным кодом и сильно улучшенные модели с лучшим обучением. Наиболее высококачественные модели с повышенным общим ресурсом (например, Gemini-2.0-Flash-001), показали более высокую устойчивость к нагрузке, однако и у них были заметные погрешности при высоком уровне контекстной нагрузки. Более слабые модели, такие как Llama-3-8B-Instruct и Mistral-7B-Instruct-v0.2, показали значительные проблемы в производительности, даже при минимальной нагрузке. ## Значимость Результаты экспериментов демонстрируют, что Лангиды, хотя и могут проявлять высокую точность в статичных задачах, в более сложных задачах требуют большего внимания к учету когнитивной нагрузки. Это важно для адаптации моделей к реальному миру, где задачи часто требуют выполнения в условиях высокой нагрузки. Эти результаты могут быть применены в развитии более надежных методов тестирования и моделирования выполняемых задач. Также, полученные результаты могут способствовать развитию новых архитектур Лангидов, которые будут более усто

Annotation:

The scaling of Large Language Models (LLMs) has exposed a critical gap between their performance on static benchmarks and their fragility in dynamic, information-rich environments. While models excel at isolated tasks, the computational limits that govern their reasoning under cognitive load remain poorly understood. In this work, we introduce a formal theory of computational cognitive load, positing that extraneous, task-irrelevant information (Context Saturation) and interference from task-swi...

ID: 2509.19517v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.6

arXiv PDF

Показано 341 - 350 из 573 записей