📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

2025-08-08

Авторы:

Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu, Reshmi Ghosh, Samyadeep Basu, Wenlong Zhao, Ali Nasaeh, Sriram Balasubramanian, Soundararajan Srinivasan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие моделей искусственного интеллекта, оснащенных способностью к резонированию, открыло новые горизонты в решении сложных задач, требующих многошагового анализа. Эти решения включают задачи расширенного поиска, выделения ответов на вопросы и решения сложных математических проблем. Однако, несмотря на значительные успехи, модели, предназначенные для резонирования, часто проявляют высокую степень галлюцинаций – генерации неверных или несвязных ответов, что существенно ограничивает их эффективность. Особенно это проявляется в задачах много-шагового анализа, где необходимо обрабатывать информацию из нескольких источников. Традиционные методы оценки этих моделей часто основываются на метриках точности, которые не позволяют полноценно понять причины ошибок. Таким образом, существует критическая необходимость в более глубоком анализе и классификации ошибок, которые возникают в процессе много-шагового резонирования. Исследование, представленное в данной работе, направлено на то, чтобы заполнить этот пробел, предлагая новый подход к диагностике ошибок моделей резонирования. В данном контексте, речь идет о том, как модели резонирования сталкиваются с проблемами во время много-шагового анализа, когда необходимо собирать и обрабатывать информацию из нескольких документов. Эти проблемы могут быть связаны с плохой интеграцией информации, неполнотой анализа, или неэффективным использованием вычислительных ресурсов. Исследование таких проблем требует не только точного понимания внутренней работы моделей, но и систематического подхода к их классификации и анализу. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для диагностики ошибок в моделях резонирования, исследователи представили новый метод, основанный на систематическом анализе ошибок в процессе много-шагового резонирования. Основная идея заключается в том, чтобы разбить ошибки на три ключевых категории: 1. **Diversity and Uniqueness of Source Documents ("Hops")**: Эта категория заключается в оценке разнообразия и уникальности источников документов, которые модель использует для построения ответа. Большое количество разнообразных документов может привести к сложностям в их интеграции. 2. **Completeness in Capturing Relevant Information ("Coverage")**: Эта категория оценивает, насколько полно модель улавливает и использует всю необходимую информацию из источников. Неполное покрытие информации может привести к неверным выводам. 3. **Cognitive Inefficiency ("Overthinking")**: Эта категория фокусируется на неэффективности процесса резонирования, когда модель "зацикливается" на некоторых аспектах, неэффективно используя вычислительные ресурсы. Для реализации этого подхода, исследователи провели тщательную аннотацию данных с помощью человеческих экспертов, которые анализировали ошибки на каждом из этих уровней. Для подтверждения результатов, использовались также автоматические метрики, которые помогли оценить качество резонирования и выявить шаблоны ошибок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены серии экспериментов на большом корпусе данных, состоящем из много-шаговых вопросов и ответов. Исследователи использовали различные модели резонирования и провели сравнение их производительности. Результаты показали, что ошибки часто возникают из-за плохой интеграции информации из нескольких источников, что соотносится с категорией "Hops". Также, было обнаружено, что некоторые модели неэффективно используют ресурсы, что приводит к "Overthinking". Кроме того, было проведено сравнение точности моделей с их способностью к полному покрытию информации ("Coverage"). Результаты показали, что модели, которые лучше улавливают всю необходимую информацию, чаще дают верные ответы. Однако, даже у лучших моделей были замечены ошибки, связанные с неэффективностью резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование предлагает практические решения для улучшения резонирующих моделей. Оно позволяет разработчикам лучше понимать причины ошибок и разрабатывать более эффективные модели. Это может быть применено в различных областях, где необходим глубокий анализ, таких как медицинский диагноз, финансовый анализ и другие сферы, где критично точность и полнота выводов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование показало, что систематический подход к диагностике ошибок может значительно повысить эффективность моделей резонирования. В будущем, этот подход может быть использован для разработки более надежных и прозрачных моделей, способных лучше справляться с сложными задачами много-шагового анализа. Дальнейшие исследования могут фокусироваться на автоматизации процесса диагностики ошибок и разработке новых методов для улучшения интеграции информации из нескольких источников.

Annotation:

The emergence of reasoning models and their integration into practical AI chat bots has led to breakthroughs in solving advanced math, deep search, and extractive question answering problems that requires a complex and multi-step thought process. Yet, a complete understanding of why these models hallucinate more than general purpose language models is missing. In this investigative study, we systematicallyexplore reasoning failures of contemporary language models on multi-hop question answering ...

ID: 2508.04699v1 cs.CL, cs.AI

arXiv PDF

📄 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-08

Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.

Annotation:

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...

ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 CardiffNLP at CLEARS-2025: Prompting Large Language Models for Plain Language and Easy-to-Read Text Rewriting

2025-08-06

Авторы:

Mutaz Ayesh, Nicolás Gutiérrez-Rolón, Fernando Alva-Manchego

**Резюме** В данной работе команда CardiffNLP представляет свой подход к задаче адаптации текстов на испанском языке, представленной в рамках CLEARS-2025. Задача разделена на два подзадания, в которых необходимо перефразировать тексты в более простой и доступный для понимания формат. Авторы использовали метод промптинга больших языковых моделей (LLM), экспериментируя с различными вариациями приглашений. Начиная с LLaMA-3.2, они в конечном счёте перешли на Gemma-3, которая показала лучшие результаты. Этот подход позволил команде занять третье место в Подзадании 1 и второе место в Подзадании 2. Работа детально описывает использованные варианты промптингов, примеры и результаты экспериментов, подчеркивая эффективность выбранного подхода для создания текстов в простой и читаемой форме.

Annotation:

This paper details the CardiffNLP team's contribution to the CLEARS shared task on Spanish text adaptation, hosted by IberLEF 2025. The shared task contained two subtasks and the team submitted to both. Our team took an LLM-prompting approach with different prompt variations. While we initially experimented with LLaMA-3.2, we adopted Gemma-3 for our final submission, and landed third place in Subtask 1 and second place in Subtask 2. We detail our numerous prompt variations, examples, and experim...

ID: 2508.03240v1 cs.CL, cs.AI

arXiv PDF

📄 RooseBERT: A New Deal For Political Language Modelling

2025-08-06

Авторы:

Deborah Dore, Elena Cabrio, Serena Villata

**Резюме** Растущий объём политических дебатов и обсуждений высокого уровня требует разработки специализированных методов для автоматического анализа такого контента. Однако специфика политического языка, в том числе использование скрытых коммуникационных стратегий и неявных аргументов, представляет сложную задачу даже для современных общеуниверсальных предварительно обученных языковых моделей. Для решения этой проблемы авторы представляют RooseBERT — специализированную языковую модель, предварительно обученную на большом корпусе политических дебатов и речей на английском языке (8 тыс. дебатов, каждый из которых состоит из нескольких поддебатов по различным темам). RooseBERT была оценена на четырех задачах: распознавание именованных сущностей, анализ тональности, выделение и классифицирование компонентов аргументации, а также предсказание и классификация отношений аргументов. Результаты демонстрируют значительное улучшение показателей по сравнению с общеуниверсальными моделями, подчеркивая преимущества доменно-специфичного предварительного обучения в анализе политических дебатов. RooseBERT доступна для исследовательского сообщества.

Annotation:

The increasing amount of political debates and politics-related discussions calls for the definition of novel computational methods to automatically analyse such content with the final goal of lightening up political deliberation to citizens. However, the specificity of the political language and the argumentative form of these debates (employing hidden communication strategies and leveraging implicit arguments) make this task very challenging, even for current general-purpose pre-trained Langua...

ID: 2508.03250v1 cs.CL, cs.AI

arXiv PDF

📄 Pay What LLM Wants: Can LLM Simulate Economics Experiment with 522 Real-human Persona?

2025-08-06

Авторы:

Junhyuk Choi, Hyeonchu Park, Haemin Lee, Hyebeen Shin, Hyun Joung Jin, Bugeun Kim

**Резюме:** В статье исследуется способность современных Large Language Models (LLMs) моделировать экономическое поведение реальных людей на основе данных о 522 корейских участниках эксперимента Pay-What-You-Want (PWYW). Авторы сравнивают три современных мультимодальных LLMs, оценивая их способность предсказывать индивидуальные решения в сценариях культурного потребления. Обнаружено, что, несмотря на неточность предсказаний на индивидуальном уровне, LLMs успешно отражают групповые тенденции поведения. Также выяснено, что распространённые методы подачи запросов (prompting), такие как улучшенная генерация с дополнительным контекстом (retrieval-augmented generation) или реконструкция личностных портретов, не дают значимого преимущества по сравнению с простыми методами. Исследование представляет первую полную оценку возможностей LLMs в моделировании экономического поведения на основе реальных данных, оказывая полезные рекомендации для применения LLMs в вычислительных социальных науках.

Annotation:

Recent advances in Large Language Models (LLMs) have generated significant interest in their capacity to simulate human-like behaviors, yet most studies rely on fictional personas rather than actual human data. We address this limitation by evaluating LLMs' ability to predict individual economic decision-making using Pay-What-You-Want (PWYW) pricing experiments with real 522 human personas. Our study systematically compares three state-of-the-art multimodal LLMs using detailed persona informatio...

ID: 2508.03262v1 cs.CL, cs.AI

arXiv PDF

📄 Investigating Gender Bias in LLM-Generated Stories via Psychological Stereotypes

2025-08-06

Авторы:

Shahed Masoudian, Gustavo Escobedo, Hannah Strauss, Markus Schedl

В статье исследуется проблема гендерных предубеждений в генеративном поведении Large Language Models (LLMs) при создании рассказов. Учитывая, что существующие исследования часто фокусируются на коротких текстах или явных гендерных признаках, авторы предлагают новый подход, основанный на психологических стереотипах. Они создают набор данных StereoBias-Stories, включающий рассказы, созданные на основе случайных атрибутов, связанных со стереотипами, и различных завершений. Результаты показывают, что: (1) в неусловных задачах LLMs демонстрируют высокую степень гендерного смещения в пользу мужских признаков, но это смещение уменьшается при использовании нестереотипичных атрибутов; (2) комбинирование атрибутов, связанных со стереотипами, усиливает эффект смещения; (3) степень соответствия модельного поведения психологическим стереотипам возрастает с ростом размера модели. Эти наблюдения подчеркивают необходимость психологически обоснованного оценивания LLMs для снижения гендерных предубеждений.

Annotation:

As Large Language Models (LLMs) are increasingly used across different applications, concerns about their potential to amplify gender biases in various tasks are rising. Prior research has often probed gender bias using explicit gender cues as counterfactual, or studied them in sentence completion and short question answering tasks. These formats might overlook more implicit forms of bias embedded in generative behavior of longer content. In this work, we investigate gender bias in LLMs using ge...

ID: 2508.03292v1 cs.CL, cs.AI

arXiv PDF

📄 NLP Methods May Actually Be Better Than Professors at Estimating Question Difficulty

2025-08-06

Авторы:

Leonidas Zotos, Ivo Pascal de Jong, Matias Valdenegro-Toro, Andreea Ioana Sburlea, Malvina Nissim, Hedderik van Rijn

**Резюме** Оценка сложности вопросов экзамена является ключевой задачей для создания качественных тестов, однако профессора часто сталкиваются с трудностями в точной оценке уровня сложности. Исследование сравнивает возможности профессоров с методами, основанными на Large Language Models (LLM), в задаче прогнозирования процента успешных ответов студентов на True/False-вопросы в областях нейронных сетей и машинного обучения. Результаты показывают, что профессоры имеют ограниченные возможности различать простые и сложные вопросы, в то время как LLM Gemini 2.5 преуспевает в этой задаче. Более того, применение LLM в супервизорском обучении с использованием данных неопределенности при решении задач показало ещё более точные результаты, даже при ограниченном наборе данных из 42 обучающих выборок. Исследование показывает, что LLM, обученные с использованием методов супервизорского обучения, могут значительно повысить точность оценки сложности вопросов, что в конечном счете улучшает качество оценки студентов.

Annotation:

Estimating the difficulty of exam questions is essential for developing good exams, but professors are not always good at this task. We compare various Large Language Model-based methods with three professors in their ability to estimate what percentage of students will give correct answers on True/False exam questions in the areas of Neural Networks and Machine Learning. Our results show that the professors have limited ability to distinguish between easy and difficult questions and that they a...

ID: 2508.03294v1 cs.CL, cs.AI

arXiv PDF

📄 Reliable Evaluation Protocol for Low-Precision Retrieval

2025-08-06

Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

В статье рассматривается проблема нестабильности оценки релевантности в низкоточностных системах поискового поиска, вызвана при использовании низкой точности вычислений. Уменьшение точности приводит к появлению случайных совпадений (spurious ties) между запросом и документами, что существенно влияет на результаты оценки. Для решения этой проблемы предложена новая протокол оценки, включающий два ключевых компонента: **High-Precision Scoring (HPS)** — применение высокоточных вычислений на последнем этапе оценки для разрешения случайных совпадений с минимальными затратами вычислений, и **Tie-aware Retrieval Metrics (TRM)** — метрики, которые учитывают вероятность совпадений и позволяют оценить неопределенность в результатах. Эксперименты на двух наборах данных показали, что HPS значительно снижает нестабильность, а TRM точно восстанавливают ожидаемые значения метрик. Объединение этих подходов обеспечивает более надежную и последовательную оценку в системах низкоточностного поиска.

Annotation:

Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation...

ID: 2508.03306v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 CTTS: Collective Test-Time Scaling

2025-08-06

Авторы:

Zhende Song, Shengji Tang, Peng Ye, Jiayuan Fan, Tao Chen

**Резюме** Test-time scaling (TTS) является перспедвидной областью исследований, направленной на повышение эффективности больших языковых моделей (LLMs) без дополнительного обучения. Однако существующие подходы, такие как Best-of-N и Self-Consistency, ограничены моделью с одним агентом, взаимодействующим с моделью вознаграждения (SA-SR), что не позволяет полностью реализовать потенциал метода. Недавние исследования показывают, что методы, основанные на коллективных агентах, могут преодолевать пределы производительности одноагентных систем за счёт координации разнообразных моделей. В данной работе предлагается новый подход Collective Test-Time Scaling (CTTS), охватывающий три основных парадигмы взаимодействия: один агент с несколькими моделями вознаграждения (SA-MR), несколько агентов с одной моделью вознаграждения (MA-SR) и несколько агентов с несколькими моделями вознаграждения (MA-MR). Результаты экспериментов показывают, что MA-MR является наиболее эффективной парадигмой. На этой основе разработан новый фреймворк CTTS-MM, который объединяет совместную работу нескольких агентов (Agent Collaboration Search, ACS) и нескольких моделей вознаграждения (Mixture of Reward Models, MoR) для оптимизации вывода. Эксперименты на семи популярных бенчмарках подтверждают превосходство CTTS-MM.

Annotation:

Test-time scaling (TTS) has emerged as a promising research field for enhancing the effectiveness of large language models (LLMs) without extra training. However, most existing approaches, e.g., Best-of-N and Self-Consistency rely on a single agent interacting with a reward model (SA-SR), constrained by limited capabilities of a single test-time scaling (STTS) paradigm. On the other hand, recent works demonstrate that collective-agent methods can break through the upper bound of single-agent sys...

ID: 2508.03333v1 cs.CL, cs.AI

arXiv PDF

📄 VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation

2025-08-06

Авторы:

Yufei Xue, Yushi Huang, Jiawei Shao, Jun Zhang

**Резюме:** В статье представлен новый метод пост-тренировочной квантовки (PTQ) для эффективной компрессии крупных моделей визуально-языкового моделирования (VLM). Основная проблема заключается в несоответствии модальностей VLM: количество текстовых токенов ограничено, в то время как визуальные токены часто избыточны и излишне детализированы. Традиционные методы PTQ, основанные на гессиане и разработанные для крупных языковых моделей (LLM), не учитывают этот дисбаланс, что приводит к существенным потерям в производительности при применении к VLM. Для решения этой проблемы, авторы предложили VLMQ — фреймворк, оптимизированный для VLM. VLMQ использует объектив, учитывающий важность токенов, и вычисляет усиленный гессиан с токено-зависимыми факторами важности. Это позволяет сохранить эффективность параллелизируемых обновлений весов. Оптимизация выполняется через легковесный блочно-ориентированный бэкпроп, основанный на теоретической связи с токенно-уровневыми возмущениями. Эксперименты на 8 наборах данных показали, что VLMQ достигает нового уровня производительности, особенно при низкобитной квантовке. Например, под 2-битной квантовкой VLMQ показывает повышение производительности на **16.45%** на данных MME-RealWorld.

Annotation:

Post-training quantization (PTQ) has emerged as an effective approach for compressing large models and accelerating their inference without retraining. While PTQ has been extensively studied in the context of large language models (LLMs), its applicability to vision-language models (VLMs) remains underexplored. In this paper, we identify a modality discrepancy (\emph{i.e.}, limited text tokens \emph{vs.} excessive and redundant vision tokens) of VLMs. However, existing Hessian-based LLM PTQ meth...

ID: 2508.03351v1 cs.CV, cs.AI, cs.CL

arXiv PDF

Показано 7531 - 7540 из 7549 записей