Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning

2508.04848v1 cs.AI 2025-08-09
Авторы:

Chang Tian, Matthew B. Blaschko, Mingzhe Xing, Xiuxing Li, Yinliang Yue, Marie-Francine Moens

Резюме на русском

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы крупные модели языка (Large Language Models, LLMs) стали ключевым инструментом для решения задач, связанных с естественным языком, благодаря их впечатляющим способностям к логическому мышлению и генерации текста. Регулярное файн-тюнинг с помощью алгоритмов Reinforcement Learning (RL) стало важной техникой для улучшения таких способностей. Однако, несмотря на широкое применение RL-файн-тюнинга, большинство современных бенчмарков оценивают эти модели в идеализированных условиях, где входные данные четкие и без помех. Это создает значительную проблему, так как в реальных приложениях входные данные часто содержат шум, неполную информацию или контекстуальные ограничения. Авторы статьи выявили три типичных неидеальных сценария, которые имеют практическое значение: summary inference (вывод из кратких суммирований), fine-grained noise suppression (подавление тонких шумов), и contextual filtering (контекстуальная фильтрация). Они подчеркнули, что человеческое мышление остается надежным даже при несовершенных входных данных, в то время как LLMs, подвергаясь RL-файн-тюнингу, демонстрируют существенные недостатки в таких ситуациях. Это выявляет критические ограничения в их способности к логическому мышлению в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предложили новое направление исследований, основанное на находках из науки о мозге. Они формально определили и оценили эти три сценария, используя методологию, основанную на RL-файн-тюнинге. Три LLMs и state-of-the-art large vision-language model (LVLM) были профайн-тюнированы с помощью policy-gradient алгоритма. Затем, эти модели были протестированы на восьми публичных датасетах, чтобы оценить их производительность в идеальных и неидеальных условиях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что RL-файн-тюнинг значительно улучшает базовую производительность LLMs в идеализированных условиях. Однако, когда модели были протестированы в неидеальных сценариях, их производительность резко снизилась. Это показало, что существующие методы RL-файн-тюнинга не справляются с проблемами, связанными с шумом и контекстуальными ограничениями. Хотя авторы предложили метод коррекции для каждого сценария, результаты показали, что эти методы не полностью устраняют недостатки в реальных условиях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Эта работа имеет значительное практическое значение, так как показывает, что способности LLMs к логическому мышлению часто преувеличиваются в исследованиях. Это подчеркивает важность тестирования моделей в реальных, неидеальных условиях. Результаты могут быть использованы для улучшения моделей в таких областях, как медицинская диагностика, автономные системы и другие, где надежность логического мышления критична. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы подчеркнули, что хотя RL-файн-тюнинг является эффективным инструментом для улучшения LLMs, его эффективность существенно снижается в неидеальных условиях. Это открывает новые направления для исследований, направленных на улучшение способностей моделей к логическому мышлению в реальных условиях. Будущие исследования могут сосредоточиться на разработке более Adaptive RL-алгоритмов, которые могут справиться с шумом и контекстуальными ограничениями. ```

Abstract

Reinforcement learning (RL) has become a key technique for enhancing the reasoning abilities of large language models (LLMs), with policy-gradient algorithms dominating the post-training stage because of their efficiency and effectiveness. However, most existing benchmarks evaluate large-language-model reasoning under idealized settings, overlooking performance in realistic, non-ideal scenarios. We identify three representative non-ideal scenarios with practical relevance: summary inference, fine-grained noise suppression, and contextual filtering. We introduce a new research direction guided by brain-science findings that human reasoning remains reliable under imperfect inputs. We formally define and evaluate these challenging scenarios. We fine-tune three LLMs and a state-of-the-art large vision-language model (LVLM) using RL with a representative policy-gradient algorithm and then test their performance on eight public datasets. Our results reveal that while RL fine-tuning improves baseline reasoning under idealized settings, performance declines significantly across all three non-ideal scenarios, exposing critical limitations in advanced reasoning capabilities. Although we propose a scenario-specific remediation method, our results suggest current methods leave these reasoning deficits largely unresolved. This work highlights that the reasoning abilities of large models are often overstated and underscores the importance of evaluating models under non-ideal scenarios. The code and data will be released at XXXX.

Ссылки и действия