Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025
2508.05366v1
cs.CL
2025-08-09
Авторы:
Samy Ateia, Udo Kruschwitz
Резюме на русском
**Резюме**
В статье "Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025" рассматривается проблема применения Agentic Retrieval Augmented Generation (RAG) и deep research систем в сфере биомедицинского исследования. Эти системы, основанные на Large Language Models (LLMs), предназначены для автоматизации процессов поиска, но часто снижают уровень участия пользователя и не соответствуют информационным потребностям экспертов. Для решения этих проблем предложен самокорректирующийся подход, где LLMs генерируют, оценивают и улучшают свои выводы для запросов с различными типами ответов (да/нет, фактоид, список, идеальный). Основными моделями, исследованными в работе, являются Gemini-Flash 2.0, o3-mini, o4-mini и DeepSeek-R1. Авторы проводили эксперименты с использованием задач BioASQ CLEF 2025, основанных на вопросах, сформулированных экспертами. Результаты показали, что самокорректирующаяся стратегия имеет разные эффекты в зависимости от модели и задачи, что делает важной интеграцию LLM-generated feedback с прямым вкладом экспертов. Эти выводы инспирируют дальнейшее исследование эффективности самокорректирующихся LLM-систем в сфере domain-specific professional search.
Abstract
Agentic Retrieval Augmented Generation (RAG) and 'deep research' systems aim
to enable autonomous search processes where Large Language Models (LLMs)
iteratively refine outputs. However, applying these systems to domain-specific
professional search, such as biomedical research, presents challenges, as
automated systems may reduce user involvement and misalign with expert
information needs. Professional search tasks often demand high levels of user
expertise and transparency. The BioASQ CLEF 2025 challenge, using
expert-formulated questions, can serve as a platform to study these issues. We
explored the performance of current reasoning and nonreasoning LLMs like
Gemini-Flash 2.0, o3-mini, o4-mini and DeepSeek-R1. A key aspect of our
methodology was a self-feedback mechanism where LLMs generated, evaluated, and
then refined their outputs for query expansion and for multiple answer types
(yes/no, factoid, list, ideal). We investigated whether this iterative
self-correction improves performance and if reasoning models are more capable
of generating useful feedback. Preliminary results indicate varied performance
for the self-feedback strategy across models and tasks. This work offers
insights into LLM self-correction and informs future work on comparing the
effectiveness of LLM-generated feedback with direct human expert input in these
search systems.
Ссылки и действия
Дополнительные ресурсы: