Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025

2508.05366v1 cs.CL 2025-08-09
Авторы:

Samy Ateia, Udo Kruschwitz

Резюме на русском

**Резюме** В статье "Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025" рассматривается проблема применения Agentic Retrieval Augmented Generation (RAG) и deep research систем в сфере биомедицинского исследования. Эти системы, основанные на Large Language Models (LLMs), предназначены для автоматизации процессов поиска, но часто снижают уровень участия пользователя и не соответствуют информационным потребностям экспертов. Для решения этих проблем предложен самокорректирующийся подход, где LLMs генерируют, оценивают и улучшают свои выводы для запросов с различными типами ответов (да/нет, фактоид, список, идеальный). Основными моделями, исследованными в работе, являются Gemini-Flash 2.0, o3-mini, o4-mini и DeepSeek-R1. Авторы проводили эксперименты с использованием задач BioASQ CLEF 2025, основанных на вопросах, сформулированных экспертами. Результаты показали, что самокорректирующаяся стратегия имеет разные эффекты в зависимости от модели и задачи, что делает важной интеграцию LLM-generated feedback с прямым вкладом экспертов. Эти выводы инспирируют дальнейшее исследование эффективности самокорректирующихся LLM-систем в сфере domain-specific professional search.

Abstract

Agentic Retrieval Augmented Generation (RAG) and 'deep research' systems aim to enable autonomous search processes where Large Language Models (LLMs) iteratively refine outputs. However, applying these systems to domain-specific professional search, such as biomedical research, presents challenges, as automated systems may reduce user involvement and misalign with expert information needs. Professional search tasks often demand high levels of user expertise and transparency. The BioASQ CLEF 2025 challenge, using expert-formulated questions, can serve as a platform to study these issues. We explored the performance of current reasoning and nonreasoning LLMs like Gemini-Flash 2.0, o3-mini, o4-mini and DeepSeek-R1. A key aspect of our methodology was a self-feedback mechanism where LLMs generated, evaluated, and then refined their outputs for query expansion and for multiple answer types (yes/no, factoid, list, ideal). We investigated whether this iterative self-correction improves performance and if reasoning models are more capable of generating useful feedback. Preliminary results indicate varied performance for the self-feedback strategy across models and tasks. This work offers insights into LLM self-correction and informs future work on comparing the effectiveness of LLM-generated feedback with direct human expert input in these search systems.

Ссылки и действия