Single Answer is Not Enough: On Generating Ranked Lists with Medical Reasoning Models

2509.20866v1 cs.CL, cs.LG 2025-09-27
Авторы:

Pittawat Taveekitworachai, Natpatchara Pongjirapat, Krittaphas Chaisutyakorn, Piyalitt Ittichaiwong, Tossaporn Saengja, Kunat Pipatanakul

Резюме на русском

## Контекст Клиническая решающая деятельность не ограничивается предоставлением отдельного, определенного ответа. Вместо этого она полагается на рассмотрение множества возможных вариантов для уменьшения риска ограниченного мышления. Существующие модели медицинского логического рассуждения (Medical Reasoning Models, MRMs) обычно разрабатываются так, чтобы они могли предоставлять только один ответ, даже при раскрытых вопросах. Это ограничение может привести к недостаточной полноте решения, особенно в таких областях, как медицинская практика, где несколько вариантов могут быть важны. Мы предлагаем рассмотреть вариант решения в виде ранжированных списков и изучаем возможности построения таких списков. ## Метод Мы рассматриваем две альтернативные подходы: **prompting** и **файн-тюнинг**. Формирование ответов в виде списков через prompting позволяет корректировать ответ MRM, задавая ему подсказки. Файн-тюнинг, в свою очередь, предполагает изменение текущей модели с помощью супервизированного обучения (Supervised Fine-Tuning, SFT) или участия в игровых процессах с помощью выравнивания наград (Reinforcement Fine-Tuning, RFT). Мы предлагаем новые функции награды, которые призваны использоваться для построения ранжированных списков. Мы также проводим абляционные исследования для оценки эффективности RFT в сравнении с SFT. ## Результаты Мы проводим эксперименты с различными MRMs, используя различные данные и форматы ответов, включая выбор, текст и списки. Мы проверяем, насколько эти модели могут оценивать различные варианты ответов и включать их в ранжированные списки. Наши результаты показывают, что SFT может улучшить ответы в некоторых форматах, но не всегда обеспечивает хорошую общую обработку различных форматов. В то же время, модели с RFT показывают более высокую устойчивость к различным форматам ответов, включая ранжированные списки. Мы также проводим случайное исследование на модифицированном наборе данных MedQA, где несколько ответов могут быть верными. Мы обнаружили, что MRMs могут распознавать многочисленные верные ответы, хотя они могут не совпадать с теми, которые установлены в бенчмарке. ## Значимость Предложенные подходы могут быть применены в медицинской практике для улучшения клинического решающего процесса. Они обеспечивают более широкое рассмотрение вариантов решения, что может привести к более разумным и информативным решениям. Модели с RFT, в частности, демонстрируют высокую гибкость и устойчивость к разным форматам ответов. Эти достижения могут быть полезны в областях, где требуется многопрофильный подход к решению задач. ## Выводы Мы представляем первую систематическую исследовательскую

Abstract

This paper presents a systematic study on enabling medical reasoning models (MRMs) to generate ranked lists of answers for open-ended questions. Clinical decision-making rarely relies on a single answer but instead considers multiple options, reducing the risks of narrow perspectives. Yet current MRMs are typically trained to produce only one answer, even in open-ended settings. We propose an alternative format: ranked lists and investigate two approaches: prompting and fine-tuning. While prompting is a cost-effective way to steer an MRM's response, not all MRMs generalize well across different answer formats: choice, short text, and list answers. Based on our prompting findings, we train and evaluate MRMs using supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT teaches a model to imitate annotated responses, and RFT incentivizes exploration through the responses that maximize a reward. We propose new reward functions targeted at ranked-list answer formats, and conduct ablation studies for RFT. Our results show that while some SFT models generalize to certain answer formats, models trained with RFT are more robust across multiple formats. We also present a case study on a modified MedQA with multiple valid answers, finding that although MRMs might fail to select the benchmark's preferred ground truth, they can recognize valid answers. To the best of our knowledge, this is the first systematic investigation of approaches for enabling MRMs to generate answers as ranked lists. We hope this work provides a first step toward developing alternative answer formats that are beneficial beyond single answers in medical domains.

Ссылки и действия