Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedical Question Answering?

2509.18843v1 cs.CL, cs.IR, cs.LG 2025-09-25
Авторы:

Damian Stachura, Joanna Konieczna, Artur Nowak

Резюме на русском

#### Контекст Открытые версии больших языковых моделей (LLMs) постоянно совершают значительные прорывы в области ИИ. Наиболее современные модели, такие как DeepSeek-V3, уже достигли той же мощности, что и закрытые проприетарные модели. Это порождает вопрос о возможности замены проприетарных моделей открытыми версиями, особенно в сферах, где значительная точность и универсальность являются ключевыми факторами. Задача биомедицинского вопроса-ответа (Biomedical Question Answering) является одной из таких областей, где важность высокого качества ответа является критической. Мы исследуем возможность замены крупных закрытых моделей на открытые версии, сосредоточившись на работе в рамках 13-й биоплеяфазы BioASQ. #### Метод Мы проводили эксперименты с несколькими открытыми LLMs, включая DeepSeek-V3, DeepSeek-V4 и другие модели, которые были экспериментально протестированы на задаче биомедицинского вопроса-ответа. Для улучшения результатов, мы использовали следующие методы: (1) получение самых уместных сниппетов на основе векторного расстояния, (2) ин-контекстное обучение для конкретных задач, (3) структурированные выходные данные для точных ответов, и (4) стратегии отображения классов для оценки сложных ответов. Наша тактика включала использование энсемблирования, чтобы объединить различные модели для получения точных ответов на вопросы. #### Результаты Мы провели эксперименты с несколькими открытыми LLMs и сравнили их с топовыми проприетарными моделями, включая GPT-4o, GPT-4.1, Claude 3.5 Sonnet и Claude 3.7 Sonnet. Наши результаты показали, что открытые LLMs, такие как DeepSeek-V3, не только сопоставимы с проприетарными моделями, но и в некоторых случаях превзошли их, особенно при применении стратегий энсемблирования. Наши результаты показали, что открытые LLMs могут предоставлять очень высокое качество ответов в сфере биомедицинского вопроса-ответа. #### Значимость Наши результаты имеют значительное значение в области биомедицинского вопроса-ответа, так как показывают, что открытые LLMs могут заменить проприетарные модели в таких критически важных задачах. Они не только повышают точность ответов, но и предоставляют доступ к исходному коду, что повышает прозрачность и доступность. Эти модели могут использоваться в организациях, системах врачебного сопровождения и инструментах для поиска биомедицинской информации. #### Выводы Мы пришли к выводу, что открытые LLMs, такие как DeepSeek-V3, достигли той же мощности, что и проприетарные модели в задачах биомедицинского вопроса-ответа. Мы также выявили значительную пользу от применения стратегий энсемблирования для улучшения качества ответов. В будущем, нам нео

Abstract

Open-weight versions of large language models (LLMs) are rapidly advancing, with state-of-the-art models like DeepSeek-V3 now performing comparably to proprietary LLMs. This progression raises the question of whether small open-weight LLMs are capable of effectively replacing larger closed-source models. We are particularly interested in the context of biomedical question-answering, a domain we explored by participating in Task 13B Phase B of the BioASQ challenge. In this work, we compare several open-weight models against top-performing systems such as GPT-4o, GPT-4.1, Claude 3.5 Sonnet, and Claude 3.7 Sonnet. To enhance question answering capabilities, we use various techniques including retrieving the most relevant snippets based on embedding distance, in-context learning, and structured outputs. For certain submissions, we utilize ensemble approaches to leverage the diverse outputs generated by different models for exact-answer questions. Our results demonstrate that open-weight LLMs are comparable to proprietary ones. In some instances, open-weight LLMs even surpassed their closed counterparts, particularly when ensembling strategies were applied. All code is publicly available at https://github.com/evidenceprime/BioASQ-13b.

Ссылки и действия

Связанные статьи

Mental Multi-class Classification on Social Media: Benchmarking Transformer Arch...

#### Контекст Социальные медиа становятся важной платформой для открытия о личных борьбах с психологическими расстройст...

2025-09-24

mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

## Контекст В настоящее время современные модели языкового представления, такие как BERT, широко используются для решен...

2025-09-10