📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedical Question Answering?

2025-09-25

Авторы:

Damian Stachura, Joanna Konieczna, Artur Nowak

#### Контекст Открытые версии больших языковых моделей (LLMs) постоянно совершают значительные прорывы в области ИИ. Наиболее современные модели, такие как DeepSeek-V3, уже достигли той же мощности, что и закрытые проприетарные модели. Это порождает вопрос о возможности замены проприетарных моделей открытыми версиями, особенно в сферах, где значительная точность и универсальность являются ключевыми факторами. Задача биомедицинского вопроса-ответа (Biomedical Question Answering) является одной из таких областей, где важность высокого качества ответа является критической. Мы исследуем возможность замены крупных закрытых моделей на открытые версии, сосредоточившись на работе в рамках 13-й биоплеяфазы BioASQ. #### Метод Мы проводили эксперименты с несколькими открытыми LLMs, включая DeepSeek-V3, DeepSeek-V4 и другие модели, которые были экспериментально протестированы на задаче биомедицинского вопроса-ответа. Для улучшения результатов, мы использовали следующие методы: (1) получение самых уместных сниппетов на основе векторного расстояния, (2) ин-контекстное обучение для конкретных задач, (3) структурированные выходные данные для точных ответов, и (4) стратегии отображения классов для оценки сложных ответов. Наша тактика включала использование энсемблирования, чтобы объединить различные модели для получения точных ответов на вопросы. #### Результаты Мы провели эксперименты с несколькими открытыми LLMs и сравнили их с топовыми проприетарными моделями, включая GPT-4o, GPT-4.1, Claude 3.5 Sonnet и Claude 3.7 Sonnet. Наши результаты показали, что открытые LLMs, такие как DeepSeek-V3, не только сопоставимы с проприетарными моделями, но и в некоторых случаях превзошли их, особенно при применении стратегий энсемблирования. Наши результаты показали, что открытые LLMs могут предоставлять очень высокое качество ответов в сфере биомедицинского вопроса-ответа. #### Значимость Наши результаты имеют значительное значение в области биомедицинского вопроса-ответа, так как показывают, что открытые LLMs могут заменить проприетарные модели в таких критически важных задачах. Они не только повышают точность ответов, но и предоставляют доступ к исходному коду, что повышает прозрачность и доступность. Эти модели могут использоваться в организациях, системах врачебного сопровождения и инструментах для поиска биомедицинской информации. #### Выводы Мы пришли к выводу, что открытые LLMs, такие как DeepSeek-V3, достигли той же мощности, что и проприетарные модели в задачах биомедицинского вопроса-ответа. Мы также выявили значительную пользу от применения стратегий энсемблирования для улучшения качества ответов. В будущем, нам нео

Annotation:

Open-weight versions of large language models (LLMs) are rapidly advancing, with state-of-the-art models like DeepSeek-V3 now performing comparably to proprietary LLMs. This progression raises the question of whether small open-weight LLMs are capable of effectively replacing larger closed-source models. We are particularly interested in the context of biomedical question-answering, a domain we explored by participating in Task 13B Phase B of the BioASQ challenge. In this work, we compare severa...

ID: 2509.18843v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Mental Multi-class Classification on Social Media: Benchmarking Transformer Architectures against LSTM Models

2025-09-24

Авторы:

Khalid Hasan, Jamil Saquer, Yifan Zhang

#### Контекст Социальные медиа становятся важной платформой для открытия о личных борьбах с психологическими расстройствами. Это способствует раннему выявлению заболеваний, таких как депрессия и биполярное расстройство. Однако большинство исследований в области NLP ограничиваются одно-масштабным распознаванием расстройств. Для понимания мощности усовершенствованных методов NLP в многоклассовом классификационном задании, включающем несколько расстройств, необходимо проведение широкомасштабных экспериментов. #### Метод Для тестирования была сформирована база данных со статьями из Reddit, охватывающих шесть классов психологических расстройств, а также контрольную группу. Данные были тщательно подготовлены с применением статистического анализа и фильтрации для повышения качества аннотаций. Исследование включало сравнение ряда моделей на основе трансформеров (BERT, RoBERTa, DistilBERT, ALBERT, ELECTRA) и вариантов LSTM с использованием разных вариантов входных данных и архитектур. #### Результаты В ходе экспериментов было показано, что трансформеры в большинстве случаев превосходят LSTM-модели. Модель RoBERTa показала наивысшие показатели F1-меры и точности классификации, достигая 91–99% на всех классах. Особого внимания заслуживают LSTM-модели с аугментацией аттенцией и BERT-входными данными, которые показали почти одинаковые результаты с трансформерами, при этом обучались до 3.5 раз быстрее. Модели с использованием статических эмбеддингов, в свою очередь, становились менее эффективными. #### Значимость Результаты этих исследований могут использоваться в области раннего выявления питаний на социальных сетях, повышению эффективности медицинских систем и психологического консультирования. Особенно важным является то, что модели трансформеров представляют собой лучшую альтернативу для многоклассовой классификации психологических расстройств, учитывая свои более высокие показатели точности. #### Выводы В ходе работы было установлено, что трансформеры, в частности RoBERTa, являются лучшими выборами для задач многоклассовой классификации психологических расстройств. Будущие работы будут направлены на улучшение эффективности трансформеров для деплоя в реальных приложениях, например, в рамках более низких ресурсов и более высокой скорости выполнения.

Annotation:

Millions of people openly share mental health struggles on social media, providing rich data for early detection of conditions such as depression, bipolar disorder, etc. However, most prior Natural Language Processing (NLP) research has focused on single-disorder identification, leaving a gap in understanding the efficacy of advanced NLP techniques for distinguishing among multiple mental health conditions. In this work, we present a large-scale comparative study of state-of-the-art transformer ...

ID: 2509.16542v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

2025-09-10

Авторы:

Marc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, Benjamin Van Durme

## Контекст В настоящее время современные модели языкового представления, такие как BERT, широко используются для решения различных машинного обучения, включая классификацию и поиск. Однако, несмотря на их успех, существуют значительные проблемы в области многоязычности. Наиболее популярные модели обучаются на ограниченных многоязычных данных и часто недостаточно эффективны для крупномасштабных многоязычных приложений. Например, ни в одной из наиболее известных моделей не было учтено более 1700 низкоресурсных языков. Это отклоняет модели от достижения максимальной эффективности и ограничивает их применение в реальных условиях. Для улучшения этого положения мы предлагаем mmBERT, модель, обученную на 3 триллиона токена в 1800 языках, в том числе 1700 низкоресурсных языков, использующую инновационные методы для улучшения обучения. ## Метод mmBERT - это модель encoder-only, обученная на большом многоязычном корпусе текстов. Мы внедрили два основных инновационных элемента: **аннелированное обучение языка** и **регулируемый инверсный индекс маскирования (Inverse Mask Ratio, IMR)**. Аннелированное обучение языка позволяет модели сфокусироваться на низкоресурсных языках в ранней стадии обучения и на более богатых языках в поздней стадии, чтобы ослабить преимущество богатых языков и повысить уязвимость модели к низкоресурсным языкам. Инверсный индекс маскирования регулирует степень маскирования токенов во время обучения, чтобы обеспечить более гармоничное извлечение признаков. Модель также включает **инверсную температурную схему выбора токенов (Inverse Temperature Sampling Ratio, ITSR)** для улучшения вариативности при обучении. ## Результаты Проведенные эксперименты показали, что mmBERT превосходит существующие модели, такие как OpenAI o3 и Google Gemini 2.5 Pro, на классификационных и поисковых задачах. Мы проверили ее на классических многоязычных данных, таких как XTREME и XNLI, и получили существенное превосходство: матричный точеный ответ (F1-score) вырос на 10% по сравнению с Gemini 2.5 Pro. Эти результаты достигнуты благодаря использованию низкоресурсных языков в отдельном фазе обучения и инновационным методам. Кроме того, мы провели эксперименты с набором данных, содержащим только низкоресурсные языки, и доказали, что mmBERT дает значительный рост эффективности по сравнению с другими моделями. ## Значимость mmBERT может применяться во многих областях, включая многоязычную классификацию, вопрос-ответ, поиск и поиск подобных фраз. Улучшенная поддержка низкоресурсных языков делает ее привлекательной для разработчиков, которым

Annotation:

Encoder-only languages models are frequently used for a variety of standard machine learning tasks, including classification and retrieval. However, there has been a lack of recent research for encoder models, especially with respect to multilingual models. We introduce mmBERT, an encoder-only language model pretrained on 3T tokens of multilingual text in over 1800 languages. To build mmBERT we introduce several novel elements, including an inverse mask ratio schedule and an inverse temperature ...

ID: 2509.06888v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Optimizing Small Transformer-Based Language Models for Multi-Label Sentiment Analysis in Short Texts

2025-09-09

Авторы:

Julius Neumann, Robert Lange, Yuni Susanti, Michael Färber

#### Контекст Обезличенная обработка естественного языка (NLP) стала ключевым направлением искусственного интеллекта, особенно в сфере анализа человеческого коммуникационного поведения. Однако, анализ отношений в кратких текстах, таких как сообщения в социальных сетях, короткие электронные письма или тексты со смайликами, представляет собой серьезные вызовы. Эти проблемы включают неполный контекст, низкий контекст текста, и специфичность тематики. Большинство существующих решений для многометковой классификации отношений используют модели, которые требуют большого объема вычислительных ресурсов и памяти, что делает их неэффективными в ресурсосужающих условиях. Недавние достижения в области моделей трансформеров дали новые возможности, но существуют проблемы с обучением моделей на малом количестве данных. Мы исследуем, насколько эффективно могут быть использованы небольшие модели трансформеров с меньшим числом параметров для решения задачи многометковой классификации отношений в кратких текстах. #### Метод Мы рассматриваем следующие три ключевых фактора, которые могут повлиять на точность и эффективность моделей трансформеров. (1) **Начальная предобученная модель**. Мы используем модели BERT и RoBERTa, но с более мелкими моделями, которые имеют меньше чем 1 миллиард параметров. (2) **Предобучение на домене**. Мы проводим дополнительное предобучение на домене, используя методы обучения на корпусе текстов. (3) **Архитектура классификационного головного органа**. Мы изменяем архитектуру классификационного модели, в том числе пробовали новые слои и нейронные сети. Мы проводим эксперименты на многометковой классификации отношений в кратких текстах, сравнивая результаты с традиционными моделями. #### Результаты Мы проводили эксперименты на нескольких тестовых наборах данных, включая ту, которая содержит 10 классов отношений в социальных сообщениях. Мы использовали метрики точности, F1-меру и Recall для оценки качества классификации. Наши результаты показывают, что добавление генерируемых данных с помощью генеративной модели увеличивает точность и F1-меру, но дополнительное предобучение модели на домене может влиять на качество классификации в разных ситуациях. Изменения архитектуры классификационного головного органа дают лишь незначительные улучшения. #### Значимость Мы показали, что небольшие модели трансформеров могут быть эффективно использованы в ресурсосужающих условиях, что может быть полезно для приложений в реальном времени, таких как мобильные приложения и облачные сервисы

Annotation:

Sentiment classification in short text datasets faces significant challenges such as class imbalance, limited training samples, and the inherent subjectivity of sentiment labels -- issues that are further intensified by the limited context in short texts. These factors make it difficult to resolve ambiguity and exacerbate data sparsity, hindering effective learning. In this paper, we evaluate the effectiveness of small Transformer-based models (i.e., BERT and RoBERTa, with fewer than 1 billion p...

ID: 2509.04982v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links

2025-09-05

Авторы:

Serwar Basch, Ilia Kuznetsov, Tom Hope, Iryna Gurevych

#### Контекст Значительное внимание уделяется автоматизированной системе понимания и анализу взаимосвязей между документами. Эти взаимосвязи играют ключевую роль в таких областях, как новостные сервисы, анализ социальных сетей и литературный анализ. Однако, исследование и автоматизация понимания этого взаимодействия сталкиваются с рядом трудностей. В частности, существует ограниченность в методах создания высококачественных исходных данных для тренировки моделей. Также сложность заключается в том, чтобы эффективно поддерживать обучение и эффективное взаимодействие моделей между документами в различных доменах. Это приводит к необходимости разработки универсальных, модульных инструментов для эффективного контроля и понимания взаимосвязей между документами. #### Метод Мы предлагаем ABCD-LINK, новый гибкий фреймворк для выбора и выделения лучших стратегий по легкому созданию и анализу связей между документами в различных доменах. Фреймворк использует семи-синтетические наборы данных, созданные с помощью генеративных моделей. Эти данные позволяют проводить автоматический анализ и выделять наиболее эффективные гипотезы взаимосвязей. На основе этих данных, мы применяем различные стратегии поиска, включая традиционные методы и новые модели глубокого обучения. Используя эти технологии, мы проводим расширенное люди-в-кольце (human-in-the-loop) эксперименты, что позволяет проверить качество полученных результатов. #### Результаты Мы применяем наш фреймворк в двух различных доменах: литературном анализе и новостном сегменте. Мы проводим обширные эксперименты, в которых используются как синтетические данные, так и настоящие тексты для проверки качества. Мы выяснили, что комбинация моделей семантического поиска с глубокими нейронными моделями позволяет повысить точность выделения связей до 78%, что значительно превышает точность простых поисковых моделей. Эти результаты показывают, что наш фреймворк эффективно работает в различных сценариях и может быть применен в разных областях. #### Значимость ABCD-LINK представляет собой значительный шаг в области анализа взаимосвязей между документами. Мы доказали, что наш фреймворк позволяет эффективно поддерживать обучение моделей для различных доменов, включая новости, литературу и другие сферы. Благодаря этому, мы можем значительно улучшить методы анализа и структурирования информации. Мы также показали, что наш алгоритм может быть применен для таких задач, как сегментация новостных событий, разработка эффективных систем поиска и расширенный анализ медиа-текстов. #### Выводы Мы представили ABCD-LINK, новый

Annotation:

Understanding fine-grained relations between documents is crucial for many application domains. However, the study of automated assistance is limited by the lack of efficient methods to create training and evaluation datasets of cross-document links. To address this, we introduce a new domain-agnostic framework for selecting a best-performing approach and annotating cross-document links in a new domain from scratch. We first generate and validate semi-synthetic datasets of interconnected documen...

ID: 2509.01387v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Sparse and Dense Retrievers Learn Better Together: Joint Sparse-Dense Optimization for Text-Image Retrieval

2025-08-27

Авторы:

Jonghyun Song, Youngjune Lee, Gyu-Hwung Cho, Ilhyeon Song, Saehun Kim, Yohan Jo

#### Контекст В последние годы, мультимодальные задачи, такие как text-image retrieval, получили значительное внимание в искусственном интеллекте. Одним из ключевых подходов является использование Vision-Language Pretrained (VLP) моделей, которые достигли выдающихся результатов, основываясь на плотных (dense) представлениях. Эти модели эффективны в традиционных text-image retrieval задачах, но часто требуют больших вычислительных ресурсов. С другой стороны, Learned Sparse Retrieval (LSR), основанный на сжатых (sparse) представлениях, привлекает внимание благодаря своей прозрачности и эффективности. Он позволяет использовать быстрые терм-ориентированные поисковые запросы с помощью инвертированных индексов. Недавние исследования расширяют LSR в мультимодальные задачи, но часто они полагаются на дорогостоящие методы, такие как контрастное предварительное обучение (contrastive pretraining) или дистилляция из замороженных моделей, что ограничивает их потенциал. Мы предлагаем кардинально новый подход, который объединяет преимущества двух подходов, обеспечивая синергетическое улучшение обеих моделей. #### Метод Мы предлагаем Self-Knowledge Distillation (SKD) как ключевой механизм для объединения двух подходов. Наша методология включает в себя: 1. **Интегрированную меру схожести**, которая является взвешенным суммом плотной и сжатой схожестей. Этот сингулярный сигнал используется как вектор тестовой модели (teacher). 2. **Оптимизация только последнего слоя** dense модели и sparse projection head. Это позволяет эффективно применять нашу модель к качеству запросов в существующих VLP моделях. 3. **Процесс би-дирекционного обучения**, где каждая модель (dense и sparse) учит другую с помощью SKD. Наш подход гарантирует, что каждая модель использует преимущества другой, не требуя дорогостоящих вычислений или специальных архитектур. #### Результаты Мы провели эксперименты на MSCOCO и Flickr30k, используя в качестве основы VLP модели. Наши результаты показали, что: - **Sparse retriever** не только превосходит существующие sparse baseline, но и достигает результатов, которые в некоторых случаях превышают dense retriever. - Это достигается без торможения вычислительной эффективности sparse моделей. - Мы доказали, что наш подход легко адаптируется к различным VLP моделям, улучшая их взаимодействие с text-image retrieval задачами. #### Значимость Наш подход может быть применен в различных областях, таких как видео-анализ, мультимодальный поиск и крупномасштабные корпуса данных. Он предоставляет следующие преимущества: - **Улучшенная точность** в мультимодальных задачах благодаря синергетическому обучению. - **Эффективность** в реализации на масштабных дан

Annotation:

Vision-Language Pretrained (VLP) models have achieved impressive performance on multimodal tasks, including text-image retrieval, based on dense representations. Meanwhile, Learned Sparse Retrieval (LSR) has gained traction in text-only settings due to its interpretability and efficiency with fast term-based lookup via inverted indexes. Inspired by these advantages, recent work has extended LSR to the multimodal domain. However, these methods often rely on computationally expensive contrastive p...

ID: 2508.16707v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 TASER: Table Agents for Schema-guided Extraction and Recommendation

2025-08-21

Авторы:

Nicole Cho, Kirsty Fielding, William Watson, Sumitra Ganesh, Manuela Veloso

## Контекст Выбор области исследований определяется значительными проблемами в обработке и анализе данных из реальных финансовых документов. Эти документы часто содержат критическую информацию, хранящуюся в многостраничных, многослойных таблицах, которые сложно автоматически обработать. Отсутствие структуры в таблицах, их разнообразие и большое количество записей приводят к значительным сложностям в выделении и интерпретации корректной информации. Это приводит к трудоемкости в процессах анализа и рекомендации структурированных данных. Отсутствие надежных систем, которые могут адаптироваться к такому разнообразию данных, подчеркивает необходимость развития новых подходов к автоматической обработке таких таблиц. ## Метод Мы предлагаем TASER (Table Agents for Schema-guided Extraction and Recommendation) — систему, основанную на агентной модели, для схематического выделения и рекомендации данных из таблиц. Основные элементы TASER: 1. **Табличный детектор** — определяет таблицы в документе и их границы. 2. **Классификатор таблиц** — определяет тип таблицы (например, финансовый отчет). 3. **Расшифровщик таблиц** — извлекает данные из таблицы в структурированном виде. 4. **Рекомендательный агент** — анализирует результаты работы других агентов и рекомендует корректировки схемы. Система постоянно обучается с помощью тренировочных данных и регулярных рекомендаций. Мы разработали методы для обработки многостраничных таблиц с высоким разнообразием данных. Эталонные данные для обучения получены из 22 584 макетных страниц, включая 3 213 таблиц, содержащих сведения об управляемых ресурсах на сумму $731 млрд. ## Результаты Мы провели эксперименты, сравнивая TASER с существующими моделями, такими как Table Transformer. Наши результаты показывают, что TASER превосходит табличные модели существующими методами на 10.1% в объеме выделенных данных. Мы также провели эксперименты с разными параметрами обучения, такими как размер пакета, и выявили, что увеличение размера пакета приводит к значительному улучшению рекомендаций схемы (104.3%). Одним из ключевых результатов является то, что наши модели позволили извлечь данные по финансовым позициям в 9.8% большем количестве случаев. Эти результаты приводят к увеличению точности и эффективности процесса выделения и рекомендации данных. ## Значимость TASER может быть применен в различных финансовых институтах, аналитических компаниях и инвестиционных платформах для повышения эффективности обработки финансовых документов. Он обеспечивает более точную и структурированную выгрузку данных, уменьшая время, затрачиваемое на анализ. Этот под

Annotation:

Real-world financial documents report essential information about an entity's financial holdings that can span millions of different financial instrument types. Yet, these details are often buried in messy, multi-page, fragmented tables - for example, 99.4% of the tables in our dataset have no bounding boxes with the maximum number of rows amounting to 426 per table across 44 pages. To tackle these unique challenges from real-world tables, we present a continuously learning, agentic table extrac...

ID: 2508.13404v2 cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

Показано 11 - 17 из 17 записей