📚 Саммари научных статей из arXiv

Найдено 134 результатов по запросу 'cs.CL, cs.IR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Selective Retrieval-Augmentation for Long-Tail Legal Text Classification

2025-08-29

Авторы:

Boheng Mao

## Контекст Legal text classification является основной задачей в области NLP, применяемой в юридической сфере. Однако многие бенчмарк-датасеты в этой области обладают длинной хвостовой статистикой распределения классов (long-tail distribution), что означает, что многие меток имеют недостаточно примеров для эффективного обучения моделей. Это приводит к снижению производительности моделей, особенно в отношении редких классов. Эта проблема требует разработки методов, которые могут оптимально справиться с неравномерным распределением данных. ## Метод Основой метода Selective Retrieval-Augmentation (SRA) лежит идея руководства модели тем объектами, которые недостаточно представлены в обучающих данных. SRA реализует автоматическую выборку и добавление очень редких классов в обучающий набор, минимизируя влияние на классы, уже достаточно представленные. Это достигается за счет грамотного ретриева данных из обучающего набора, которое исключает влияние внешних источников, таких как Wikipedia или гугл-корпус. Таким образом, SRA гарантирует, что обучение не будет загрязнено внешними источниками, не относящимися к задаче. ## Результаты Выполнялись эксперименты на двух датасетах с длинной хвостовой статистикой: LEDGAR (single-label) и UNFAIR-ToS (multi-label). Были сравнены результаты SRA с предыдущими моделями LexGLUE. Результаты показали, что SRA улучшает микро-F1 и макро-F1 скоры на 2-5%, что свидетельствует об удачном шаге в решении задачи неравномерного распределения меток в юридической NLP. Эти результаты подтверждают сильную модельную производительность на редких меток. ## Значимость Наложение SRA может быть применено в широком кругу задач NLP, особенно тех, где имеется неравномерное распределение данных. Оптимальное отношение к редким классам делает SRA эффективным в задачах, где очень редкие классы имеют высокую стоимость. Этот подход позволяет экономить ресурсы, не прибегая к дополнительным внешним источникам, и снижает вероятность загрязнения модели внешними элементами. ## Выводы Разработанный SRA позволяет эффективно решать проблему неравномерного распределения классов в задачах юридической классификации текстов. Будущие исследования могут быть направлены на расширение SRA на другие типы задач с неравномерным распределением в задачах NLP, а также исследование дополнительных методов для улучшения системы ретриева.

Annotation:

Legal text classification is a fundamental NLP task in the legal domain. Benchmark datasets in this area often exhibit a long-tail label distribution, where many labels are underrepresented, leading to poor model performance on rare classes. This paper proposes Selective Retrieval-Augmentation (SRA) as a solution to this problem. SRA focuses on augmenting samples belonging to low-frequency labels in the training set, preventing the introduction of noise for well-represented classes, and requires...

ID: 2508.19997v2 cs.CL, cs.IR

arXiv PDF

📄 How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models

2025-08-27

Авторы:

Abdelrahman Abdallah, Bhawna Piryani, Jamshid Mozafari, Mohammed Ali, Adam Jatowt

## Контекст Поиск информации (information retrieval, IR) является ключевым заданием в области крупномасштабных текстовых данных. Одним из важных аспектов IR является **reranking** — процесс сортировки результатов поиска по релевантности. Несмотря на развитие технологий, существуют проблемы, такие как ограниченная общезначимость результатов, особенно при работе с неизвестными или непредсказуемыми запросами. Недавние успехи в области больших языковых моделей (LLM — Large Language Models) потенциально могут решить эти проблемы, но имеют ограничения в скорости и эффективности. В статье авторы проводят систематический эмпирический анализ существующих методов reranking, включая LLM-based, lightweight и zero-shot подходы, чтобы определить их эффективность и ограничения. ## Метод Для анализа использованы 22 метода reranking, включая 40 вариантов на основе различных языковых моделей (LLM). Эксперименты проводились на трех стандартных бенчмарках: TREC DL19, DL20 и BEIR. Для оценки общей и новой релевантности запросов использовался новый тестовый набор данных. Авторы также проводили эмпирический анализ, изучая влияние гипотез о неодинаковой скорости обучения, архитектуре моделей и их эффективности. ## Результаты Эксперименты показали, что LLM-based rerankers показывают значительное превосходство на знакомых запросах, но их результаты на новых запросах значительно ухудшаются. Lightweight модели, несмотря на меньшую скорость, показывают высокую эффективность в работе с неизвестными запросами. Анализ показал, что многие новые запросы требуют новых решений, так как существующие модели не достаточно гибки в обработке неизвестных случаев. ## Значимость Результаты имеют большое значение для развития reranking-систем. Они могут быть применены в различных областях, таких как поисковые системы, мобильные приложения, искусственный интеллект в различных приложениях. Лайтвэйт-модели могут стать альтернативой LLM-based, предоставляя эффективность при новых запросах. Ограничения существующих методов могут стать мотивацией для развития новых подходов. ## Выводы LLM-based rerankers демонстрируют высокую эффективность на знакомых запросах, но страдают от ограниченной общей релевантности на новых запросах. Lightweight-модели, несмотря на меньшую скорость, могут предоставить более гибкую и эффективную альтернативу. Будущие исследования должны сосредоточиться на развитии гибких моделей, которые могут более эффективно обрабатывать неизвестные запросы.

Annotation:

In this work, we present a systematic and comprehensive empirical evaluation of state-of-the-art reranking methods, encompassing large language model (LLM)-based, lightweight contextual, and zero-shot approaches, with respect to their performance in information retrieval tasks. We evaluate in total 22 methods, including 40 variants (depending on used LLM) across several established benchmarks, including TREC DL19, DL20, and BEIR, as well as a novel dataset designed to test queries unseen by pret...

ID: 2508.16757v1 cs.CL, cs.IR

arXiv PDF

📄 DeAR: Dual-Stage Document Reranking with Reasoning Agents via LLM Distillation

2025-08-27

Авторы:

Abdelrahman Abdallah, Jamshid Mozafari, Bhawna Piryani, Adam Jatowt

#### Контекст Существующие системы рейтинга документов часто сталкиваются с проблемой достижения баланса между точным оцениванием точности каждого документа и обеспечением глобального анализа взаимодействия между документами. Это приводит к потере точности или неэффективности в обработке крупных наборов документов. Большие языковые модели (LLMs) стали новым стандартом в этом процессе, но их использование часто ограничивается предопределенными архитектурами и проблемами с масштабированием. Необходимо разработать гибкую и прозрачную модель, которая могла быть применена в различных сценариях, включая открытую доменную квиз-информацию и новые базы данных. #### Метод Мы предлагаем DeAR (Dual-Stage Agent Rerank) — распределенную архитектуру с двух этапами, каждый из которых решает свой собственный класс задач. **Стадия 1** (Dual-Loss Distillation) заключается в том, чтобы использовать модель LLaMA 13B в качестве teacher-модели для обучения модели DeAR-Student 3B или 8B с помощью комбинированных целей точного классификатора (cross-entropy), классификации по рейтингу (RankNet) и адаптации вероятности (KL-divergence). **Стадия 2** (List-Wise Reasoning with Chain-of-Thought) включает в себя LoRA-адаптеры и тренировку модели на 20K GPT-4 ответов с разруливанием последовательности (chain-of-thought), что позволяет системе обеспечить логическую интерпретацию рейтингов документов. #### Результаты Мы проверили работу DeAR на 11 задаче библиографического поиска, включая TREC-DL 2019/20, BEIR-датасеты и NovelEval-2306. На TREC-DL 2020 DeAR превысила базовые модели на +5.1 nDCG@5. На NovelEval-2306 она достигла 90.97 nDCG@10, превосходя даже GPT-4 на +3.09. Также DeAR показала отличные результаты в открытом доменном задании на Natural Questions, с Top-1 точностью 54.29%, превосходя MonoT5 и RankGPT. Наблюдения показали, что стратегия двухуровневого распределения обучения (двух loss-функций) обеспечивает стабильность модели и повышает точность в поиске. #### Значимость DeAR может применяться в сценариях открытого доменного поиска, в том числе в системах принятия решений, открытой квиз-информации и открытого поиска в Интернете. Основные преимущества: (1) высокая точность благодаря двухэтапному распределенному рассуждению; (2) легкость интеграции в существующие системы; (3) прозрачность решений за счет цепочек рассуждений. Это делает ее привлекательной для реальных систем, где прозрачность и эффективность ключевые. #### Выводы Мы продемонстрировали, что DeAR предлагает эффективный и прозрачный подход к рейтинговой системе. Мы планируем продолжить работу по улучшению точности и масштабиро

Annotation:

Large Language Models (LLMs) have transformed listwise document reranking by enabling global reasoning over candidate sets, yet single models often struggle to balance fine-grained relevance scoring with holistic cross-document analysis. We propose \textbf{De}ep\textbf{A}gent\textbf{R}ank (\textbf{\DeAR}), an open-source framework that decouples these tasks through a dual-stage approach, achieving superior accuracy and interpretability. In \emph{Stage 1}, we distill token-level relevance signals...

ID: 2508.16998v1 cs.CL, cs.IR

arXiv PDF

📄 Routing Distilled Knowledge via Mixture of LoRA Experts for Large Language Model based Bundle Generation

2025-08-27

Авторы:

Kaidong Feng, Zhu Sun, Hui Fang, Jie Yang, Wenyuan Liu, Yew-Soon Ong

## Контекст Large Language Models (LLMs) показали свою эффективность в автоматической генерации бандлов, однако их вычислительные затраты остаются высокими. Несмотря на то, что методы знанийых знаний предлагают возможность создания эффективных моделей через познание от моделей-учителей (teacher LLMs), наш предварительный анализ показал, что простое объединение различных видов полученных знаний может привести к конфликту между ними, что в свою очередь мешает работе модели в целях генерации бандлов. Чтобы устранить эту проблему, мы предлагаем RouteDK, платформу для маршрутизации полученных знаний с помощью смеси экспертов (LoRA), которая оптимизирует знания от разных типов. ## Метод Мы предлагаем два типа знаний, которые могут быть получены от модели-учителя: высокоуровневые знания (общие правила) и тонкоуровневые знания (специфичные для сессии). Для каждого типа знаний мы обучаем особые экспертов LoRA, каждый из которых учитывает свой тип знаний. Мы также разработали динамический модуль слияния (dynamic fusion module), который включает в себя информацию о входных данных и роутер, который динамически настраивает веса для каждого эксперта LoRA, чтобы минимизировать конфликты между знаниями. Для сокращения разброса при инференции мы также добавили модуль улучшения инференции, который повышает надежность результатов. ## Результаты Мы провели эксперименты на трех открытых наборах данных. Наши результаты показали, что RouteDK достигает той же точности, что и модель-учитель, при этом оставляя вычислительные затраты намного ниже. Этот подход показал себя лучше, чем другие современные методы для генерации бандлов. Мы также обнаружили, что наше решение эффективно решает проблему конфликта знаний, что является ключевым фактором улучшения качества генерации бандлов. ## Значимость Предложенный подход RouteDK может быть применен в различных областях, где необходима автоматизация генерации бандлов, таких как робототехника, ИИ-помощники и системы рекомендаций. Наш подход не только улучшает точность и эффективность, но и предоставляет мощное инструмент для обработки сложных типов знаний. Мы считаем, что RouteDK может стать основой для будущих разработок в области знанийых моделей и их применения в различных технических сферах. ## Выводы Мы предложили RouteDK, фреймворк для маршрутизации знаний с помощью смеси экспертов LoRA для генерации бандлов. Наши эксперименты подтвердили, что данный подход достигает высокой точности, эффективности и устойчивости при инференции. Мы планируем дальнейшие исследования в области улучшения моделей знаний и их эффективного применения в раз

Annotation:

Large Language Models (LLMs) have shown potential in automatic bundle generation but suffer from prohibitive computational costs. Although knowledge distillation offers a pathway to more efficient student models, our preliminary study reveals that naively integrating diverse types of distilled knowledge from teacher LLMs into student LLMs leads to knowledge conflict, negatively impacting the performance of bundle generation. To address this, we propose RouteDK, a framework for routing distilled ...

ID: 2508.17250v1 cs.CL, cs.IR

arXiv PDF

📄 Are You Sure You're Positive? Consolidating Chain-of-Thought Agents with Uncertainty Quantification for Aspect-Category Sentiment Analysis

2025-08-27

Авторы:

Filippos Ventirozos, Peter Appleby, Matthew Shardlow

## Контекст Aspect-category sentiment analysis (ACSA) является важной задачей в области обработки естественного языка, которая фокусируется на определении тональности отношения пользователей к конкретным аспектам продукта или услуги. Эта задача приобретает увесистую значимость в сферах, таких как обслуживание клиентов, маркетинг и управление репутацией. Однако существуют значительные вызовы в ее реализации, в том числе и относительно нехватки данных для обучения в новых доменах и риск аннотационной биаса, возникающий при субъективном определении тональных значений. Эти проблемы усугубляются при переносе моделей супервизированными методами на неизвестные домены. Мы вводим новую стратегию, которая объединяет несколько chain-of-thought (CoT) агентов с использованием скоррелированных токен-уровневых оценок неопределенности от LLMs. Эта методика способна улучшить выводы в ситуациях с низкой доступностью тренировочных данных. ## Метод Мы предлагаем комбинацию нескольких CoT-агентов, каждый из которых представляет собой обученную модель, которая оценивает уровень неопределенности на уровне токенов. Эти модели обучаются на задаче ACSA, используя руководства по мышлению (CoT). Мы оцениваем неопределенность в token-level с помощью моделей типа Llama и Qwen в параметрах 3B и 70B. Для построения конечной тональности мы складываем неопределенность от разных моделей и используем методы взвешенного округления. Наш подход предлагает гибкость в тренировке и применении, при этом используя значительно меньше данных для обучения. Кроме того, мы вводим многоуровневый подход к тональности, который позволяет лучше охватить сложные тональные структуры в данных. ## Результаты Мы проводим эксперименты с доменами, включая электронику, автомобили и еду, используя данные из реальных отзывов клиентов. Мы сравниваем наши результаты с традиционными методами ACSA, включая супервизированные модели, и показываем, что наш подход превосходит их в сценариях с низкой доступностью данных. На тестовой выборке, состоящей из 10,000+ отзывов, наши результаты показывают более высокую точность и четкость в тональной оценке, особенно в ситуациях, где нет доступа к тренировочным данным. Также, мы проводим анализ точности неопределенности на уровне токенов и показываем, что она влияет на качество тонального вывода. ## Значимость Предлагаемый подход имеет широкий спектр применений в сферах, где доступ к мелкосоставным данным ограничен. Например, в маркетинге, анализе тональности в социальных сетях и мониторинге репутации. Более того, наш подход открывает новые возможности для создания

Annotation:

Aspect-category sentiment analysis provides granular insights by identifying specific themes within product reviews that are associated with particular opinions. Supervised learning approaches dominate the field. However, data is scarce and expensive to annotate for new domains. We argue that leveraging large language models in a zero-shot setting is beneficial where the time and resources required for dataset annotation are limited. Furthermore, annotation bias may lead to strong results using ...

ID: 2508.17258v1 cs.CL, cs.IR

arXiv PDF

📄 DS@GT at CheckThat! 2025: A Simple Retrieval-First, LLM-Backed Framework for Claim Normalization

2025-08-27

Авторы:

Aleksandar Pramov, Jiangqin Ma, Bina Patel

#### Контекст Область исследования Claim Normalization является ключевой задачей в системах автоматического факт-чеккинга, поскольку она занимается преобразованием шумных данных, таких как социальные медиа посты, в нормализованные утверждения. Эти утверждения, в свою очередь, используются в задачах классификации достоверности. CheckThat! 2025 Task 2 посвящено эту задачу и содержит 20 языков разделенных на монолингвальные и нулевые задачи. Целью работ является разработка эффективного метода для нормализации утверждений, чтобы улучшить точность факт-чеккинга. Было выделено, что существующие подходы часто сталкиваются с проблемами стабильности и точности при обработке различных языков, что мотивировало разработку более универсальных решений. #### Метод Предложенная архитектура DS@GT представляет собой **семантический поиск с динамической моделью стимула**. Основная идея заключается в том, чтобы либо использовать модель GPT-4o-mini с генерируемыми при мгновенье входными примерами, либо выбирать наиболее подходящий экземпляр из обучающих данных. Для этого используются специально подготовленные контексты для GPT-4o-mini, позволяющие ему лучше понять интенцию запроса и сформировать достоверное нормализованное утверждение. Также в качестве второго подхода используется поисковая система, которая ищет ближайшее нормализованное утверждение в обучающих данных. Двухэтапный подход позволяет гибко адаптироваться к различным типам данных и языковых традиций. #### Результаты На официальном тестовом наборе DS@GT показала стабильную работу, особенно в монолингвальных языках. Заняла первое место в 7 из 13 языков, демонстрируя высокую точность в нормализации. Однако применение в нулевой задаче сталкивается с ограничениями, так как модель не всегда может адекватно обрабатывать новые языки и стили. Это указывает на необходимость дальнейших улучшений в области динамической моделирования контекста и обработки новых данных. Данные результаты подтверждают эффективность архитектуры в монолингвальных задачах и выявляют зоны узких мест для дальнейшего исследования. #### Значимость Система DS@GT может быть применена в системах факт-чеккинга, где нужна стабильная и точная обработка нормализации утверждений. Основные преимущества заключаются в универсальности, гибкости и низком потреблении ресурсов. В то же время, ограничения в нулевой задаче подчеркивают необходимость развития методов адаптации к новым языкам. Результаты демонстрируют, что такой подход может стать основой для будущих исследований в об

Annotation:

Claim normalization is an integral part of any automatic fact-check verification system. It parses the typically noisy claim data, such as social media posts into normalized claims, which are then fed into downstream veracity classification tasks. The CheckThat! 2025 Task 2 focuses specifically on claim normalization and spans 20 languages under monolingual and zero-shot conditions. Our proposed solution consists of a lightweight \emph{retrieval-first, LLM-backed} pipeline, in which we either dy...

ID: 2508.17402v1 cs.CL, cs.IR

arXiv PDF

📄 Sparse and Dense Retrievers Learn Better Together: Joint Sparse-Dense Optimization for Text-Image Retrieval

2025-08-27

Авторы:

Jonghyun Song, Youngjune Lee, Gyu-Hwung Cho, Ilhyeon Song, Saehun Kim, Yohan Jo

#### Контекст В последние годы, мультимодальные задачи, такие как text-image retrieval, получили значительное внимание в искусственном интеллекте. Одним из ключевых подходов является использование Vision-Language Pretrained (VLP) моделей, которые достигли выдающихся результатов, основываясь на плотных (dense) представлениях. Эти модели эффективны в традиционных text-image retrieval задачах, но часто требуют больших вычислительных ресурсов. С другой стороны, Learned Sparse Retrieval (LSR), основанный на сжатых (sparse) представлениях, привлекает внимание благодаря своей прозрачности и эффективности. Он позволяет использовать быстрые терм-ориентированные поисковые запросы с помощью инвертированных индексов. Недавние исследования расширяют LSR в мультимодальные задачи, но часто они полагаются на дорогостоящие методы, такие как контрастное предварительное обучение (contrastive pretraining) или дистилляция из замороженных моделей, что ограничивает их потенциал. Мы предлагаем кардинально новый подход, который объединяет преимущества двух подходов, обеспечивая синергетическое улучшение обеих моделей. #### Метод Мы предлагаем Self-Knowledge Distillation (SKD) как ключевой механизм для объединения двух подходов. Наша методология включает в себя: 1. **Интегрированную меру схожести**, которая является взвешенным суммом плотной и сжатой схожестей. Этот сингулярный сигнал используется как вектор тестовой модели (teacher). 2. **Оптимизация только последнего слоя** dense модели и sparse projection head. Это позволяет эффективно применять нашу модель к качеству запросов в существующих VLP моделях. 3. **Процесс би-дирекционного обучения**, где каждая модель (dense и sparse) учит другую с помощью SKD. Наш подход гарантирует, что каждая модель использует преимущества другой, не требуя дорогостоящих вычислений или специальных архитектур. #### Результаты Мы провели эксперименты на MSCOCO и Flickr30k, используя в качестве основы VLP модели. Наши результаты показали, что: - **Sparse retriever** не только превосходит существующие sparse baseline, но и достигает результатов, которые в некоторых случаях превышают dense retriever. - Это достигается без торможения вычислительной эффективности sparse моделей. - Мы доказали, что наш подход легко адаптируется к различным VLP моделям, улучшая их взаимодействие с text-image retrieval задачами. #### Значимость Наш подход может быть применен в различных областях, таких как видео-анализ, мультимодальный поиск и крупномасштабные корпуса данных. Он предоставляет следующие преимущества: - **Улучшенная точность** в мультимодальных задачах благодаря синергетическому обучению. - **Эффективность** в реализации на масштабных дан

Annotation:

Vision-Language Pretrained (VLP) models have achieved impressive performance on multimodal tasks, including text-image retrieval, based on dense representations. Meanwhile, Learned Sparse Retrieval (LSR) has gained traction in text-only settings due to its interpretability and efficiency with fast term-based lookup via inverted indexes. Inspired by these advantages, recent work has extended LSR to the multimodal domain. However, these methods often rely on computationally expensive contrastive p...

ID: 2508.16707v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 THEME : Enhancing Thematic Investing with Semantic Stock Representations and Temporal Dynamics

2025-08-27

Авторы:

Hoyoung Lee, Wonbin Ahn, Suhwan Park, Jaehoon Lee, Minjae Kim, Sungdong Yoo, Taeyoon Lim, Woohyung Lim, Yongjae Lee

## Контекст Тематическое инвестирование стремится формировать портфели, соответствующие структурным трендам, однако выбор соответствующих активов остается сложным из-за перекрывающихся границ отраслей и динамических изменений рынка. Эти трудности ограничивают эффективность темытологических инвестиций. Тем самым, необходимо разработать методы, позволяющие лучше понять связи между темами и активами, а также учитывать изменения рынка. Такой подход позволит повысить качество портфелей и их рисково-вознаграждаемые характеристики. ## Метод Мы предлагаем Thematic Representation Set (TRS) — расширенный набор данных, который использует реальные тематические ETF и дополняется индустриальными классификациями и финансовыми новостными данными. TRS обеспечивает точное определение тематических связей между активами и подробные текстовые профили для каждого актива. На основе TRS мы предлагаем \textsc{THEME}, фреймворк на основе градиентного взвешивания, который строит вложенные семантические и временные модели. Этот фреймворк позволяет лучше идентифицировать тематические связи между активами и учитывать динамику рынка. ## Результаты Мы проверили \textsc{THEME} на нескольких метриках реализации, включая точность, долгосрочную стабильность и риск. Наши результаты показывают, что \textsc{THEME} превышает существующие методы в несколько показателей. Эти результаты демонстрируют, что \textsc{THEME} не только избегает ложных срабатываний, но и обеспечивает более точное понимание тематических связей. ## Значимость Тематическое инвестирование имеет широкое применение в построении портфелей стратегических инвестиций. Метод \textsc{THEME} позволяет улучшить точность выбора активов, учитывая тематические связи и влияние динамики рынка. Это может привести к более эффективным портфелям с уменьшенными рисками и высокими возможностями роста. ## Выводы Мы доказали, что \textsc{THEME} эффективно решает проблему выбора активов в тематическом инвестировании. Наш подход может быть расширен на другие ситуации, где требуется точное понимание семантических связей и временных данных. Наша работа открывает пути для будущих исследований в области адаптивных методов для инвестиционных стратегий.

Annotation:

Thematic investing aims to construct portfolios aligned with structural trends, yet selecting relevant stocks remains challenging due to overlapping sector boundaries and evolving market dynamics. To address this challenge, we construct the Thematic Representation Set (TRS), an extended dataset that begins with real-world thematic ETFs and expands upon them by incorporating industry classifications and financial news to overcome their coverage limitations. The final dataset contains both the exp...

ID: 2508.16936v1 q-fin.PM, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 LLM-as-classifier: Semi-Supervised, Iterative Framework for Hierarchical Text Classification using Large Language Models

2025-08-26

Авторы:

Doohee You, Andy Parisi, Zach Vander Velden, Lara Dantas Inojosa

## Контекст В последние годы вызвано значительное внимание к использованию бо LLM (Large Language Models) для анализа неструктурированных текстовых данных. Однако, применение этих моделей в качестве надежных и мощных классификаторов в промышленных приложениях сталкивается с рядом технических и методологических проблем. Одной из главных сложностей является то, что стандартные методы оптимизации моделей часто оказываются ресурсоемкими и неэффективными при работе с динамически меняющимися данными, которые характерны для реального мира. Это взаимодействие между гибкостью LLMs и требованиями к производительности и устойчивости классификационных систем в реальных приложениях лежит в основе нашего исследования. Мы создаем подробную стратегию, которая использует мощь LLMs для построения разделенных классификаторов используя небольшие обучающие выборки и итеративные, человеком вовлеченные процессы. ## Метод Мы предлагаем развитый, семи-супервизированный фреймворк, который основывается на нулевом и нескольких-супервизированных возможностях LLMs для построения леса классификаторов. Методология включает в себя несколько ключевых этапов, таких как: 1. **Элицирование доменных знаний** — получение информации для определения ключевых признаков и концепций, необходимых для классификации. 2. **Подготовка и уточнение запросов** — оптимизация запросов для лучшего понимания текстовых данных. 3. **Расширение иерархии классов** — мощные техники для расширения иерархической структуры классификатора. 4. **Многомерная валидация** — методы для проверки качества классификации с различных сторон. 5. **Оценка и снижение последовательностных биасов** — инструменты для выявления и устранения последовательных зависимостей в данных. 6. **Непрерывное мониторинг и адаптация** — протоколы для постоянного контроля и улучшения системы. Этот подход позволяет использовать мощь LLMs в сочетании с человеческим опытом для построения более точных, понятных и устойчивых классификаторов. ## Результаты Мы проводим эксперименты с различными данными, включая реальные из различных индустрий. Мы устанавливаем оптимальные параметры для запросов, создаем иерархические классификаторы и проводим многомерные валидации для оценки качества. Наши результаты показывают, что наш фреймворк позволяет повысить точность классификации и уменьшить частоту ошибок по сравнению с существующими методами. Также мы показываем, как наш подход справляется с последовательными биасами и устойчив к изменению данных в реальном времени. ## Значимость Наш фреймворк имеет огромное значение для индустрии, так как он предоставляет мощный инструмент

Annotation:

The advent of Large Language Models (LLMs) has provided unprecedented capabilities for analyzing unstructured text data. However, deploying these models as reliable, robust, and scalable classifiers in production environments presents significant methodological challenges. Standard fine-tuning approaches can be resource-intensive and often struggle with the dynamic nature of real-world data distributions, which is common in the industry. In this paper, we propose a comprehensive, semi-supervised...

ID: 2508.16478v1 cs.CL, cs.IR

arXiv PDF

📄 Extending FKG.in: Towards a Food Claim Traceability Network

2025-08-26

Авторы:

Saransh Kumar Gupta, Rizwan Gulzar Mir, Lipika Dey, Partha Pratim Das, Anirban Sen, Ramesh Jain

## Контекст Мировой фуд-ландшафт насыщен сложными, многогранными и многоуровневыми культурными, научными и коммерческими утверждениями о пищевых продуктах. Они относятся к их составу, свойствам, потенциальным пользам и вредностям, а также к предпочтениям и традиционным убеждениям. Например, есть утверждения, основанные на научных исследованиях (пробиотики способствуют нормальной работе кишечника), такие как "содержатся в огнестрельном оружии", но также есть недостоверные (александр медведев генетиком) или туманные (суперфуды усиливают иммунитет). Подобные утверждения возникают в различных регионах с разными историческими, культурными и регулиаторными контекстами. Однако трудности в их проверке, контекстуализации и отслеживании остаются значительной проблемой. Наша мотивация заключается в разработке инфраструктуры, которая позволяла бы структурировать и проверять такие утверждения, повышая прозрачность, достоверность и удобство для потребителей, политиков и научного сообщества. ## Метод Мы предлагаем развить Food Claim Traceability Network (FCN), являющийся расширением FKG.in, знаний о индийской пищевой культуре. Эта система будет построена на основе графа знаний и использовать семиаутоматизированные процессы знаний для извлечения, валидации и проверки пищевых утверждений. Мы внедрили рабочий процесс, основанный на Large Language Models (LLMs), для целей доказательства концепта. Рабочий процесс включает сбор данных из источников, таких как Reddit, и их приведение к структурированному виду с использованием проверяемого стека технологий. Он также предусматривает проверку источников, автоматическую валидацию утверждений и возможность контекстуализации результатов. Архитектура FCN основывается на прозрачных интерфейсах и использует семиаутоматизированные процессы для поддержки повседневных потребителей, ученых и политических деятелей. ## Результаты Мы провели эксперименты с выборкой данных из Reddit, используя LLM для извлечения и структурирования пищевых утверждений. Процесс включал курение и проверку данных с использованием рабочего процесса FCN. Эксперименты показали, что система способна структурировать утверждения с высоким уровнем точности и предоставлять контексты, помогающие понимать их уникальность и достоверность. Мы показали, как рабочий процесс FCN может быть применен для проверки пищевых утверждений, извлечения их структурированных описаний и поддержки контекстуальных знаний. ## Значимость FCN может быть применено в различных областях, включая поиск знаний, политику в области питания и выбор потребителей

Annotation:

The global food landscape is rife with scientific, cultural, and commercial claims about what foods are, what they do, what they should not do, or should not do. These range from rigorously studied health benefits (probiotics improve gut health) and misrepresentations (soaked almonds make one smarter) to vague promises (superfoods boost immunity) and culturally rooted beliefs (cold foods cause coughs). Despite their widespread influence, the infrastructure for tracing, verifying, and contextuali...

ID: 2508.16117v1 cs.AI, cs.CL, cs.IR

arXiv PDF

1
2
9
10
11
12
13
14

Показано 101 - 110 из 134 записей