📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems

2025-08-19

Авторы:

Beichen Guo, Zhiyuan Wen, Yu Yang, Peng Gao, Ruosong Yang, Jiaxing Shen

## Контекст В последние годы автоматизация генерирования академических серверов (Automatic Survey Generation, ASG) приобрела важное место в сфере естественного языкового процессинга. Этот процесс, который принято выполнять вручную, требует значительных затрат времени и усилий. Но недавние достижения в области бо LARGE LANGUAGE MODELS (LLMs) открыли новые возможности для эффективного создания серверов. Однако существуют проблемы, такие как безустойчивость, несогласованность между метриками и пользовательскими предпочтениями. Также нет согласованных подходов к подтверждению качества генерируемых серверов. Таким образом, необходима систематизированная и многогранная методика для оценки систем ASG, чтобы обеспечить объективность и достоверность результатов. ## Метод SGSimEval предлагает совершенно новый подход к оценке систем ASG, который основывается на многомерной оценке. Он включает оценку трех ключевых аспектов: **образца (outline)**, **содержания (content)** и **ссылок (references)**. Каждый аспект имеет свои подсчетные показатели, которые тесно сочетаются с прагматическими технологиями. Для оценки выдаются два типа результатов: **LLM-based score** и важная метрика **human preference**. LLM-based score оценивается в рамках многомерной модели, которая включает в себя не только текст, но и целостность системы. Human preference metrics, в свою очередь, позволяют учитывать как непосредственное качество, так и гармонию с пользовательскими предпочтениями. ## Результаты В ходе экспериментов использовались коллекции данных из академических серверов, где были оценены основные системы ASG. Обнаружено, что текущие системы ASG превосходят пользовательские ожидания в **определении образца (outline generation)**, но имеют существенные проблемы в **содержании (content generation)** и **ссылках (references)**. Метрики human preference показали хорошую корреляцию с человеческими оценками. Эта система позволяет оценивать системы не только по логичности и грамматической корректности, но и с точки зрения включенности в реальность. ## Значимость SGSimEval может применяться для разработки и валидации систем ASG в различных областях, включая научный анализ, образовательные системы и даже коммерческие решения. Особым преимуществом является возможность получения объективных оценок, а также оценки пользовательских предпочтений. Эта методика может способствовать улучшению качества генерируемых серверов, обеспечивая более точный функционал и удовлетворение потребностей пользователей. ## Выводы SGSimEval представляет собой мощный инструмент для оценки систем ASG, который объединяет многомерную оценку, LLM-based scoring и human preference metrics. Он определяет сильные и слабые стороны текущих сист

Annotation:

The growing interest in automatic survey generation (ASG), a task that traditionally required considerable time and effort, has been spurred by recent advances in large language models (LLMs). With advancements in retrieval-augmented generation (RAG) and the rising popularity of multi-agent systems (MASs), synthesizing academic surveys using LLMs has become a viable approach, thereby elevating the need for robust evaluation methods in this domain. However, existing evaluation methods suffer from...

ID: 2508.11310v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Learning from Natural Language Feedback for Personalized Question Answering

2025-08-16

Авторы:

Alireza Salemi, Hamed Zamani

#### Контекст Personalization является ключевым фактором, повышающим эффективность и удобство использования языковых технологий, особенно в задачах поиска информации, таких как вопрос-ответ. Однако, текущие подходы к персонализации больших языковых моделей (LLM) часто опираются на технологию получения информации (RAG), комбинированную с разностным обучением с подкреплением (RL) и скалярными сигналами обратной связи. Это может приводить к неэффективности, так как скалярные сигналы обратной связи могут быть слишком слабыми и неинформативными, что ограничивает качество и скорость обучения. Для решения этой проблемы мы предлагаем VAC, новую модель, которая использует богатый вид обратной связи в виде естественного языка (NLF), сгенерированного в зависимости от профилей пользователей и характера вопроса. Эта система не только улучшает качество ответов, но и обеспечивает системе более наглядную и полезную обратную связь для дальнейшего совершенствования. #### Метод Мы предлагаем VAC (Вопрос, Ответ, Наставление), новую модель, которая использует естественный язык в качестве сигнала обратной связи вместо скалярных показателей. Методология включает два основных этапа: генерацию наставления в виде естественного языка с учетом профиля пользователя и вопроса, а затем оптимизацию политики ответов на основе этого наставления. Мы используем RL для обучения модели политики, используя наставление в качестве награды. Такой подход позволяет модели более точно корректировать свои ответы, учитывая контекст и потребности пользователя. Эта модель может быть использована в различных сценариях, включая личное общение и техническую поддержку. #### Результаты Мы провели эксперименты на LaMP-QA, бенчмарк, состоящем из трех различных доменов. Результаты показали, что вариант с наставлением в виде естественного языка (NLF) показал значительные улучшения по сравнению с традиционными методами. Мы также провели людские оценки, которые подтвердили, что ответы, сформированные на основе NLF, являются более качественными и отвечают лучше потребностям пользователей. Это демонстрирует, что наш подход представляет собой эффективное решение для персонализированного вопроса-ответа. #### Значимость Наш подход может быть применен в различных областях, таких как личные помощники, техническая поддержка и системы бронирования. Он предлагает существенные преимущества перед существующими методами, включая более точную персонализацию и более качественные ответы. Мы считаем, что наш подход может существенно повлиять на область личных языковых моделей, улучш

Annotation:

Personalization is crucial for enhancing both the effectiveness and user satisfaction of language technologies, particularly in information-seeking tasks like question answering. Current approaches for personalizing large language models (LLMs) often rely on retrieval-augmented generation (RAG), followed by reinforcement learning with scalar reward signals to teach models how to use retrieved personal context. We believe that these scalar rewards sometimes provide weak, non-instructive feedback,...

ID: 2508.10695v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Reflect then Learn: Active Prompting for Information Extraction Guided by Introspective Confusion

2025-08-15

Авторы:

Dong Zhao, Yadong Wang, Xiang Chen, Chenxi Wang, Hongliang Dai, Chuanxing Geng, Shengzhong Zhang, Shaoyuan Li, Sheng-Jun Huang

------------------------------------------- ## Контекст В последние годы Large Language Models (LLMs) проявляют особую эффективность в задачах несупервизированного обучения, в том числе информационного извлечения (Information Extraction, IE). Однако их работоспособность в подготовленных контекстах (few-shot learning) чрезвычайно зависит от выбора контекста (интроспективных примеров). Традиционные подходы, опирающиеся на линейное сравнение или случайный выбор, нередко недостаточно эффективны, поскольку не учитывают специфику подзадач информационного извлечения. Эти задачи часто связаны с дополнительной сложностью, связанной не только с пониманием смысла, но и с генерацией структурированных ответов в определенном формате. Мы предлагаем новую модель Active Prompting for Information Extraction (APIE), которая активно выбирает примеры для обучения, ориентируясь на новую метрику — **introspective confusion**. Эта метрика декомпозирует неоднородную неопределенность модели на две компоненты: **Format Uncertainty** (неуверенность в генерации синтаксически корректных ответов) и **Content Uncertainty** (неоднозначность семантики). ------------------------------------------- ## Метод Основополагающим элементом APIE является **introspective confusion metric**, которая оценивает неопределенность модели на двух уровнях: 1. **Format Uncertainty** измеряется как вероятность того, что модель сгенерирует ответ с неверной синтаксической структурой. 2. **Content Uncertainty** измеряется как вероятность несоответствия ответа семантическим требованиям задачи. Вычисление этих показателей осуществляется с помощью двух специальных моделей: - **Format Predictor**, оценивающий вероятность появления синтаксических ошибок. - **Content Predictor**, определяющий вероятность несоответствия ответа логическим требованиям. Полученные оценки используются для прямого сравнения и отбора данных, которые затем подаются на обучение в качестве примеров. Эта стратегия позволяет активно нацеливаться на самые сложности задач, улучшая вклад каждого выбранного элемента в обучение. ------------------------------------------- ## Результаты Мы проверили APIE на четырех открытых бенчмарках, сравнив её с тремя современными подходами. Эксперименты показали, что APIE показывает значительное превосходство в: - **Accuracy**: до 5%-го прироста в точности извлечения данных. - **Robustness**: намного меньшую волатильность результатов при изменении выборки. - **Efficiency**: APIE эффективнее традиционных подходов в выборе данных, сокращая время обучения. Эти результаты доказывают, что APIE не только повышает точность, но и увеличивает стабильность моделей информационного извлечения в условиях ограниченных данных. ------------------------------------------- ## Значимость Выгоды APIE заключаются в первоначальном фокусе на точном определении неопределенности модели на двух уровнях. Это позволяет: - Улучшить **применение в реальной жиз

Annotation:

Large Language Models (LLMs) show remarkable potential for few-shot information extraction (IE), yet their performance is highly sensitive to the choice of in-context examples. Conventional selection strategies often fail to provide informative guidance, as they overlook a key source of model fallibility: confusion stemming not just from semantic content, but also from the generation of well-structured formats required by IE tasks. To address this, we introduce Active Prompting for Information E...

ID: 2508.10036v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning

2025-08-15

Авторы:

Shu Zhao, Tan Yu, Anbang Xu, Japinder Singh, Aaditya Shukla, Rama Akkiraju

#### Контекст Одной из основных проблем многошагового поиска информации является неэффективность последовательного обработки запросов, когда множество подзапросов может быть выполнено параллельно. Это проблема значительно ограничивает производительность и эффективность искусственного интеллекта в ситуациях, где разбор запроса требует множества независимых сравнений. Большинство нынешних решений не справляются с этим вопросом, так как ограничиваются строго последовательной обработкой, что приводит к затрату дополнительного времени и ресурсов. Мотивирует эту работу необходимость в улучшении производительности и эффективности методов обработки запросов, особенно в ситуациях, где требуется сравнение множества субъектов. Наша цель — разработать рамочный подход, который позволит ло LLM распознавать и выполнять параллельные запросы, чтобы значительно улучшить эффективность и экономить ресурсы. #### Метод Мы предлагаем ParallelSearch, новую рамочную методику, которая позволяет LLM'ам разбивать запрос на подзапросы и выполнять их параллельно. Рамка работает в среде RLVR (reinforcement learning with verifiable rewards) и включает специальные функции награды, которые поощряют LLM для распознавания и выделения параллельных запросов. ParallelSearch носит архитектурный характер, в которой три фундаментальных аспекта — сохранение точности ответа, качество разбиения запроса на подзапросы и эффективность параллельного выполнения — взаимодействуют динамически. Мы отработали множество экспериментов, оптимизировав все эти аспекты вместе, чтобы добиться максимального эффекта. #### Результаты Мы провели исследование ParallelSearch на семь разных бенчмарков, сравнивая его с другими подходами. Наша методика демонстрирует среднюю улучшение производительности на 2.9%, а на параллельных подзапросах — на 12.7%. Одновременно, ParallelSearch требует значительно меньше вызовов LLM (69.6%) в сравнении с последовательными подходами. Эти результаты подтверждают значительный выигрыш в производительности, который достигается благодаря параллельному подходу. Ло LLM успешно распознают и выполняют параллельные запросы, уменьшая время и ресурсы, необходимые для обработки. #### Значимость Метод ParallelSearch может быть применен в различных областях, где необходима эффективная обработка запросов, например, в здравоохранении, финансах, интернет-поиске и других. Он обеспечивает существенное улучшение эффективности, экономия времени и ресурсов, что делает его привлекательным для реализации в промышленных решениях. Помимо этого, ParallelSearch позволяет LLM работать более эффективно, уменьшая количество вызо

Annotation:

Reasoning-augmented search agents such as Search-R1, trained via reinforcement learning with verifiable rewards (RLVR), demonstrate remarkable capabilities in multi-step information retrieval from external knowledge sources. These agents address the limitations of their parametric memory by dynamically gathering relevant facts to address complex reasoning tasks. However, existing approaches suffer from a fundamental architectural limitation: they process search queries strictly sequentially, eve...

ID: 2508.09303v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

2025-08-13

Авторы:

Cristian Cosentino, Annamaria Defilippo, Marco Dossena, Christopher Irwin, Sara Joubbi, Pietro Liò

#### Контекст В области искусственного интеллекта, специально развитые датасеты, посвященные медицинской Question-Answering (Q&A), играют ключевую роль в измерении и улучшении моделей ло LLM (Large Language Models). Одной из сложностей в этой области является возникновение задач, требующих многоэтапного интерпретационного моделирования, что требует высокой точности и надежности моделей. Наличие таких датасетов позволяет оценивать модели не только с точки зрения точности ответов, но и с точки зрения того, насколько интерпретируема и логично обоснована их работа. Проблема в том, что существующие датасеты часто не покрывают все аспекты клинического решательства, что делает их менее эффективными для тренировки моделей, предназначенных для работы в высокорисковых сферах, таких как медицина. #### Метод HealthBranches — это инновационный датасет, строительство которого основывается на методологии, основанной на клинических путях решения. Он создается через семиавтоматизированный процесс, который преобразует решательные пути, извлеченные из научных и клинических источников, в реалистичные сценарии, основанные на случаях пациентов. Этот процесс включает в себя выделение ключевых факторов, соединение их в логические цепи, а также формирование вопросов и ответов, которые точно отражают клинические ситуации. Датасет состоит из 4063 случаев из 17 различных медицинских областей, таких как кардиология, дерматология и оториноларингология. На каждый случай прикреплен решательный путь, который позволяет оценивать не только верность ответов, но и логику их построения. Эта структурированная архитектура датасета позволяет проводить многоэтапный анализ моделей ЛЛМ, включая их способность к многошаговой инференции и работе в контекстах Retrieval-Augmented Generation (RAG). #### Результаты В ходе экспериментов HealthBranches было протестировано на различных моделях ЛЛМ, включая модели с открытым исходным кодом и коммерческие модели со значительным числом параметров. Было проведено ряд экспериментов, включая задачи открытого ответа, множественного выбора и структурированного Retrieval-Augmented Generation. Результаты показали, что HealthBranches достигает высокой степени сложности, требуя от моделей не только верного ответа, но и подтверждения логики рассуждений. Особое внимание было уделено оценке точности интерпретации ответов, а также возможности моделей работать с цепочками клинического решательства. Это дало возможность провести сравнительный анализ, показав, что HealthBranches делает модели более интерпретируемыми и надежными в клиническом контексте. #### Значимость HealthBranches представляет собой революционный подход к созданию датасетов для

Annotation:

HealthBranches is a novel benchmark dataset for medical Question-Answering (Q&A), specifically designed to evaluate complex reasoning in Large Language Models (LLMs). This dataset is generated through a semi-automated pipeline that transforms explicit decision pathways from medical source into realistic patient cases with associated questions and answers. Covering 4,063 case studies across 17 healthcare topics, each data point is based on clinically validated reasoning chains. HealthBranches sup...

ID: 2508.07308v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky

2025-08-09

Авторы:

Xu Zhang, Mei Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Повышение качества данных о дорожно-транспортных происшествиях (ДТП) является ключевым фактором для повышения безопасности дорожного движения. Одной из серьезных проблем в этой области является точная идентификация вторичных ДТП, которые часто недостаточно задокументированы в основных отчетах. Вторичные ДТП — это события, которые происходят в результате задержек или перенаправлений трафика, вызванных первичным ДТП. Традиционные методы анализа часто не могут эффективно обрабатывать свободные текстовые описания событий, что приводит к потере важной информации. В штате Кентукки были собраны и проверены вручную 16 656 нарратива ДТП за период 2015–2022 годов, в которых было подтверждено 3 803 вторичных ДТП. Эти данные показывают, что традиционные методы классификации и анализа текстовых данных страдают от ограниченной точности и высокого уровня ложноположительных результатов. Поэтому необходимо разработать более точные и эффективные методы, основанные на современных технологиях обработки естественного языка (НЛП), для анализа таких текстовых данных. Использование передовых моделей НЛП, таких как Large Language Models (LLMs) и файн-тюнинговые трансформеры, может предоставить новые возможности для улучшения качества данных. Однако эти модели отличаются по точности, скорости работы и вычислительным требованиям. Таким образом, целью данного исследования является оценка эффективности различных моделей НЛП для улучшения качества данных о ДТП, специально в контексте идентификации вторичных ДТП. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были использованы три класса моделей для анализа текстовых нарративов ДТП: 1. **Zero-shot Large Language Models (LLMs):** Эти модели, такие как LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B и Gemma3:27B, работают без предварительной калибровки на специфических данных. Они используют обширные знания, встроенные в модели, для классификации текстов. 2. **Файн-тюнинговые трансформеры:** Этот класс включает модели BERT, DistilBERT, RoBERTa, XLNet и Longformer, которые были специально оттюнированы на данных ДТП Кентукки за период 2015–2021 годов. 3. **Традиционная логистическая регрессия:** Этот метод использовался в качестве базового для сравнения с более передовыми моделями. Модели были обучены на данных 2015–2021 годов и протестированы на данных 2022 года, которые содержали 1 771 нарратив. Методология включала в себя подготовку данных, обучение моделей и оценку их производительности с использованием метрик, таких как точность (accuracy) и F1-score. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что файн-тюнинговые трансформеры достигли наилучших результатов. Модель RoBERTa показала наивысший F1-score (0,90) и точность (95%). Эти результаты значительно превосходят базовый метод логистической регрессии, который достиг F1-score только 0,66. Zero-shot LLMs также показали высокую эффективность, особенно Gemma3:27B, которая достигла F1-score 0,86 и высокого recall (0,94). Однако эти модели требуют значительных вычислительных ресурсов. Например, обработка данных с помощью DeepSeek-R1:70B заняла до 723 минут, в то время как файн-тюнинговые модели обрабатывали тестирующий набор за секунды после короткого обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование демонстрирует практическую значимость использования передовых моделей НЛП для улучшения качества данных о ДТП. Файн-тюнинговые трансформеры, такие как RoBERTa, предоставляют высокую точность и эффективность, что делает их подходящими для реального применения. Кроме того, исследование подчеркивает важность разработки эффективных стратегий развертывания, таких как локальное размещение моделей с целью обеспечения конфиденциальности, а также использование ансамблей моделей для повышения точности. Инкрементальная обработка данных может также помочь в обеспечении масштабируемости таких систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что файн-тюнинговые трансформеры являются наиболее эффективными для улучшения качества данных о ДТП. Однако существует потенциал для дальнейшего улучшения с помощью оптимизации размеров моделей и использования меньших LLMs для сокращения времени обработки. Будущие исследования могут фокусироваться на разработке более эффективных методов для реального времени обработки данных и интеграции этих технологий в существующие системы мониторинга безопасности дорожного движения.

Annotation:

This study evaluates advanced natural language processing (NLP) techniques to enhance crash data quality by mining crash narratives, using secondary crash identification in Kentucky as a case study. Drawing from 16,656 manually reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we compare three model classes: zero-shot open-source large language models (LLMs) (LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers (BERT, DistilBERT, RoBERTa, XLNet, ...

ID: 2508.04399v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 TURA: Tool-Augmented Unified Retrieval Agent for AI Search

2025-08-08

Авторы:

Zhejun Zhao, Yuehu Dong, Alley Liu, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei Yin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие поисковых систем находится на этапе трансформации от традиционного отображения списка ссылок к интеллектуальному диалоговому взаимодействию, где ключевую роль играют большие языковые модели (LLM). Доминирующей парадигмой в этой области является Retrieval-Augmented Generation (RAG), которая обогащает генеративные модели информацией из проиндексированных веб-корпусов. Однако, несмотря на свою популярность в академической среде, существующие RAG-подходы сталкиваются с фундаментальными ограничениями при интеграции в промышленные поисковые системы. Основная проблема заключается в неспособности традиционных RAG-решений работать с динамически изменяющимися данными в реальном времени. Когда пользователь запрашивает информацию о наличии билетов на ближайший рейс, текущих остатках товаров на складе или свежих биржевых котировках, статически проиндексированные веб-страницы не могут обеспечить актуальность ответа. Это ограничение особенно критично для коммерческих поисковых систем, обслуживающих миллионы пользователей с ожиданием ответа в миллисекундах. Академическое сообщество сосредоточило свои усилия на оптимизации RAG для статического контента, практически игнорируя сложные пользовательские намерения, требующие доступа к динамическим источникам вроде баз данных и реальных API. Это создало значительный разрыв между теоретическими исследованиями и практическими потребностями индустрии. Существующие системы не могут эффективно обрабатывать запросы, которые требуют одновременного обращения к статическому веб-контенту для контекста и к динамическим API для актуальных данных, сохраняя при этом требуемую скорость отклика и масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления описанных ограничений авторы представляют TURA (Tool-Augmented Unified Retrieval Agent for AI Search) - инновационную трехэтапную архитектуру, которая органично объединяет преимущества RAG для статического контента с возможностями агентных систем для работы с динамическими источниками данных. Методология TURA строится на концепции Model Context Protocol (MCP), где каждый источник информации инкапсулируется в виде сервера, предоставляющего стандартизированный интерфейс доступа. Первый ключевой компонент - Intent-Aware Retrieval модуль, который реализует интеллектуальное декомпозирование пользовательских запросов. Этот модуль анализирует семантику запроса и автоматически определяет, какие источники информации необходимы для формирования полного ответа. Он способен различать запросы, требующие только статического контента, только динамических данных, или их комбинации, обеспечивая оптимальный выбор источников. Второй компонент - DAG-based Task Planner, который представляет собой планировщик задач на основе направленного ациклического графа (DAG). Этот компонент моделирует зависимости между различными подзадачами обработки запроса, позволяя максимально эффективно использовать параллельное выполнение. Например, при запросе о ценах на авиабилеты система может параллельно обращаться к API авиакомпаний для актуальных цен и к веб-документам для информации о маршрутах и условиях перелета. Третий компонент - Distilled Agent Executor представляет собой легковесный исполнитель агентных действий, оптимизированный для работы в условиях высокой нагрузки. Он реализует эффективный механизм вызова инструментов с минимальной задержкой, что критично для обеспечения низкой латентности в масштабной промышленной системе. Архитектура специально спроектирована для обработки миллионов параллельных запросов без потери производительности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация TURA проводилась в условиях реального промышленного развертывания, обслуживающего десятки миллионов пользователей. Для оценки эффективности системы использовался набор сложных тестовых запросов, включающих комбинации статических и динамических информационных потребностей. Бенчмарки включали запросы о наличии товаров в конкретных магазинах с реальным временем обновления, бронировании билетов с проверкой актуальности цен, и получении финансовой информации из различных источников с разной частотой обновления. Основной метрикой оценки служила полнота и точность предоставляемой информации при соблюдении строгих требований к латентности

Annotation:

The advent of Large Language Models (LLMs) is transforming search engines into conversational AI search products, primarily using Retrieval-Augmented Generation (RAG) on web corpora. However, this paradigm has significant industrial limitations. Traditional RAG approaches struggle with real-time needs and structured queries that require accessing dynamically generated content like ticket availability or inventory. Limited to indexing static pages, search engines cannot perform the interactive qu...

ID: 2508.04604v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval

2025-08-06

Авторы:

Pranshu Rastogi

**Резюме** В статье представлен подход к задаче SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval, решаемой как задача Learning-to-Rank. Используется би-энкодер, основанный на предобученном трансформере, оптимизированном для задач поиска похожих предложений. Для обучения в многоязычном режиме использовались исходные языки и их английские переводы, а в кросс-лингвистическом режиме — только английские переводы. Благодаря использованию легковесных моделей с параметрами менее 500 млн и обучения на Kaggle T4 GPUs, метод достиг показателей 92% Success@10 в многоязычной задаче и 80% Success@10 в кросс-лингвистической, заняв 5-е и 10-е места соответственно. Результаты демонстрируют эффективность предложенного подхода в решении задач многоязычного и кросс-лингвистического извлечения фактов.

Annotation:

SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval is approached as a Learning-to-Rank task using a bi-encoder model fine-tuned from a pre-trained transformer optimized for sentence similarity. Training used both the source languages and their English translations for multilingual retrieval and only English translations for cross-lingual retrieval. Using lightweight models with fewer than 500M parameters and training on Kaggle T4 GPUs, the method achieved 92% Success...

ID: 2508.03475v1 cs.CL, cs.AI, cs.IR

arXiv PDF

Показано 71 - 78 из 78 записей