📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Milco: Learned Sparse Retrieval Across Languages via a Multilingual Connector

2025-10-04

Авторы:

Thong Nguyen, Yibin Lei, Jia-Huei Ju, Eugene Yang, Andrew Yates

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Learned Sparse Retrieval (LSR) combines the efficiency of bi-encoders with the transparency of lexical matching, but existing approaches struggle to scale beyond English. We introduce MILCO, an LSR architecture that maps queries and documents from different languages into a shared English lexical space via a multilingual connector. MILCO is trained with a specialized two-stage regime that combines Sparse Alignment Pretraining with contrastive training to provide representation transparency and e...

ID: 2510.00671v1 cs.IR, cs.CL

arXiv PDF

📄 Study on LLMs for Promptagator-Style Dense Retriever Training

2025-10-04

Авторы:

Daniel Gwon, Nour Jedidi, Jimmy Lin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Promptagator demonstrated that Large Language Models (LLMs) with few-shot prompts can be used as task-specific query generators for fine-tuning domain-specialized dense retrieval models. However, the original Promptagator approach relied on proprietary and large-scale LLMs which users may not have access to or may be prohibited from using with sensitive data. In this work, we study the impact of open-source LLMs at accessible scales ($\leq$14B parameters) as an alternative. Our results demonstra...

ID: 2510.02241v1 cs.IR, cs.CL

arXiv PDF

📄 From Past To Path: Masked History Learning for Next-Item Prediction in Generative Recommendation

2025-10-01

Авторы:

KaiWen Wei, Kejun He, Xiaomian Kang, Jie Zhang, Yuming Yang, Jiang Zhong, He Bai, Junnan Zhu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Generative recommendation, which directly generates item identifiers, has emerged as a promising paradigm for recommendation systems. However, its potential is fundamentally constrained by the reliance on purely autoregressive training. This approach focuses solely on predicting the next item while ignoring the rich internal structure of a user's interaction history, thus failing to grasp the underlying intent. To address this limitation, we propose Masked History Learning (MHL), a novel trainin...

ID: 2509.23649v1 cs.IR, cs.CL

arXiv PDF

📄 Can Synthetic Query Rewrites Capture User Intent Better than Humans in Retrieval-Augmented Generation?

2025-09-30

Авторы:

JiaYing Zheng, HaiNan Zhang, Liang Pang, YongXin Tong, ZhiMing Zheng

## Контекст Системы мультитурного вопроса-ответа с использованием генерируемых данных (Retrieval-Augmented Generation, RAG) широко применяются для решения задач, требующих анализа контекста и эффективного поиска информации. Однако эти системы часто сталкиваются с запросами, описанными неполно или неточно, что создает проблемы в понимании пользовательского запроса. Одним из ключевых элементов решения этой проблемы является **query rewriting**, т.е. преобразование запроса в более точную и понятную форму. Традиционно это делается с помощью человеческих аннотаторов, которые пытаются разгадать замысел пользователя. Однако их работа часто ограничивается лимитами человеческого понимания и выразительности, что приводит к разрыву между той формой запроса, которую получает модель, и той, которая была задумана пользователем. Такой разрыв может привести к неточным ответам. В этой статье мы рассматриваем возможность использования синтетических запросов, генерируемых моделями, в качестве более эффективного способа передачи пользовательского запроса в систему RAG. ## Метод Мы предлагаем **SynRewrite**, модель, основывающуюся на синтетических данных для генерирования высококачественных переписанных запросов. Метод работает следующим образом: 1. **Синтез данных**: используется GPT-4o, у которого предоставляются диалоговый контекст, текущий запрос, документы и ответы, чтобы генерировать качественные синтетические запросы. 2. **Обучение модели**: полученные данные используются для обучения модели Flan-T5, которая научится преобразовывать диалоговый контекст и запросы в качественные синтетические запросы. 3. **Оптимизация**: для дальнейшего улучшения результатов используется DPO-алгоритм, который позволяет модели подстраиваться под особенности задачи, учитывая ответы генеративной модели. ## Результаты Мы проверили SynRewrite на двух датасетах: TopiOCQA и QRECC. Эксперименты показали, что синтетические запросы, генерируемые SynRewrite, не только существенно превосходят качество результатов, полученных от человеческих переписанных запросов, но и демонстрируют высокую эффективность в обеих задачах: поиске и генерировании. Таким образом, синтетические запросы не только позволяют лучше понять пользовательский запрос, но и упрощают процесс обучения модели RAG, делая ее более эффективной и точной в реальных условиях. ## Значимость Этот подход имеет широкое применение в различных системах, требующих понимания пользовательского запроса, таких как системы поддержки клиентов, системы предоставления информации и системы автоматического обучения. В отличие от традиционных методов, которые тре

Annotation:

Multi-turn RAG systems often face queries with colloquial omissions and ambiguous references, posing significant challenges for effective retrieval and generation. Traditional query rewriting relies on human annotators to clarify queries, but due to limitations in annotators' expressive ability and depth of understanding, manually rewritten queries often diverge from those needed in real-world RAG systems, resulting in a gap between user intent and system response. We observe that high-quality s...

ID: 2509.22325v1 cs.IR, cs.CL

arXiv PDF

📄 Interactive Recommendation Agent with Active User Commands

2025-09-27

Авторы:

Jiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng

## Контекст Современные системы рекомендаций основываются на пассивных механизмах обратной связи, ограничивающих пользователей до базовых вариантов, таких как "лайк" или "дизлайк". Эти простые отзывы не позволяют тщательно расследовать потребности и предпочтения пользователей. Таким образом, рекомендательные системы не могут точно определить, какие конкретные атрибуты товаров или сервисов влияют на удовлетворенность пользователей. Это приводит к ухудшению моделирования предпочтений и, в итоге, к снижению эффективности системы и уменьшению удовлетворенности пользователей. Этот проблемный аспект требует развития новых подходов, которые позволят лучше понять пользователей и улучшить рекомендации. ## Метод Мы предлагаем Interactive Recommendation Feed (IRF) — парадигму, в которой пользователи могут взаимодействовать с рекомендательными системами с помощью естественного языка. Такой подход позволяет пользователям напрямую контролировать рекомендации с помощью реального времени запросов в естественной форме языка. Для реализации этой идеи мы разработали RecBot, двухагентную архитектуру, в которой Parser Agent разбирает естественный язык команд в структурированные предпочтения, а Planner Agent адаптивно меняет политику рекомендации в зависимости от этих предпочтений. Для рациональной реализации в реальном мире мы применяем методы симуляционного знания для эффективного обучения и применения. Это позволяет IRF работать не только на основе данных, но и с учетом реальных факторов взаимодействия. ## Результаты Мы провести несколько экспериментов, обучая RecBot с помощью разных наборов данных и оценили его эффективность. На обучающих этапах мы использовали синтетические данные, а затем провели тестирование в реальной среде. RecBot показал существенные улучшения в удовлетворенности пользователей и в показателях бизнес-отдачи в сравнении с традиционными методами. Наши результаты показали, что пользователи активно используют возможность динамического управления рекомендациями, что приводит к лучшей корреляции рекомендаций с нуждами пользователей. Эти результаты подтверждают, что IRF может значительно повысить эффективность рекомендательных систем. ## Значимость Интерактивная система рекомендаций IRF может быть применена в различных сферах, таких как маркетинг, сервисы поддержки или интеллектуальные системы управления. Особым преимуществом является возможность активного управления рекомендациями, что повышает удовлетворенность пользователей и улучшает бизнес-результаты. Этот подход также может помочь системам быть более прозрачными и удобными для пользователей, что в целом повысит доверие к технологии. Мы в

Annotation:

Traditional recommender systems rely on passive feedback mechanisms that limit users to simple choices such as like and dislike. However, these coarse-grained signals fail to capture users' nuanced behavior motivations and intentions. In turn, current systems cannot also distinguish which specific item attributes drive user satisfaction or dissatisfaction, resulting in inaccurate preference modeling. These fundamental limitations create a persistent gap between user intentions and system interpr...

ID: 2509.21317v1 cs.IR, cs.CL, cs.HC

arXiv PDF

📄 Muse-it: A Tool for Analyzing Music Discourse on Reddit

2025-09-26

Авторы:

Jatin Agarwala, George Paul, Nemani Harsha Vardhan, Vinoo Alluri

#### Контекст Музыка затрагивает многие аспекты человеческой жизни, включая эмоциональные отношения, социальные связи и личностные особенности. Современные общества пользуются разнообразными способами потребления музыки, такими как стриминг, социальные сети и обсуждения в реальном времени. Однако с ростом интернет-активности становится все сложнее выделить природные обсуждения музыки и проанализировать их на больших данных. Традиционные методы исследований не подходят для экологичных данных, получаемых в реальной среде. На сегодняшний день есть необходимость в инструментах, позволяющих эффективно извлекать и анализировать данные из социальных сетей, включая Reddit, где пользователи делятся своими музыкальными предпочтениями в природных условиях. #### Метод Muse-it — это инструмент для извлечения и анализа данных из Reddit, специально разработанный для изучения музыкальных дискурсов. Он позволяет пользователям задавать поисковые запросы, а последующий анализ контента выполняется с помощью технологий NLP. Инструмент может выявлять темы, проводить анализ трендов времени, кластеризировать данные и идентифицировать ссылки на музыкальные ресурсы (например, Spotify). После извлечения данных Muse-it предоставляет метаданные, такие как исполнитель, альбом, дата релиза и жанр. Динамические визуализации и пользовательский интерфейс помогают воспринимать и интерпретировать эти данные. Благодаря своей архитектуре, Muse-it способен обрабатывать большие массивы данных, обеспечивая точность и комплексность анализа. #### Результаты Приложение было применено для анализа дискурса о музыке на Reddit в различных направлениях. Например, были извлечены данные о популярных трендах, новых жанрах и обсуждениях новых релизов. Исследования показали, что Muse-it успешно выявляет связи между обсуждениями и музыкальными ресурсами, такими как Spotify-ссылки. Также были проанализированы временные тренды, помогающие понять, когда и как пользователи обсуждают музыку. Эти результаты демонстрируют широкий потенциал инструмента для отслеживания музыкальных трендов и понимания их социального контекста. #### Значимость Muse-it открывает новые возможности для исследований в области музыкальных дискурсов. Его могут использовать музыкальные эксперты, социологи, психологи и другие специалисты для понимания музыкальных предпочтений на масштабах Internet of Everything. Инструмент помогает выявлять новые тренды, проанализировать эмоциональную сторону обсуждений и получить доступ к реальным мнениям пользователей. Это позволяет провести интерактивные исследования, которые могут влиять на маркетинг, создание контента и

Annotation:

Music engagement spans diverse interactions with music, from selection and emotional response to its impact on behavior, identity, and social connections. Social media platforms provide spaces where such engagement can be observed in natural, unprompted conversations. Advances in natural language processing (NLP) and big data analytics make it possible to analyze these discussions at scale, extending music research to broader contexts. Reddit, in particular, offers anonymity that encourages dive...

ID: 2509.20228v1 cs.IR, cs.CL, cs.HC, cs.MM, cs.SI

arXiv PDF

📄 Agentic AutoSurvey: Let LLMs Survey LLMs

2025-09-25

Авторы:

Yixin Liu, Yonghui Wu, Denghui Zhang, Lichao Sun

## Контекст Современные научные исследования сталкиваются с возрастающими вызовами в синтезе знаний в условиях быстро меняющихся научных областей. Экспоненциальный рост научной литературы требует новых подходов для эффективной синтеза и обобщения информации. Предыдущие методы, такие как AutoSurvey, либо нехватка систематической синтеза информации, либо ограничена своей способностью обеспечить высокую синтетическую качественность. Эти ограничения мотивируют развитие систем, построенных на агентно-агентной архитектуре, для решения этих проблем. ## Метод **Agentic AutoSurvey** — это развитие агентной архитектуры, основанной на команде из четырех специализированных агентов. Каждый агент выполняет роль в конкретной стадии процесса синтеза: **Paper Search Specialist** выбирает и определяет целевые работы, **Topic Mining & Clustering** группирует и структурирует литературу, **Academic Survey Writer** оформляет результаты в научном стиле, а **Quality Evaluator** гарантирует высокое качество исходящих результатов. Эта архитектура объединяет эффективность поиска, интеграции и оценки качества, обеспечивая глубокий анализ и синтез. ## Результаты Исследования проводились на 6 репрезентативных темах из COLM 2024, включая различные аспекты самообучения моделей. Agentic AutoSurvey обрабатывал 75–443 работ на каждой теме (общее число — 847). Многоступенчатый подход достиг 8.18/10 в синтезе информации, что значительно превосходит базовую систему AutoSurvey с результатом 4.77/10. Оценка проводилась по 12-мерной метрике, включающей комплексный анализ организации, синтеза и критического анализа. Эти результаты показывают, что новый подход предлагает значительные улучшения в сравнении с имеющимися методами. ## Значимость Agentic AutoSurvey направлен на область автоматизированного синтеза литературы в научных исследованиях, особенно в быстро меняющихся областях, таких как машинное обучение и глубокое обучение. Эта система может быть применена для создания комплексных обобщений и анализов существующих исследований, уменьшая время и усилия, необходимые для создания обзоров. Её высокая точность и комплексный подход к синтезу делают её привлекательной для научных работников и академических сообществ. ## Выводы Agentic AutoSurvey представляет собой прорыв в области автоматизированного синтеза литературы, обеспечивая более глубокий и точный анализ научных работ. Будущие исследования будут направлены на улучшение методов, расширение поддерживаемых тематик и оптимизацию процесса синтеза для более широкого спектра научных областей.

Annotation:

The exponential growth of scientific literature poses unprecedented challenges for researchers attempting to synthesize knowledge across rapidly evolving fields. We present \textbf{Agentic AutoSurvey}, a multi-agent framework for automated survey generation that addresses fundamental limitations in existing approaches. Our system employs four specialized agents (Paper Search Specialist, Topic Mining \& Clustering, Academic Survey Writer, and Quality Evaluator) working in concert to generate comp...

ID: 2509.18661v1 cs.IR, cs.CL, cs.HC

arXiv PDF

📄 Evaluating the Effectiveness and Scalability of LLM-Based Data Augmentation for Retrieval

2025-09-24

Авторы:

Pranjal A. Chitale, Bishal Santra, Yashoteja Prabhu, Amit Sharma

#### Контекст Данная работа рассматривает проблему эффективности и масштабируемости использования больших языковых моделей (LLM) для дата-аугментации в задачах восстановления информации. Несмотря на то, что сжатые модели двухенкодерного типа (compact dual-encoder models) широко используются в решении задач восстановления, они часто оказываются неэффективными по сравнению с полномасштабными моделями. Это связано с ограниченным мировым знанием этих моделей. Дата-аугментация, основанная на LLM, предлагается как потенциальный путь к улучшению эффективности двухенкодерных моделей. Однако существуют недостатки в понимании ее эффективности и масштабируемости в реальных задачах восстановления. Особенно недостаточно исследований по оптимальному масштабу аугментации, необходимости использования больших моделей для аугментации и влиянию разнообразия аугментационных стратегий на общезначимость решений в OOD (out-of-distribution) ситуациях. Наша работа направлена на систематическое исследование эффективности дата-аугментации LLM в задачах восстановления информации. #### Метод Методология исследования основывается на экспериментальном анализе более чем 100 комбинаций различных моделей восстановления, моделей для дата-аугментации и стратегий их использования. Мы рассматриваем различные масштабы аугментации, включая различные модели LLM и алгоритмы разнообразия. Также мы проводим сравнительный анализ эффективности аугментации в зависимости от уровня предварительной обученности моделей восстановления. Модели дата-аугментации LLM используются для создания дополнительных данных, а эти данные, в свою очередь, используются для обучения и оценки моделей восстановления. Эксперименты проводятся на разнообразных наборах данных, включая данные с OOD условиями, что позволяет оценить уровень общезначимости решений. #### Результаты Наши эксперименты показали, что дата-аугментация действительно улучшает эффективность моделей восстановления, особенно для моделей с недостаточной предварительной обученностью. Однако мы также обнаружили, что преимущества аугментации имеют ограничение, даже при использовании разнообразных стратегий. Мы обнаружили, что необходимость использования больших моделей для дата-аугментации является необязательной, так как модели LLM с меньшим масштабом могут показывать похожий уровень эффективности с большими моделями. Кроме того, мы выявили, что ряд оптимизаций моделей восстановления может улучшить их общезначимость при использовании аугментации. #### Значимость Результаты нашего исследования имеют большую значимост

Annotation:

Compact dual-encoder models are widely used for retrieval owing to their efficiency and scalability. However, such models often underperform compared to their Large Language Model (LLM)-based retrieval counterparts, likely due to their limited world knowledge. While LLM-based data augmentation has been proposed as a strategy to bridge this performance gap, there is insufficient understanding of its effectiveness and scalability to real-world retrieval problems. Existing research does not systema...

ID: 2509.16442v1 cs.IR, cs.CL

arXiv PDF

📄 Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval

2025-09-24

Авторы:

Ruohan Zhang, Jiacheng Li, Julian McAuley, Yupeng Hou

## Контекст Одним из ключевых средств для повышения эффективности генерируемых рекомендательных систем является использование semantic identifiers (IDs), позволяющих адаптировать большие языковые модели для рекомендаций и поиска. Несмотря на позитивные результаты, существующие методы страдают от проблемы semantic ID conflicts, когда семантически близкие документы или элементы получают одинаковые идентификаторы. Чтобы устранить это несоответствие, ранее применялись неэффективные методы, такие как добавление несемантичных токенов, что приводило к ненужным расширениям поискового пространства и ухудшению качества рекомендаций. Мы рассматриваем стратегию purely semantic indexing, которая позволяет устранить конфликты и сохранить семантический смысл при идентификации документов. ## Метод Мы предлагаем метод purely semantic indexing, который позволяет устранить конфликты в semantic IDs с помощью новых моделей. Наши алгоритмы — exhaustive candidate matching (ECM) и recursive residual searching (RRS) — работают с большими выборками документов и моделями, не требуя дополнительных несемантичных токенов. Эти методы используют расширенные вычисления семантических характеристик документов, чтобы сгенерировать уникальные и семантически близкие идентификаторы. Мы также расширяем их возможности, используя модели семантического поиска, чтобы обеспечить эффективность и точность в рекомендациях. ## Результаты Мы проверили эффективность наших методов на данных серьезных пользовательских запросов в следующих областях: системы рекомендаций, поиск продуктов и источников документов. В экспериментах мы сравнивали наши результаты с классическими методами, особое внимание уделяя улучшению показателей в ситуациях cold start, когда рекомендации необходимо давать на основе относительно небольших данных. Эксперименты показали, что our approach significantly improves both overall and cold-start performance, что является свидетельством эффективности и надежности нашего подхода. ## Значимость Предлагаемый подход может быть применен в различных сферах, включая рекомендательные системы, поисковые системы и анализ документов. Он обеспечивает точнее и эффективнее рекомендаций, уменьшает поисковое пространство и повышает качество решений в сложных задачах. Этот подход также может повысить производительность моделей языкового моделирования, обеспечивая лучшую уникальность и семантическую точность в генерируемых данных. ## Выводы Мы представляем новую форму semantic indexing, которая устраняет конфликты в semantic IDs и повышает качество рекомендаций в сложных задачах. Наши результаты показывают, что эти методы эффективны в различных сценариях, в том числе в cold-start ситуациях. Мы планируем продолжить работу над усовершенствованием этой технологии, в том числе расширением ее применения к другим типам моделей и сложным зада

Annotation:

Semantic identifiers (IDs) have proven effective in adapting large language models for generative recommendation and retrieval. However, existing methods often suffer from semantic ID conflicts, where semantically similar documents (or items) are assigned identical IDs. A common strategy to avoid conflicts is to append a non-semantic token to distinguish them, which introduces randomness and expands the search space, therefore hurting performance. In this paper, we propose purely semantic indexi...

ID: 2509.16446v1 cs.IR, cs.CL

arXiv PDF

📄 Long document summarization using page specific target text alignment and distilling page importance

2025-09-24

Авторы:

Pushpa Devi, Ayush Agrawal, Ashutosh Dubey, C. Ravindranath Chowdary

#### Контекст В условиях быстрого роста текстовых данных в областях новостей, законодательства, медицины и науки возникает вызов по эффективному доступу и пониманию больших объемов информации. Эта сложность затрудняет пользователям эффективно извлекать ключевую информацию. Таким образом, появляется необходимость в методах суммаризации. Для кратких документов существуют многочисленные решения, но для документов длинной области проблемы и ограничено литературы. Большинство работ посвящены абстрактивной суммаризации с использованием BART, но у этого подхода есть ограничение в окне контекста. Наша работа ставит цель создать модель, которая может эффективно работать с длинными документами, учитывая их структуру и информативность страниц. #### Метод Мы предлагаем два подхода к суммаризации длинных документов: **PTS (Page-specific Target-text alignment Summarization)** и **PTSPI (Page-specific Target-text alignment Summarization with Page Importance)**. Основная идея заключается в разделении исходного документа на отдельные страницы и создании абстрактивных частичных суммарий для каждой страницы. **PTS** расширяет стандартный подход seq-to-seq, анализируя каждую страницу и вырабатывая непосредственное соответствие с соответствующей частью целевого текста. **PTSPI** расширяет PTS, добавляя слой, который учитывает информативность каждой страницы. Этот слой применяет динамический вес каждой странице, обеспечивая более точный выбор информации. Модели развертываются с помощью последовательно-последовательного подхода, где каждая страница анализируется независимо, а результаты объединяются в конечный суммаризованный текст. #### Результаты Мы провели эксперименты с использованием б BENCHMARK-датасета. Для оценки результатов применены метрики ROUGE-1 и ROUGE-2. Модель PTSPI показала значительное превосходство перед состоянием технологии (SOTA), достигнув роста в 6.32% в ROUGE-1 и 8.08% в ROUGE-2. Эти результаты подтверждают эффективность нашего подхода в суммаризации длинных документов, учитывая их структуру и информативность. Мы также проверили устойчивость нашей модели к различным типам документов, в том числе новостного, юридического и медицинского характера. #### Значимость Наш подход имеет широкие возможности применения в сферах, где требуется эффективная обработка и суммаризация больших текстов, таких как юридические документы, медицинские отчеты, научные публикации и новости. Особый привлекательностью является возможность учитывать информативность каждой страницы. Это позволяет повысить качество выделения ключевых сведений и снизить вероятность упущений важных деталей

Annotation:

The rapid growth of textual data across news, legal, medical, and scientific domains is becoming a challenge for efficiently accessing and understanding large volumes of content. It is increasingly complex for users to consume and extract meaningful information efficiently. Thus, raising the need for summarization. Unlike short document summarization, long document abstractive summarization is resource-intensive, and very little literature is present in this direction. BART is a widely used effi...

ID: 2509.16539v1 cs.IR, cs.CL

arXiv PDF

Показано 31 - 40 из 67 записей