TaoSR1: The Thinking Model for E-commerce Relevance Search
2508.12365v1
cs.IR, cs.AI, cs.CL
2025-08-21
Авторы:
Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang
Резюме на русском
#### Контекст
В последние годы, релевантность поиска в электронной коммерции стала центральной задачей, так как качество поискового запроса определяет удовлетворенность пользователей и показатели продаж. Несмотря на то, что модели типа BERT демонстрируют значительные улучшения в семантическом поиске, они ограничены в своих мощностях рационального продуманного анализа. Большие языковые модели (LLMs), хотя и обладают более высоким потенциалом, обычно используются в дискриминативном режиме или дистилляции для оптимизации производительности в реальном времени. Недостаток логического рассуждения в этих моделях приводит к проблемам, таким как ошибки цепочки мышления (Chain-of-Thought, CoT), приторговывание (hallucination) и сложности при развертывании. Мы предлагаем TaoSR1, новую рамочную модель, которая адресует эти проблемы и вводит новый подход к применению CoT-рассуждений для решения проблемы релевантности.
#### Метод
TaoSR1 основывается на трех этапах обучения и оптимизации:
1. **Supervised Fine-Tuning (SFT) с Chain-of-Thought**: Мы используем CoT для внедрения логического мышления в модель. Это помогает модели логически рассуждать при выполнении задачи.
2. **Offline Sampling c Pass@N и Direct Preference Optimization (DPO)**: Мы используем технику прохождения (Pass@N) и DPO для улучшения результатов поиска. Это позволяет модели лучше выделять и отсортировать варианты.
3. **Difficulty-based Dynamic Sampling с Group Relative Policy Optimization (GRPO)**: Мы применяем динамическое выборничество сложности с использованием GRPO для минимизации риска ошибок.
Кроме того, мы используем пост-CoT обработку и метод разбиения по суммарной вероятности, чтобы обеспечить эффективное развертывание в реальном времени.
#### Результаты
Мы произвели эксперименты на различных данных, включая стандартные наборы для оценки релевантности. Модель TaoSR1 показала значительное превосходство по сравнению с базовыми моделями в контексте математических задач и релевантности поиска. Особенно важно наблюдать, что во время экспериментов, проведенных с принципом side-by-side human evaluation, TaoSR1 превзошла существующие модели, особенно в ситуациях, требующих более высокого уровня логического рассуждения и выбора.
#### Значимость
TaoSR1 предлагает новый подход к решению проблемы релевантности в поисковых запросах. Она может быть применена в различных сферах, включая электронную коммерцию, социальные сети и поиск информации. Ее преимущества заключаются в улучшенной точности и мощности рассуждения, что способствует более удовлетворительному пользовательскому опыту. Будущие исследования будут сконцентрированы на дальнейшем улучшении модели и ее применении в различных контекстах.
#### Выводы
Мы представляем Tao
Abstract
Query-product relevance prediction is a core task in e-commerce search.
BERT-based models excel at semantic matching but lack complex reasoning
capabilities. While Large Language Models (LLMs) are explored, most still use
discriminative fine-tuning or distill to smaller models for deployment. We
propose a framework to directly deploy LLMs for this task, addressing key
challenges: Chain-of-Thought (CoT) error accumulation, discriminative
hallucination, and deployment feasibility. Our framework, TaoSR1, involves
three stages: (1) Supervised Fine-Tuning (SFT) with CoT to instill reasoning;
(2) Offline sampling with a pass@N strategy and Direct Preference Optimization
(DPO) to improve generation quality; and (3) Difficulty-based dynamic sampling
with Group Relative Policy Optimization (GRPO) to mitigate discriminative
hallucination. Additionally, post-CoT processing and a cumulative
probability-based partitioning method enable efficient online deployment.
TaoSR1 significantly outperforms baselines on offline datasets and achieves
substantial gains in online side-by-side human evaluations, introducing a novel
paradigm for applying CoT reasoning to relevance classification.
Ссылки и действия
Дополнительные ресурсы: