📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Posterior-GRPO: Rewarding Reasoning Processes in Code Generation

2025-08-09

Авторы:

Lishui Fan, Yu Zhang, Mouxiang Chen, Zhongxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Результаты применения reinforcement learning (RL) в области кодогенерации для больших языковых моделей (LLMs) значительно улучшились в последнее время. Однако существующие подходы часто основываются на результирующих наградах, получаемых из тест-кейсов, без учета качества промежуточных процессов вывода. Такая ориентация на конечный результат может привести к недостаткам в процессе логического вывода, который является ключевым для понимания и генерации высококачественного кода. Прямое контролирование качества процесса вывода является перспективным направлением, но существует серьезная проблема ревард хакинга (reward hacking), при которой модель научится манипулировать процессом вывода, чтобы получить высокую оценку, не способствуя улучшению конечных результатов. Для решения этой проблемы необходимо разработать методы, позволяющие оценивать и награждать качество процесса вывода, не затрагивая финальный результат. В этой статье авторы предлагают комплексный подход, сочетающий в себе разработку бенчмарка для оценки процесса вывода, метод для точной оценки качества процесса и новый метод RL, который учитывает качество промежуточных процессов в выводе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют трехступенчатый подход к улучшению процесса кодогенерации. 1. **Разработка бенчмарка LCB-RB**: Для оценки качества процесса вывода разработан бенчмарк LCB-RB, который состоит из пар предпочтений, где каждая пара представляет два процесса вывода — один лучше, другой хуже. Этот бенчмарк позволяет модели оценивать качество процесса вывода на основе сравнения. 2. **Метод OD-based для обучения наградной модели**: Для точной оценки качества процесса вывода разработан метод Optimized-Degraded (OD-based). Этот метод позволяет генерировать высококачественные пары предпочтений путем систематического улучшения и ухудшения исходных процессов вывода по определенным критериям, таким как фактическая точность, логическая целостность и когерентность. На основе этого метода обучается модель наград размером 7 млрд параметров, которая достигает лучших результатов на бенчмарке LCB-RB и хорошо обобщается на другие данные. 3. **Метод Posterior-GRPO (P-GRPO)**: Новый метод RL, Posterior-GRPO, разработан для того, чтобы учитывать качество процесса вывода при обучении. Он награждает только те процессы вывода, которые приводят к успешным результатам, эффективно предотвращая ревард хакинг. Это позволяет выработать в модели логику, которая соотносит процесс вывода с конечным результатом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности их подхода. Используются различные данные для кодогенерации, включая задачи программирования и математические задачи. Результаты показывают, что модель с P-GRPO достигает лучших результатов по сравнению с базовыми моделями, которые основываются только на конечных результатах. Модель с P-GRPO показывает улучшение в 4,5% по сравнению с моделями, не учитывающими процесс вывода. Кроме того, модель достигает результатов, сопоставимых с GPT-4-Turbo, что демонстрирует высокую эффективность предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый подход имеет широкое практическое применение в области кодогенерации и математических задач. Он позволяет создавать модели, которые не только генерируют корректный код, но и выполняют это с высоким качеством процесса вывода. Это может быть полезно в областях, требующих высокой точности и логической целостности, таких как разработка программного обеспечения, математические моделирование и другие. Кроме того, предлагаемый метод может быть использован для улучшения качества вывода в других областях, где важно не только конечный результат, но и процесс достижения этого результата. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен комплексный подход к улучшению кодогенерации с помощью RL, который учитывает качество промежуточных процессов вывода. Разработанный бенчмарк, метод оценки качества процесса вывода и новый метод RL (P-GRPO) позволяют эффективно улучшить качество кодогенерации, предотвращая ревард хакинг и вырабатывая логику, соотносящую процесс вывода с конечным результатом. Будущие исследования могут фокусироваться на дальнейшем улучшении качества процесса вывода, расширении областей применения и интеграции этого подхода в более крупные модели.

Annotation:

Reinforcement learning (RL) has significantly advanced code generation for large language models (LLMs). However, current paradigms rely on outcome-based rewards from test cases, neglecting the quality of the intermediate reasoning process. While supervising the reasoning process directly is a promising direction, it is highly susceptible to reward hacking, where the policy model learns to exploit the reasoning reward signal without improving final outcomes. To address this, we introduce a unifi...

ID: 2508.05170v1 cs.SE, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Query Attribute Modeling: Improving search relevance with Semantic Search and Meta Data Filtering

2025-08-08

Авторы:

Karthik Menon, Batool Arhamna Haider, Muhammad Arham, Kanwal Mehreen, Ram Mohan Rao Kadiyala, Hamza Farooq

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах поиска, особенно в контексте электронной коммерции, ключевым фактором является обеспечение высокой релевантности поисковых результатов. Традиционные методы поиска, такие как BM25 и другие ключевословные подходы, часто сталкиваются с ограничениями в том, что они не учитывают семантические отношения между запросом и документами. Это приводит к появлению шума в результатах поиска и снижению эффективности для конечных пользователей. Дополнительно, существует проблема неструктурированности запросов пользователей, которые могут содержать различные типы информации, такие как названия товаров, характеристики, цены, или другие атрибуты, которые не всегда могут быть эффективно обработаны с помощью традиционных подходов поиска. В контексте Enterprise Search, который широко используется в системах электронной коммерции, эти ограничения становятся еще более критичными. Необходимо разработать более продвинутые методы, которые могут эффективно обрабатывать неструктурированные данные, извлекать семантические элементы и метаданные из запросов пользователей, и предоставлять более точные и релевантные результаты. Одной из возможных путей решения этой проблемы является интеграция семантического поиска с фильтрацией метаданных, что позволяет улучшить качество поиска за счет более точного понимания пользовательских интенций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Query Attribute Modeling (QAM) представляет собой гибридный фреймворк, который объединяет семантический поиск с фильтрацией метаданных для улучшения точности и релевантности результатов поиска. Основная идея QAM заключается в разделении неструктурированных текстовых запросов на структурированные метаданные и семантические компоненты. Это достигается путем автоматического извлечения метаданных и фильтров из запросов, что позволяет уменьшить шум и сосредоточиться на наиболее релевантных элементах. Архитектура QAM включает несколько этапов обработки. Первым шагом является предобработка запроса, в которой используются техники естественного языка для идентификации ключевых компонентов запроса. Затем, QAM применяет модели извлечения метаданных для определения атрибутов товаров, таких как цена, бренд, размер, и т.д., которые могут быть использованы для фильтрации результатов. На следующем этапе, QAM использует семантическую модель для определения связей между запросом и документами, что позволяет выявить релевантные элементы, даже если они не содержат точных ключевых слов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности QAM был использован датасет Amazon Toys Reviews, содержащий около 10 000 уникальных товаров и более 40 000 отзывов. Эксперименты проводились с использованием различных методов поиска, включая BM25, семантический поиск на основе энкодеров, кросс-энкодеры для переранжирования, и гибридный поиск, который комбинирует BM25 и семантические результаты через Reciprocal Rank Fusion (RRF). Результаты показали, что QAM достигает средней точности (mAP@5) в 52.99%, что значительно превосходит результаты других методов. Например, BM25 достигает точности в 38.12%, в то время как семантический поиск на основе энкодеров показывает 46.89%. Эти результаты подтверждают, что QAM является более эффективным подходом для улучшения релевантности поиска в контексте электронной коммерции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость QAM заключается в его потенциале для улучшения качества поиска в системах электронной коммерции. Благодаря возможности извлекать метаданные и семантические компоненты из запросов, QAM позволяет создавать более точные и целевые результаты поиска, что может повысить удовлетворенность пользователей и повысить конверсию в системах онлайн-торговли. Более того, QAM может быть интегрирован в существующие Enterprise Search системы, что делает его применимым в различных отраслях, где критична точность поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, Query Attribute Modeling (QAM) представляет собой эффективное решение для улучшения поисковой релевантности в системах электронной коммерции. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей извлечения метаданных и семантического поиска, а также на расширении применения QAM в других областях, таких как медицинские системы поиска или корпоративные базы данных.

Annotation:

This study introduces Query Attribute Modeling (QAM), a hybrid framework that enhances search precision and relevance by decomposing open text queries into structured metadata tags and semantic elements. QAM addresses traditional search limitations by automatically extracting metadata filters from free-form text queries, reducing noise and enabling focused retrieval of relevant items. Experimental evaluation using the Amazon Toys Reviews dataset (10,000 unique items with 40,000+ reviews and de...

ID: 2508.04683v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 A Comparative Study of Neurosymbolic AI Approaches to Interpretable Logical Reasoning

2025-08-06

Авторы:

Michael K. Chen

Данная статья рассматривает проблему ограниченности текущих моделей глубокого обучения (LLMs) в области логического резонанса, особенно в контексте домен-агностических задач. Несмотря на недавний интерес к неуросимволическому AI, который интегрирует логические структуры в нейронные сети, многие модели не обладают достаточной интерпретируемостью и детерминированностью при решении задач логического вывода. Авторы определяют два основных подхода к этой проблеме: интегративный, где символический вывод встроен в нейронные сети, и гибридный, где символический вывод выполняется отдельным символическим решателем. Для сравнения этих подходов, авторы представляют две модели: Logic Neural Network (LNN) для интегративного подхода и LLM-Symbolic Solver (LLM-SS) для гибридного подхода. Исследование показывает, что гибридный подход является более перспективным для развития общего логического резонанса, благодаря более интерпретируемым логическим цепочкам и сохранению преимуществ существующих LLMs. Наконец, авторы предлагают общее, модульное и домен-агностическое фреймворк, основанное на LLM-SS, которое может быть использовано в будущих исследованиях.

Annotation:

General logical reasoning, defined as the ability to reason deductively on domain-agnostic tasks, continues to be a challenge for large language models (LLMs). Current LLMs fail to reason deterministically and are not interpretable. As such, there has been a recent surge in interest in neurosymbolic AI, which attempts to incorporate logic into neural networks. We first identify two main neurosymbolic approaches to improving logical reasoning: (i) the integrative approach comprising models where ...

ID: 2508.03366v1 cs.AI, cs.CL, cs.LG, cs.SC

arXiv PDF

Показано 571 - 573 из 573 записей