📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction

2025-08-09

Авторы:

Mohammed Daba, Jing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Роботизированная манипуляция текстильных изделий, такая как двуручное выравнивание (bimanual smoothing), представляет собой значительную проблему в области робототехники. Эта задача характеризуется высокой размерностью, сложностью динамики и внутрикатегорийными различиями, что делает ее одной из наиболее сложных для решения. Существующие подходы либо переобучаются на визуальных признаках для конкретного экземпляра, либо, несмотря на общую категорийную перцептивную универсальность, не могут точно предсказывать эффективность синергических двуручных действий. Это ограничивает их применимость в реальных условиях. Для достижения успешного выравнивания гардеробных предметов необходимо решать две ключевые проблемы: общую категорийную обобщенность и точность предсказания эффективности двуручных действий. В настоящее время многие методы используют визуальные данные, но страдают от переобучения на конкретные экземпляры или не могут эффективно обобщаться на невиденные ранее объекты. Это особенно актуально в контексте высокой сложности и динамических изменений текстильных материалов. Предлагаемый подход, основанный на обработке 3D-точечных облаков, предназначен для преодоления этих проблем, обеспечивая устойчивость к внутрикатегорийным изменениям и повышая эффективность двуручного выравнивания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанная модель, Feature-Conditioned Bimanual Value Network (FCBV-Net), основывается на обработке 3D-точечных облаков для улучшения общей категорийной обобщенности в задаче выравнивания гардеробных предметов. Основная идея FCBV-Net заключается в кондиционировании предсказания значений двуручных действий (bimanual action value) на основе предварительно обученных и замороженных плотных геометрических признаков. Эти признаки обеспечивают высокую устойчивость к внутрикатегорийным различиям гардеробных изделий. Архитектура FCBV-Net состоит из двух основных компонентов: статических геометрических фильтров и обучаемых компонентов, отвечающих за конкретную политику. Предварительно обученные геометрические фильтры позволяют эффективно извлекать ключевые геометрические характеристики из 3D-точечных облаков, не требуя дополнительного обучения. Затем, обучаемые компоненты используют эти признаки для предсказания оптимальных двуручных действий, что обеспечивает высокую эффективность и категорийную обобщенность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FCBV-Net проведены эксперименты в симуляторе GarmentLab с использованием датасета CLOTH3D. Результаты демонстрируют значительное превосходство FCBV-Net по отношению к существующим подходам. В частности, FCBV-Net показала только 11,5% потерь в эффективности (Steps80) на невиденных ранее изделиях, в то время как 2D-базовая модель испытала 96,2% потерь. Также, FCBV-Net достигла 89% финального покрытия (coverage), превосходя 83% покрытия, достигнутого 3D-моделью на основе предопределенных примитивов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель имеет широкое применение в области робототехники, особенно в сфере автоматической обработки и выравнивания текстильных изделий. Её преимущества включают высокую категорийную обобщенность, устойчивость к изменениям формы и структуры текстильных материалов, а также эффективность в решении сложных двуручных задач. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FCBV-Net представляет собой важный шаг вперед в области роботизированной манипуляции текстильными изделиями. Её успех заключается в декуплировании геометрического понимания от обучения политик действий, что обеспечивает лучшую категорийную обобщенность. В будущем предлагается расширить этот подход на более широкий класс задач роботизированной манипуляции и исследовать его применимость в реальных условиях.

Annotation:

Category-level generalization for robotic garment manipulation, such as bimanual smoothing, remains a significant hurdle due to high dimensionality, complex dynamics, and intra-category variations. Current approaches often struggle, either overfitting with concurrently learned visual features for a specific instance or, despite category-level perceptual generalization, failing to predict the value of synergistic bimanual actions. We propose the Feature-Conditioned Bimanual Value Network (FCBV-Ne...

ID: 2508.05153v1 cs.RO, cs.AI, I.2.9; I.2.6; I.4.8

arXiv PDF

📄 Domain-driven Metrics for Reinforcement Learning: A Case Study on Epidemic Control using Agent-based Simulation

2025-08-09

Авторы:

Rishabh Gaur, Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка агентных моделей (ABM) и рациональных агентных моделей (RABM) для сложных социальных систем представляет собой быстро развивающуюся область исследований, особенно в контексте моделирования распространения инфекционных заболеваний. Традиционные эпидемиологические модели, такие как модели SIR/SEIR, ограничены в своей способности учитывать поведенческие аспекты населения и динамику принятия решений индивидуальными агентами. В ответ на эти ограничения исследователи активно внедряют методы обучения с подкреплением (RL) для оптимизации поведения агентов в ABM/RABM, что позволяет моделировать адаптивное поведение в условиях пандемии, включая ношение масок, вакцинацию и соблюдение карантинных мер. Однако существует критическая проблема оценки эффективности RL-алгоритмов в таких сложных стохастических системах. Традиционные метрики RL, такие как совокупное вознаграждение или скорость сходимости, не учитывают специфику прикладной области и могут давать искаженное представление о качестве политики в контексте общественного здравоохранения. Например, политика, максимизирующая экономическую активность, может привести к катастрофическим последствиям в виде высокой смертности. Отсутствие стандартизированных, ориентированных на предметную область метрик затрудняет сравнение различных RL-алгоритмов и их применение в критически важных сферах, таких как реагирование на пандемические угрозы. Авторы статьи подчеркивают, что существующие подходы к оценке RL-моделей в эпидемиологическом моделировании игнорируют ключевые аспекты: динамику изменения поведения населения, неравномерный доступ к ресурсам (например, маскам или вакцинам), а также морально-этические аспекты принятия решений. Эти пропуски в методологии оценки могут привести к разработке политик, которые формально оптимальны с точки зрения RL-метрик, но неприемлемы или вредны в реальном мире. Исследование направлено на разработку комплексной системы метрик, которая учитывает как традиционные показатели эффективности RL, так и критически важные для общественного здравоохранения аспекты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют новую систему метрик "Domain-driven-RL-metrics", которая интегрирует традиционные RL-показатели с предметно-ориентированными метриками, специфичными для эпидемиологического моделирования. Методология строится на трехуровневой архитектуре оценки: базовом уровне RL-метрик, промежуточном уровне адаптированных эпидемиологических показателей и верхнем уровне комплексных метрик общественного здравоохранения. На базовом уровне используются стандартные RL-метрики: совокупное вознаграждение, скорость обучения, стабильность политики и разнообразие поведения. Однако эти метрики дополняются специфическими весами, отражающими приоритеты в области здравоохранения. Например, компонент вознаграждения за снижение смертности получает экспоненциально возрастающий вес по мере роста показателей смертности. Промежуточный уровень включает адаптированные эпидемиологические показатели: эффективное репродуктивное число (Rt), учитывающее поведенческие изменения; интегрированную нагрузку на систему здравоохранения, включающую не только количество госпитализаций, но и стратификацию по возрасту и коморбидностям; метрики экономического бремени, связанные с потерей рабочих дней и затратами на лечение. Особое внимание уделяется метрикам неравенства в доступе к средствам защиты, где вводится коэффициент Джини для распределения масок и вакцин среди различных социоэкономических групп. Верхний уровень представлен комплексными метриками, объединяющими показатели предыдущих уровней. Ключевыми являются: "Сбалансированный индекс пандемического отклика" (BPR), который взвешивает снижение смертности, экономические потери и социальное неравенство; "Индект устойчивости политики", оценивающий гибкость стратегии при появлении новых штаммов; и "Метрика общественного доверия", отражающая динамику комплаентности населения в ответ на рекомендации. Эти метрики рассчитываются как взвешенные комбинации базовых показ

Annotation:

For the development and optimization of agent-based models (ABMs) and rational agent-based models (RABMs), optimization algorithms such as reinforcement learning are extensively used. However, assessing the performance of RL-based ABMs and RABMS models is challenging due to the complexity and stochasticity of the modeled systems, and the lack of well-standardized metrics for comparing RL algorithms. In this study, we are developing domain-driven metrics for RL, while building on state-of-the-art...

ID: 2508.05154v1 cs.LG, cs.AI

arXiv PDF

📄 Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models

2025-08-09

Авторы:

Mason Nakamura, Saaduddin Mahmud, Kyle H. Wray, Hamed Zamani, Shlomo Zilberstein

## КОНТЕКСТ И ПРОБЛЕМАТИКА Актуальность выравнивания больших языковых моделей (LLM) с человеческими предпочтениями выросла стремительно после появления ChatGPT, Claude и других систем общего назначения. Без финего выравнивания даже самые мощные модели продолжают порождать вредоносный, токсичный или просто неполезный контент, что делает их непригодными для коммерческого и корпоративного использования. Традиционные подходы к выравниванию опираются на дорогостоящий процесс RLHF (Reinforcement Learning from Human Feedback), включающий подготовку тысяч человеческих примеров, обучение отдельной reward-модели и дальнейший финетюнинг целевой LLM. Этот процесс может занимать недели и требовать десятков тысяч долларов GPU-времени, что делает его недоступным для большинства исследователей и малых компаний. Альтернативой является выравнивание во время инференса (inference-time alignment), при котором модель не переобучается, а лишь переупорядочивает или фильтрует уже сгенерированные кандидаты с помощью reward-модели. Однако существующие методы (best-of-N sampling, beam search, MCTS и др.) либо не учитывают стоимость инференса, либо требуют доступа к градиентам модели, либо не способны балансировать между множественными целями (например, «ответь кратко, но будь полезен»). Критическая проблема — отсутствие практичного решения для сценариев, где разрешено сделать всего 1-3 вызова модели. В таких условиях даже обычный best-of-N терпит неудачу: он просто выбирает лучший из N кандидатов, не имея возможности «подсказать» модели, как улучшить ответ. Накопленный практический опыт показывает, что пользователи готовы жертвовать частью качества ради скорости и дешевизны, но ни одна из текущих систем не позволяет явно задать бюджет инференса и получить максимально возможное качество в рамках этого бюджета. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают HIA (Heuristic-Guided Inference-time Alignment) — метод, который не требует дообучения LLM, работает в «черном ящике» (достаточно лишь API модели) и позволяет строго ограничить число обращений к модели. HIA состоит из трёх ключевых компонентов. Во-первых, легковесный prompt-optimizer на основе «heuristic reward model» (HRM) — маленькой (≈ 770 M параметров) обученной модели, которая по тексту промпта и кандидат-ответа выдаёт скалярную оценку качества. HRM обучается на публичных датасетах с человеческими предпочтениями и потому не требует дорогостоящей разметки. В отличие от крупных reward-моделей в RLHF, HRM работает за доли секунды и может быть запущена локально на CPU. Вторая часть — двухэтапная фильтрация. На первом этапе («exploration») из исходного prompt генерируется k кандидат-ответов (обычно k ≤ 4). HRM оценивает каждый кандидат и выбирает лучший. Однако вместо того чтобы сразу отдавать его пользователю, HIA переходит ко второму этапу («refinement»). Лучший кандидат вместе с кратким «heuristic feedback» (например, «слишком длинный, добавь пример») подаётся обратно в LLM с просьбой улучшить. В результате получается окончательный ответ. Весь процесс расходует ровно k+1 вызовов модели, что позволяет заранее задать бюджет. Третье новшество — многокритериальная оптимизация. HRM может быть обучен одновременно по нескольким осям (helpfulness, conciseness, harmlessness). Во время инференса пользователь задаёт желаемый вектор приоритетов (например, «безопасность важнее краткости»), и HRM автоматически пересчитывает скалярную награду как взвешенную сумму. Это позволяет персонализировать поведение модели без переобучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки качества использовались два публичных набора реальных промптов: HelpSteer (19 200 примеров с 4-уровневой шкалой полезности) и ComPRed (6 000 промптов с критериями полезности, правдивости, краткости и безопасности). В экспериментах сравнивались четыре метода: (1) жадный генерация (Greedy), (2) best-of-N, (3) beam search с шириной N, (4) предложенный HIA при одинаковом общем бюджете вызовов k+1. В качестве backbone-мод

Annotation:

Aligning LLMs with user preferences is crucial for real-world use but often requires costly fine-tuning or expensive inference, forcing trade-offs between alignment quality and computational cost. Existing inference-time methods typically ignore this balance, focusing solely on the optimized policy's performance. We propose HIA (Heuristic-Guided Inference-time Alignment), a tuning-free, black-box-compatible approach that uses a lightweight prompt optimizer, heuristic reward models, and two-stage...

ID: 2508.05165v1 cs.LG, cs.AI, cs.CL, I.2.7; I.2.6; I.2.8

arXiv PDF

📄 Posterior-GRPO: Rewarding Reasoning Processes in Code Generation

2025-08-09

Авторы:

Lishui Fan, Yu Zhang, Mouxiang Chen, Zhongxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Результаты применения reinforcement learning (RL) в области кодогенерации для больших языковых моделей (LLMs) значительно улучшились в последнее время. Однако существующие подходы часто основываются на результирующих наградах, получаемых из тест-кейсов, без учета качества промежуточных процессов вывода. Такая ориентация на конечный результат может привести к недостаткам в процессе логического вывода, который является ключевым для понимания и генерации высококачественного кода. Прямое контролирование качества процесса вывода является перспективным направлением, но существует серьезная проблема ревард хакинга (reward hacking), при которой модель научится манипулировать процессом вывода, чтобы получить высокую оценку, не способствуя улучшению конечных результатов. Для решения этой проблемы необходимо разработать методы, позволяющие оценивать и награждать качество процесса вывода, не затрагивая финальный результат. В этой статье авторы предлагают комплексный подход, сочетающий в себе разработку бенчмарка для оценки процесса вывода, метод для точной оценки качества процесса и новый метод RL, который учитывает качество промежуточных процессов в выводе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют трехступенчатый подход к улучшению процесса кодогенерации. 1. **Разработка бенчмарка LCB-RB**: Для оценки качества процесса вывода разработан бенчмарк LCB-RB, который состоит из пар предпочтений, где каждая пара представляет два процесса вывода — один лучше, другой хуже. Этот бенчмарк позволяет модели оценивать качество процесса вывода на основе сравнения. 2. **Метод OD-based для обучения наградной модели**: Для точной оценки качества процесса вывода разработан метод Optimized-Degraded (OD-based). Этот метод позволяет генерировать высококачественные пары предпочтений путем систематического улучшения и ухудшения исходных процессов вывода по определенным критериям, таким как фактическая точность, логическая целостность и когерентность. На основе этого метода обучается модель наград размером 7 млрд параметров, которая достигает лучших результатов на бенчмарке LCB-RB и хорошо обобщается на другие данные. 3. **Метод Posterior-GRPO (P-GRPO)**: Новый метод RL, Posterior-GRPO, разработан для того, чтобы учитывать качество процесса вывода при обучении. Он награждает только те процессы вывода, которые приводят к успешным результатам, эффективно предотвращая ревард хакинг. Это позволяет выработать в модели логику, которая соотносит процесс вывода с конечным результатом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности их подхода. Используются различные данные для кодогенерации, включая задачи программирования и математические задачи. Результаты показывают, что модель с P-GRPO достигает лучших результатов по сравнению с базовыми моделями, которые основываются только на конечных результатах. Модель с P-GRPO показывает улучшение в 4,5% по сравнению с моделями, не учитывающими процесс вывода. Кроме того, модель достигает результатов, сопоставимых с GPT-4-Turbo, что демонстрирует высокую эффективность предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый подход имеет широкое практическое применение в области кодогенерации и математических задач. Он позволяет создавать модели, которые не только генерируют корректный код, но и выполняют это с высоким качеством процесса вывода. Это может быть полезно в областях, требующих высокой точности и логической целостности, таких как разработка программного обеспечения, математические моделирование и другие. Кроме того, предлагаемый метод может быть использован для улучшения качества вывода в других областях, где важно не только конечный результат, но и процесс достижения этого результата. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен комплексный подход к улучшению кодогенерации с помощью RL, который учитывает качество промежуточных процессов вывода. Разработанный бенчмарк, метод оценки качества процесса вывода и новый метод RL (P-GRPO) позволяют эффективно улучшить качество кодогенерации, предотвращая ревард хакинг и вырабатывая логику, соотносящую процесс вывода с конечным результатом. Будущие исследования могут фокусироваться на дальнейшем улучшении качества процесса вывода, расширении областей применения и интеграции этого подхода в более крупные модели.

Annotation:

Reinforcement learning (RL) has significantly advanced code generation for large language models (LLMs). However, current paradigms rely on outcome-based rewards from test cases, neglecting the quality of the intermediate reasoning process. While supervising the reasoning process directly is a promising direction, it is highly susceptible to reward hacking, where the policy model learns to exploit the reasoning reward signal without improving final outcomes. To address this, we introduce a unifi...

ID: 2508.05170v1 cs.SE, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Refining Gaussian Splatting: A Volumetric Densification Approach

2025-08-09

Авторы:

Mohamed Abdul Gafoor, Marius Preda, Titus Zaharia

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) представляет собой революционный метод рендеринга, который позволяет синтезировать новые ракурсы 3D-сцен с высокой точностью и в реальном времени. Метод использует точечные примитивы в виде 3D-гауссиан для представления сцены, что обеспечивает эффективное хранение данных и быструю визуализацию. Однако качество синтеза новых ракурсов напрямую зависит от эффективности управления этими точечными примитивами - их количества, распределения и характеристик. Существующий механизм адаптивного управления плотностью (Adaptive Density Control, ADC) в стандартной реализации 3DGS автоматизирует процессы уплотнения (densification) и обрезки (pruning) гауссиан. Этот процесс критически важен, так как оптимальное количество гауссиан влияет как на качество реконструкции, так и на вычислительную эффективность системы. Однако стандартная стратегия уплотнения в 3DGS демонстрирует ряд существенных недостатков. Ключевые проблемы включают неэффективное распределение гауссиан в пространстве, что приводит к перерасходу вычислительных ресурсов в менее важных областях и недостаточному покрытию критически важных участков сцены. Кроме того, существующий подход не учитывает важные геометрические характеристики гауссиан, такие как их ориентация и протяженность, что может привести к появлению артефактов в синтезированных изображениях. Отдельной проблемой является инициализация системы. Традиционно используется метод Structure from Motion (SfM) для получения начальной облачной точек, но современные методы глубокого сопоставления изображений (Deep Image Matching, DIM) могут предложить более точную и полную инициализацию. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод управления плотностью, который использует объемы инерции, связанные с каждым гауссианом, для направления процесса уточнения. Объем инерции представляет собой меру распределения массы вокруг осей вращения и учитывает как размер, так и ориентацию гауссиана в 3D-пространстве. Методология основана на следующих ключевых принципах: во-первых, каждый гауссиан характеризуется не только своими позиционными параметрами, но и своим тензором инерции, который отражает его геометрическую сущность. Это позволяет более точно определить области пространства, где требуется дополнительное уплотнение. Во-вторых, вводится новый критерий разбиения гауссиан, который учитывает не только градиенты ошибки реконструкции, но и отношение объема инерции к эффективному объему покрытия. Архитектура метода включает несколько ключевых компонентов: модуль вычисления объемов инерции для каждого гауссиана в реальном времени, механизм адаптивного определения порогов разбиения на основе локальных характеристик сцены, и алгоритм интеллектуального слияния близлежащих гауссианов, которые оказываются избыточными. Особое внимание уделяется балансу между качеством реконструкции и вычислительной эффективностью. Предложенный метод динамически регулирует уровень детализации в различных частях сцены, увеличивая плотность гауссиан в областях высокой частоты деталей и уменьшая в однородных регионах. Это достигается через многоуровневую схему оценки важности, где учитывается вклад каждого гауссиана в итоговое качество рендеринга. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная оценка проводилась на обширном наборе данных Mip-NeRF 360, который включает разнообразные сцены как внутренних, так и наружных пространств с различными освещениями и уровнями детализации. Датасет был выбран как стандартный бенчмарк для оценки качества нового синтеза ракурсов. Сравнение проводилось между стандартным 3DGS и предложенным методом, а также исследовалось влияние различных методов инициализации. Для инициализации использовались два подхода: традиционный Structure from Motion (SfM) и современный Deep Image Matching (DIM). Оказалось, что DIM обеспечивает более плотную и точную начальную облачную точек, что особенно важно для сцен с повторяющимися текстурами или слабыми текстурными признак

Annotation:

Achieving high-quality novel view synthesis in 3D Gaussian Splatting (3DGS) often depends on effective point primitive management. The underlying Adaptive Density Control (ADC) process addresses this issue by automating densification and pruning. Yet, the vanilla 3DGS densification strategy shows key shortcomings. To address this issue, in this paper we introduce a novel density control method, which exploits the volumes of inertia associated to each Gaussian function to guide the refinement pro...

ID: 2508.05187v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 Incident Response Planning Using a Lightweight Large Language Model with Reduced Hallucination

2025-08-09

Авторы:

Kim Hammar, Tansu Alpcan, Emil C. Lupu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире, где киберугрозы становятся все более частыми и сложными, своевременная и эффективная реагирование на инциденты является критическим фактором обеспечения безопасности. Однако определение правильных действий по реагированию для сложных систем представляет собой значительную техническую проблему. Традиционные методы часто требуют больших ресурсов и не всегда обеспечивают оптимальные решения. Одним из перспективных подходов к решению этой проблемы является использование больших языковых моделей (LLMs), которые включают в себя обширные знания в области кибербезопасности. Эти модели могут помочь операторам безопасности в процессе реагирования на инциденты, предоставляя рекомендации и планы действий. Однако существующие методы, основанные на prompt engineering фронтирных LLMs, столкнулись с рядом проблем. Во-первых, они являются дорогостоящими в использовании. Во-вторых, они часто вызывают галлюцинации — неточные или неправильные ответы, что может привести к нежелательным последствиям в критически важных ситуациях. В данной работе авторы предлагают новый подход к использованию LLMs для планирования реагирования на инциденты, который снижает вероятность галлюцинаций и одновременно остается легковесным и эффективным с точки зрения вычислительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод состоит из трех основных этапов: fine-tuning, информационный поиск и планирование с просмотром вперед (lookahead planning). 1. **Fine-tuning**: На этом этапе модель обучается на специфических данных, связанных с кибербезопасностью, что позволяет адаптировать ее к конкретной области использования. Это помогает улучшить точность и релевантность получаемых ответов. 2. **Информационный поиск**: Этот этап включает в себя поиск и извлечение релевантной информации из базы знаний или документов, связанных с конкретным инцидентом. Это помогает модели получать более точную информацию, необходимую для генерации плана действий. 3. **Lookahead Planning**: На последнем этапе модель использует полученную информацию для создания плана действий с учетом возможных последствий каждого шага. Этот подход позволяет снизить вероятность галлюцинаций, так как модель проверяет каждый шаг плана перед его финальным формированием. Авторы доказывают, что при использовании этого метода вероятность галлюцинаций может быть сделана произвольно малой за счет увеличения времени планирования при определенных условиях. Кроме того, метод является легковесным и может работать на обычном оборудовании, что делает его доступным для широкого круга пользователей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели эксперименты на данных из логов инцидентов, описанных в литературе. Результаты показали, что метод достигает до 22% более коротких времени восстановления после инцидентов по сравнению с фронтирными LLMs. Кроме того, метод демонстрирует хорошую адаптацию к различным типам инцидентов и реакционным действиям, что подтверждает его широкую применимость. Эксперименты также показали, что метод может быть эффективен даже при ограниченных вычислительных ресурсах, что делает его практичным для реального применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для области кибербезопасности. Он может быть использован для улучшения процесса реагирования на инциденты, что в свою очередь помогает снизить время восстановления и снизить вероятность возникновения дополнительных угроз. Одним из главных преимуществ этого метода является его легковесность и возможность использования на обычном оборудовании, что делает его доступным для малого и среднего бизнеса, а также для организаций с ограниченными бюджетами. Кроме того, метод позволяет снизить вероятность галлюцинаций, что является критическим фактором для принятия верных решений в критически важных ситуациях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был представлен новый подход к использованию LLMs для планирования реагирования на инциденты с уменьшенной вероятностью галлюцинаций. Этот метод демонстрирует значительные преимущества по сравнению с традиционными подходами, включая уменьшение времени восстановления и широкую адаптацию к различным типам инцидентов. В будущем, исследования могут быть направлены на дальнейшее улучшение точности и эффективности метода, а также на разработку более продвинутых методов для снижения вероятности галлюцинаций. Кроме того, может быть исследована возможность интеграции этого метода с другими системами кибербезопасности для создания более комплексных решений.

Annotation:

Timely and effective incident response is key to managing the growing frequency of cyberattacks. However, identifying the right response actions for complex systems is a major technical challenge. A promising approach to mitigate this challenge is to use the security knowledge embedded in large language models (LLMs) to assist security operators during incident handling. Recent research has demonstrated the potential of this approach, but current methods are mainly based on prompt engineering of...

ID: 2508.05188v1 cs.CR, cs.AI

arXiv PDF

📄 QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

2025-08-09

Авторы:

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Retrieval-Augmented Generation (RAG) является передовым подходом в Multimodal Large Language Models (MLLMs), направленным на снижение риска галлюцинаций в процессе генерации ответов. Он дополняет модели внешним знанием, что делает его весьма эффективным для решения задач Knowledge-Intensive Visual Question Answering (VQA). Тем не менее, существующие методы RAG часто ограничены возможностями поиска, осуществляющегося либо в текстовой, либо в визуальной области, что ограничивает их способность обрабатывать сложные запросы, требующие мульти-хоп рассуждений или актуального фактического знания. В попытке решить эту проблему, авторы предлагают QA-Dragon, систему, оптимизированную для мультимодальных, много-хоп и много-турных задач Вопрос-Ответ. QA-Dragon предназначен для работы в сложных сценариях, где требуется комбинация текстовых и визуальных данных для построения точного ответа. Однако, сложность таких задач заключается в том, что традиционные методы поиска не всегда могут эффективно обрабатывать запросы, которые требуют контекстуального поиска в разных доменах. Дополнительным вызовом является необходимость в поиске решений, которые могут динамически адаптироваться к конкретным доменам запроса. Такие запросы могут включать в себя не только текстовые, но и визуальные компоненты, что делает необходимым создание системы, способной динамически выбирать оптимальные стратегии поиска в зависимости от характеристик запроса. ## ПРЕДЛОЖЕННЫЙ МЕТОД QA-Dragon представляет собой Query-Aware Dynamic RAG System, который построен на основе двух ключевых компонентов: **domain router** и **search router**. **Domain router** отвечает за определение домена запроса, что позволяет системе выполнять доменно-специфичное рассуждение. **Search router**, в свою очередь, динамически выбирает оптимальную стратегию поиска, в зависимости от характеристик запроса. Эти компоненты работают вместе, чтобы координировать поиск в текстовых и визуальных источниках, обеспечивая гибридную стратегию поиска. В основе QA-Dragon лежит модель, которая позволяет производить мультимодальное, много-хоп и много-турное рассуждение. Это достигается за счет использования гибридного подхода, который комбинирует текстовый и визуальный поиск. Такой подход позволяет системе эффективно обрабатывать запросы, которые требуют интеграции информации из разных источников для построения контекстуального и точного ответа. Кроме того, QA-Dragon включает в себя механизмы для адаптивного управления поиском, что позволяет ему быть более эффективным в решении сложных задач. Эта система также поддерживает много-турный поиск, что делает его пригодным для задач, требующих последовательного выявления информации из разных источников. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ QA-Dragon был протестирован на Meta CRAG-MM Challenge в рамках KDD Cup 2025. Эксперименты показали значительное улучшение результатов по сравнению со стандартными подходами. Система показала рост точности ответов на 5.06% в задачах с одним источником, 6.35% в мульти-источниковых задачах и 5.03% в много-турных задачах. Эксперименты проводились на многомодальных данных, которые включали в себя как текстовые, так и визуальные компоненты. QA-Dragon продемонстрировал высокую эффективность в сложных сценариях, где требуется комбинация разных типов данных для построения точного ответа. Результаты экспериментов показали, что QA-Dragon не только повышает точность ответов, но и повышает качество рассуждений, основанных на внешнем знании. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ QA-Dragon имеет широкое применение в областях, требующих интеграции знаний из разных доменов для построения точных ответов на сложные запросы. Он может быть использован в различных приложениях, таких как поисковые системы, системы поддержки решений, и даже в областях медицинского и научного исследования, где необходима точная интеграция текстовых и визуальных данных. Одним из ключевых преимуществ QA-Dragon является его способность динамически адаптироваться к разным доменам и выбирать оптимальные стратегии поиска. Это делает его подходящим для решения задач, требующих контекстуального понимания и мультимодального поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ QA-Dragon представляет собой значительный шаг вперед в области Knowledge-Intensive Visual Question Answering. Он не только повышает точность ответов, но и позволяет системе эффективно обрабатывать сложные запросы, требующие мультимодального поиска. В будущем, этот подход может быть расширен для решения еще более сложных задач, включая те, где требуется еще большая интеграция информации из различных источников. Кроме того, QA-Dragon может быть адаптирован для работы в других областях, где необходимо обрабатывать мультимодальные данные, что делает этот подход весьма перспективным для дальнейшего развития.

Annotation:

Retrieval-Augmented Generation (RAG) has been introduced to mitigate hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge into the generation process, and it has become a widely adopted approach for knowledge-intensive Visual Question Answering (VQA). However, existing RAG methods typically retrieve from either text or images in isolation, limiting their ability to address complex queries that require multi-hop reasoning or up-to-date factual knowledge. ...

ID: 2508.05197v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Balancing Accuracy and Novelty with Sub-Item Popularity

2025-08-09

Авторы:

Chiara Mallamaci, Aleksandr Vladimirovich Petrov, Alberto Carlo Maria Mancino, Vito Walter Anelli, Tommaso Di Noia, Craig Macdonald

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные системы рекомендаций музыки сталкиваются с фундаментальной дилеммой между точностью предсказаний и способностью предлагать пользователям новый контент. В музыкальной сфере характерной особенностью является повторное прослушивание - пользователи регулярно возвращаются к уже знакомым композициям, что создает сложности для традиционных рекомендательных систем. Это поведение отражает глубоко укоренившиеся музыкальные предпочтения и эмоциональные связи с конкретными треками. Недавние исследования ввели концепцию Персонализированных Оценок Популярности (Personalised Popularity Scores - PPS), которые количественно измеряют индивидуальные предпочтения пользователей на основе исторической частоты прослушиваний. Хотя PPS значительно улучшает релевантность рекомендаций, метод имеет критический недостаток: он склонен усиливать эффект "фильтрационного пузыря", систематически предлагая пользователям только уже знакомый контент. Это ограничивает способность системы представлять новые или неожиданные музыкальные произведения, которые являются ключевыми факторами долгосрочной вовлеченности пользователя и удовлетворенности от сервиса. Проблема усугубляется масштабом современных музыкальных каталогов, содержащих миллионы треков. Традиционные подходы, работающие на уровне отдельных музыкальных композиций, неэффективно используют скрытые структурные паттерны, присутствующие в музыкальных данных. Например, разные треки могут разделять общие музыкальные элементы - мелодические фразы, ритмические паттерны или характеристики тембра - которые остаются невидимыми при анализе на уровне целых композиций. Это приводит к потере потенциально ценной информации о повторяющихся паттернах предпочтений, которые могли бы быть использованы для более тонкой балансировки между точностью и новизной рекомендаций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный подход к решению описанной проблемы через переосмысление и адаптацию существующей архитектуры RecJPQ - трансформер-ориентированного фреймворка, первоначально разработанного для улучшения масштабируемости рекомендаций в каталогах с большим количеством элементов через декомпозицию на суб-элементы. Ключевая идея состоит в переносе концепции персонализированной популярности с уровня целых музыкальных композиций на более тонкий уровень суб-идентификаторов (sub-IDs), представляющих латентные структурные компоненты музыкальных треков. Методология строится на гипотезе, что повторяющиеся паттерны предпочтений пользователей проявляются не только на уровне целых композиций, но и на уровне более примитивных музыкальных характеристик, закодированных в суб-эмбеддингах. Это позволяет выявлять скрытые связи между различными треками, которые могут быть неочевидны при традиционном анализе, но разделяют общие музыкальные элементы, вызывающие повторное прослушивание. Техническая реализация включает модификацию механизма внимания в архитектуре RecJPQ для учета суб-ID уровневых персонализированных оценок популярности. Это достигается через внедрение специализированного слоя, который динамически корректирует веса внимания на основе исторических паттернов использования суб-элементов. Такой подход обеспечивает явный контроль баланса между точностью рекомендаций и внедрением персонализированной новизны, позволяя систематически регулировать степень эксплорации нового контента в зависимости от контекста и предпочтений конкретного пользователя. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на обширных наборах данных, включающих миллионы взаимодействий пользователей с музыкальным контентом из реальных стриминговых платформ. Исследование использовало стандартные метрики оценки качества рекомендаций, включая Precision@K, Recall@K, NDCG@K для измерения точности, а также специализированные метрики для оценки новизны и серендипитности рекомендаций. Ключевым результатом стало стабильное превосходство предложенного метода sPPS (sub-ID level Personalised Popularity Scores) над традиционным подходом PPS на уровне целых композиций. Конкретно, sPPS продемонстрировал статистически значимое улучшение по метрикам персонализированной нов

Annotation:

In the realm of music recommendation, sequential recommenders have shown promise in capturing the dynamic nature of music consumption. A key characteristic of this domain is repetitive listening, where users frequently replay familiar tracks. To capture these repetition patterns, recent research has introduced Personalised Popularity Scores (PPS), which quantify user-specific preferences based on historical frequency. While PPS enhances relevance in recommendation, it often reinforces already-kn...

ID: 2508.05198v1 cs.IR, cs.AI

arXiv PDF

📄 EvoGraph: Hybrid Directed Graph Evolution toward Software 3.0

2025-08-09

Авторы:

Igor Costa, Christopher Baran

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное программное обеспечение сталкивается с критическим вызовом ускоряющейся технологической эволюции, где традиционные подходы разработки не справляются с масштабами и сложностью поддержки устаревающих систем. Легаси-код, написанный на устаревших языках вроде COBOL, CGI, ColdFusion и Lisp, продолжает выполнять критически важные функции в банковской, государственной и корпоративной инфраструктуре, но страдает от отсутствия специалистов, документации и совместимости с современными стандартами безопасности. Параллельно растет технический долг в современных системах, где быстрое добавление новых функций ведет к накоплению архитектурных компромиссов и уязвимостей безопасности. Традиционные методы модернизации, включая ручной рефакторинг и автоматизированные инструменты на основе правил, демонстрируют фундаментальные ограничения. Ручные подходы масштабируются линейно с числом разработчиков и страдают от человеческого фактора, в то время как правило-ориентированные инструменты не способны адаптироваться к контексту и часто нарушают неявные контракты системы. Большие языковые модели (LLM), несмотря на свою мощность, страдают от высоких вычислительных затрат, недостаточной контролируемости и тенденции к "галлюцинациям" при генерации кода, что критично для продакшен-систем. Авторы статьи формулируют концепцию "Software 3.0" как следующий этап эволюции программного обеспечения, где системы становятся способными к непрерывной самоэволюции при сохранении измеримого контроля над качеством и поведением. Ключевая проблема заключается в создании такого механизма эволюции, который мог бы эффективно работать с разнородными артефактами разработки (кодом, документацией, тестами, билдами) при этом оставаясь практически применимым в условиях реальных ограничений производственной среды. ## ПРЕДЛОЖЕННЫЙ МЕТОД EvoGraph представляет собой революционный фреймворк, который реализует принципы эволюционной биологии в контексте разработки программного обеспечения. Основой системы является строго типизированный направленный граф, где каждый узел представляет собой конкретный артефакт разработки - от строк кода и тестов до документации и билд-скриптов. Ребра графа выражают семантические и технические зависимости между артефактами, создавая исчерпывающую модель всей системы. Центральным элементом является набор специализированных малых языковых моделей (SLM), каждая из которых обучена для выполнения конкретного типа мутаций. В отличие от универсальных LLM, эти модели имеют гораздо меньший размер (от 7M до 1B параметров), что обеспечивает 90% экономию вычислительных ресурсов. Каждая SLM реализует набор семантически значимых мутационных операторов, специфичных для конкретного языка программирования или типа артефакта. Например, для COBOL-Java трансформации модель обучена распознавать паттерны бизнес-логики и эквивалентно их переносить в объектно-ориентированную парадигму. Процесс эволюции реализуется через итеративный цикл генерации-отбора-мутации. На каждом поколении система генерирует множество вариантов изменений, применяя мутационные операторы к текущему состоянию графа. Отбор потомков осуществляется на основе многокритериальной функции приспособленности, включающей метрики функциональной эквивалентности (через тесты), производительности, безопасности, читаемости кода и актуальности документации. Особенностью является использование Pareto-оптимизации, позволяющей находить компромиссы между конфликтующими целями. Критически важным является механизм контролируемой эволюции. Система поддерживает "безопасные зоны" изменений, где критические компоненты могут эволюционировать только при наличии полного покрытия тестами и утверждения со стороны человека-оператора. Для поддержания семантической корректности используется продвинутая система формальной верификации и property-based тестирования, что позволяет детектировать нарушения неявных контрактов системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация EvoGraph проводилась на трех ключевых бенчмарках, каждый из которых адресует критически важные аспекты современной

Annotation:

We introduce **EvoGraph**, a framework that enables software systems to evolve their own source code, build pipelines, documentation, and tickets. EvoGraph represents every artefact in a typed directed graph, applies learned mutation operators driven by specialized small language models (SLMs), and selects survivors with a multi-objective fitness. On three benchmarks, EvoGraph fixes 83% of known security vulnerabilities, translates COBOL to Java with 93% functional equivalence (test verified), a...

ID: 2508.05199v1 cs.SE, cs.AI, D.2.2; D.2.7; I.2.2

arXiv PDF

📄 FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in finance

2025-08-09

Авторы:

Mengao Zhang, Jiayu Fu, Tanya Warrier, Yuwen Wang, Tianhui Tan, Ke-wei Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) становятся все более популярными в приложениях, требующих обработку естественного языка. Однако, в финансовой области, где точность и надежность критически важны, проблема галлюцинаций (Hallucination) остается ключевой преградой для их широкого применения. Галлюцинации — это ситуации, когда модель генерирует неточную или фальсифицированную информацию, что может привести к серьезным последствиям в финансовой аналитике. Финансовые приложения требуют высокой точности при работе с табличными данными, особенно теми, которые содержат контекстно-зависимую и часто конфиденциальную информацию. Маленькие цифровые ошибки могут не только подвергнуть сомнению решения, но и нарушить соблюдение регулярных требований. Несмотря на развитие методологий для оценки галлюцинаций в естественном языке, финансовые данные обладают уникальными характеристиками, которые не покрываются существующими стандартами. Авторы статьи подчеркивают необходимость разработки специализированных инструментов для оценки точности LLMs при работе с финансовыми табличными данными. Их работа направлена на создание методологии, которая позволит оценивать интринсические галлюцинации (Intrinsic Hallucinations) — неточности, которые возникают из самой модели, без учета внешних факторов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить проблему галлюцинаций в финансовых LLMs, авторы предлагают новый фреймворк под названием **FAITH** (Framework for Assessing Intrinsic Tabular Hallucinations in finance). Этот фреймворк основывается на маскированной предсказательной модели (Masked Span Prediction) и использует реальные финансовые документы для создания набора данных. FAITH включает в себя следующие ключевые компоненты: 1. **Автоматизированное создание датасета**: Авторы разработали метод маскирования, который позволяет автоматически генерировать данные для оценки точности моделей. Этот подход позволяет создавать реалистичные сценарии, где LLMs должны заполнить пропуски в табличных данных на основе контекста. 2. **Финансовый датасет**: Для оценки был создан датасет на основе годовых отчетов S&P 500. Этот датасет представляет собой коллекцию реальных финансовых документов, которые содержат контекстно-зависимые табличные данные. 3. **Оценка LLMs**: Авторы провели комплексный анализ работы современных LLMs на финансовых данных, оценивая их способность к точной экстракции и вычислению цифровых значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FAITH, авторы провели ряд экспериментов на базе различных моделей LLMs. Эти модели были протестированы на способность к точному извлечению информации из табличных данных. Результаты показали, что существующие модели LLMs часто представляют неточные или неполные данные при работе с финансовыми таблицами. FAITH позволил выявить шаблоны галлюцинаций, которые могут быть связаны с контекстными ошибками или недостатками в моделях. Кроме того, эксперименты показали, что FAITH может быть эффективно использован для оценки различных моделей LLMs, предоставляя инструмент для их сравнения и оптимизации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FAITH предлагает ценный инструмент для финансовых организаций, которые используют LLMs для анализа и обработки данных. Благодаря точной оценке галлюцинаций, финансовые институты могут более надежно использовать генеративные модели AI в своих приложениях. Преимущества FAITH включают: - **Улучшение точности**: Фреймворк позволяет выявлять и исправлять неточности в генерируемых моделями данных. - **Соответствие нормативным требованиям**: Точность в работе с финансовыми данными критически важна для соблюдения нормативных требований. - **Оптимизация LLMs**: FAITH помогает оптимизировать модели, улучшая их надежность и точность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FAITH является важной отправной точкой для развития более надежных и точных финансовых LLMs. Разработанный фреймворк не только позволяет оценивать существующие модели, но и ставит начало для будущих исследований в области генеративного AI в финансовой сфере. В будущем, авторы планируют расширить FAITH для работы с более широким спектром финансовых данных и исследовать методы для автоматического исправления галлюцинаций. Это позволит создавать более надежные и точные финансовые системы на основе генеративного AI.

Annotation:

Hallucination remains a critical challenge for deploying Large Language Models (LLMs) in finance. Accurate extraction and precise calculation from tabular data are essential for reliable financial analysis, since even minor numerical errors can undermine decision-making and regulatory compliance. Financial applications have unique requirements, often relying on context-dependent, numerical, and proprietary tabular data that existing hallucination benchmarks rarely capture. In this study, we deve...

ID: 2508.05201v1 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
1423
1424
1425
1426
1427
1442
1443

Показано 14241 - 14250 из 14425 записей