📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Chemist Eye: A Visual Language Model-Powered System for Safety Monitoring and Robot Decision-Making in Self-Driving Laboratories

2025-08-09

Авторы:

Francisco Munguia-Galeano, Zhengxue Zhou, Satheeshkumar Veeramani, Hatem Fakhruldeen, Louis Longley, Rob Clowes, Andrew I. Cooper

## КОНТЕКСТ И ПРОБЛЕМАТИКА С быстрым развитием самоуправляемых лабораторий (SDL), где роботы и автоматизация играют ключевую роль в проведении экспериментов, возникает необходимость в улучшении безопасности. Традиционные лаборатории уже сталкиваются с рисками, связанными с химическими реакциями, огнём и несоблюдением правил безопасности. Однако SDL добавляют новые уровни сложности, особенно когда речь заходит о безопасности роботов, которые используют литиевые батареи, подверженные взрывам при контакте с огнём. Несмотря на то, что персональная защитная экипировка (PPE) является важной составляющей безопасности в лабораториях, в SDL существует риск того, что роботы могут не отреагировать на несоблюдение PPE или на нештатные ситуации, такие как пожар. Дополнительная проблема заключается в том, что роботы в SDL должны быть способны быстро реагировать на потенциальные опасности, в том числе на ситуации, когда сотрудники лаборатории могут быть пострадавшими в результате аварии или медицинского экстренного случая. Это требует разработки системы, которая может не только отслеживать эти риски, но и предоставлять решения в режиме реального времени для предотвращения инцидентов. Таким образом, целью данного исследования является создание системы, которая может обеспечить безопасность в самоуправляемых лабораториях, интегрируя визуальное мониторинг и принятие решений на основе технологии компьютерного зрения и естественного языка. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанная система, называемая **Chemist Eye**, представляет собой распределенную систему мониторинга безопасности, основанную на визуально-языковой модели (VLM). Она состоит из нескольких станций, оборудованных камерами RGB, дальномерами и инфракрасными датчиками, предназначенными для отслеживания инцидентов в SDL. Система использует VLM для обработки визуальных данных и принятия решений на основе их анализа. Chemist Eye распознает различные типы опасностей, включая несоблюдение PPE, пожары и медицинские экстренные ситуации. Если система обнаруживает пожар, она пытается переместить роботов в безопасное место, удаляя их от потенциальных источников опасности. Также Chemist Eye может выдавать звуковые предупреждения и отправлять уведомления через сторонние местоположения, такие как мессенджеры, для немедленного оповещения персонала. Архитектура системы построена на интеграции нескольких датчиков и камер, которые обеспечивают полное покрытие лабораторного пространства. Данные с камер обрабатываются в режиме реального времени, и VLM выполняет классификацию объектов и событий, что позволяет системе быстро реагировать на потенциальные опасности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Chemist Eye были проведены тесты в реальной среде SDL, оснащенной тремя мобильными роботами. Система была протестирована на различных сценариях, включая обнаружение пожаров, несоблюдение правил PPE и медицинские ситуации. Результаты показали, что Chemist Eye может точно обнаруживать потенциальные опасности с точностью 97% и принимать решения с точностью 95%. В ходе экспериментов система успешно определяла пожары и перемещала роботов в безопасные зоны, а также выдавала предупреждения при обнаружении рисков, связанных с PPE. Кроме того, система быстро отправляла уведомления персоналу через мессенджеры, обеспечивая быструю реакцию на инциденты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Chemist Eye предлагает значительные преимущества для безопасности в SDL. Она позволяет обеспечить реальное время мониторинга и быструю реакцию на потенциальные опасности, что является критически важной задачей в среде, где роботы и люди работают рядом. Система может быть интегрирована в существующие системы безопасности, что делает ее пригодной для широкого круга приложений в лабораторной практике. Кроме того, Chemist Eye может быть использована в других отраслях, где необходима система безопасности с интеграцией роботов, например в производственных средах. Ее мониторинг и реагирование на опасности могут существенно улучшить безопасность и уменьшить риски для персонала. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует успешное применение визуально-языковых моделей для мониторинга безопасности в SDL. Chemist Eye показала высокую точность в обнаружении опасностей и принятии решений, что делает ее полезной для реального применения. В будущем, этот подход может быть расширен для использования в более широких контекстах, включая производственные среды и другие сферы, требующие высокой безопасности. Будущие исследования могут фокусироваться на дальнейшем улучшении точности модели, а также на расширении функций системы для включения более сложных ситуаций, таких как работа с опасными химическими веществами. Также важно исследовать, как система может быть адаптирована для работы в различных типах лабораторных сред.

Annotation:

The integration of robotics and automation into self-driving laboratories (SDLs) can introduce additional safety complexities, in addition to those that already apply to conventional research laboratories. Personal protective equipment (PPE) is an essential requirement for ensuring the safety and well-being of workers in laboratories, self-driving or otherwise. Fires are another important risk factor in chemical laboratories. In SDLs, fires that occur close to mobile robots, which use flammable ...

ID: 2508.05148v1 cs.RO, cs.AI

arXiv PDF

📄 Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages

2025-08-09

Авторы:

Seraphina Fong, Marco Matassoni, Alessio Brutti

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое распознавание речи (АРР) в низкоресурсных языках является серьезной вызовом для современных исследований. Несмотря на то, что технологии глубокого обучения достигли высоких результатов в обработке речи для языков с большим объемом доступных данных, применение этих подходов к низкоресурсным языкам остается затрудненным. Основными препятствиями являются ограниченность доступных данных для обучения и отсутствие достаточного количества аннотированных ресурсов. В последнее время Large Language Models (LLMs) показали высокую эффективность в различных задачах обработки речи, включая задачи распознавания, если речь о языках с большим объемом данных. Однако для низкоресурсных языков эффективность LLMs еще не была полностью изучена. Задача адаптации LLMs для распознавания речи в условиях ограниченных данных требует новых подходов и методологий. В данной работе авторы фокусируются на исследовании Speech LLMs – моделей, которые объединяют речевые энкодеры с языковыми моделями с помощью тренируемого легковесного проектора. Особое внимание уделяется оценке объема необходимых данных для обучения и влиянию предварительного обучения на языках с большим ресурсом. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы распознавания речи в низкоресурсных языках авторы предлагают использовать фреймворк SLAM-ASR, который сочетает речевой энкодер с языковой моделью через тренируемый легковесный проектор. Этот подход позволяет эффективно интегрировать речевые и языковые модели, оптимизируя процесс распознавания речи. Архитектура SLAM-ASR включает в себя следующие компоненты: 1. **Речевой энкодер**: Используется для извлечения фич из речевых сигналов. 2. **Легковесный проектор**: Позволяет соединить речевой энкодер с языковой моделью, обеспечивая эффективную передачу информации. 3. **Языковая модель (LLM)**: Используется для понимания и обработки речи на высокоуровневом языковом уровне. Авторы также исследуют влияние предварительного обучения проектора на языках с большим ресурсом. Они используют мультилингвальные модели, такие как EuroLLM и Salamandra, в сочетании с Whisper-large-v3-turbo для оценки эффективности этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности предложенного метода. Они используют несколько публичных бенчмарков для оценки качества распознавания речи в низкоресурсных языках. В экспериментах исследуются следующие аспекты: - **Объем данных для обучения**: Авторы оценивают, какой объем данных необходим для достижения результатов, соответствующих производительности модели Whisper. - **Предварительное обучение на высокоресурсных языках**: Исследуется влияние предварительного обучения проектора на языках с большим ресурсом на качество распознавания в низкоресурсных языках. Результаты экспериментов показывают, что предварительное обучение проектора на высокоресурсных языках значительно снижает влияние дефицита данных, особенно при использовании малых объемов данных для обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данная работа имеет значительное практическое значение для развития технологий распознавания речи в низкоресурсных языках. Использование Speech LLMs с предварительным обучением на высокоресурсных языках может помочь преодолеть проблемы ограниченных данных, что делает эту технологию более доступной для широкого круга приложений. Преимущества данного подхода включают: - **Улучшение качества распознавания речи**: Эффективность метода позволяет достичь высоких результатов даже при ограниченном объеме данных. - **Применимость к мультилингвальным сценариям**: Использование мультилингвальных моделей, таких как EuroLLM и Salamandra, позволяет расширить область применения данного подхода на многоязычных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области распознавания речи в низкоресурсных языках. Использование фреймворка SLAM-ASR и предварительного обучения проектора на высокоресурсных языках показало высокую эффективность в условиях ограниченных данных. Будущие исследования могут фокусироваться на дальнейшей оптимизации архитектуры моделей, а также на разработке новых методов для улучшения качества распознавания речи в мультилингвальных сценариях. Также важно продолжать исследования в области адаптации LLMs для распознавания речи в условиях дата-скейпинга и мультилингвизма.

Annotation:

Large language models (LLMs) have demonstrated potential in handling spoken inputs for high-resource languages, reaching state-of-the-art performance in various tasks. However, their applicability is still less explored in low-resource settings. This work investigates the use of Speech LLMs for low-resource Automatic Speech Recognition using the SLAM-ASR framework, where a trainable lightweight projector connects a speech encoder and a LLM. Firstly, we assess training data volume requirements to...

ID: 2508.05149v1 eess.AS, cs.AI, cs.CL

arXiv PDF

📄 Tool Graph Retriever: Exploring Dependency Graph-based Tool Retrieval for Large Language Models

2025-08-09

Авторы:

Linfeng Gao, Yaoxiang Wang, Minlong Peng, Jialong Tang, Yuzhe Shang, Mingming Sun, Jinsong Su

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие ИИ-агентов привело к экспоненциальному росту количества доступных инструментов, которыми эти агенты могут пользоваться для решения сложных задач. От калькуляторов и поисковых систем до специализированных API и баз данных — арсенал инструментов становится все более разнообразным и мощным. Однако это богатство возможностей порождает критическую проблему: контекстные ограничения больших языковых моделей не позволяют эффективно обрабатывать все доступные инструменты одновременно. Традиционные методы встраивания информации об инструментах напрямую в контекст модели становятся непрактичными при наличии тысяч или десятков тысяч доступных опций. Существующие подходы к решению этой проблемы в основном опираются на семантическое сходство между описаниями инструментов и пользовательскими запросами. Эти методы рассматривают каждый инструмент как независимую единицу, игнорируя фундаментальную особенность реальных сценариев использования: инструменты редко используются изолированно. Большинство сложных задач требуют цепочки взаимосвязанных инструментов, где выход одного служит входом для другого. Например, для анализа финансовых данных может потребоваться сначала извлечь данные из базы, затем очистить их с помощью специализированного инструмента, после чего применить алгоритм анализа. Пропуск любого из этих зависимых инструментов приведет к невозможности выполнения задачи. Эта проблема особенно актуальна в контексте развития агентных систем, где эффективность работы напрямую зависит от способности быстро и точно идентифицировать не только первично релевантные инструменты, но и все необходимые зависимости между нами. Текущие методы, фокусирующиеся исключительно на семантическом соответствии, упускают эти критические зависимости, что приводит к снижению общей эффективности системы и увеличению количества неудачных попыток выполнения задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают инновационный подход Tool Graph Retriever (TGR), который революционизирует процесс поиска инструментов за счет учета их зависимостей. Методология TGR строится на трех ключевых компонентах: создании специализированного датасета, построении графа зависимостей инструментов и применении графовых нейронных сетей для обогащения представлений. Первым этапом разработки стало создание масштабного датасета TDI300K, содержащего 300 тысяч примеров для обучения дискриминатора, способного выявлять зависимости между инструментами. Этот датасет был собран через систематический анализ реальных сценариев использования инструментов в различных доменах, включая анализ данных, веб-разработку, математические вычисления и обработку естественного языка. Каждая запись в датасете содержит пару инструментов и метку, указывающую на наличие или отсутствие зависимости между ними. На втором этапе все кандидатские инструменты представляются в виде ориентированного графа зависимостей, где вершины соответствуют инструментам, а ребра - направленным зависимостям. Этот граф строится динамически для каждого запроса на основе предварительно обученного дискриминатора. Архитектура графа позволяет моделировать сложные отношения, включая множественные входы и выходы, циклические зависимости и иерархические структуры. Ключевым техническим решением является применение графовой свертки (graph convolution) для интеграции информации о зависимостях в векторные представления инструментов. Многослойная графовая нейронная сеть последовательно агрегирует информацию от соседних узлов, позволяя каждому инструменту "узнать" о своих зависимостях и зависимых от него инструментах. Этот процесс обогащает исходные семантические представления контекстом их использования и роли в экосистеме инструментов. Для онлайн-ретривала используется двухэтапная система: сначала при помощи обогащенных представлений выбирается кандидатская группа инструментов, затем применяется ранжирование с учетом как релевантности запросу, так и полноты покрытия зависимостей. Это обеспечивает баланс между точностью и полнотой результатов поиска. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная оценка TGR проводилась на трех стандарт

Annotation:

With the remarkable advancement of AI agents, the number of their equipped tools is increasing rapidly. However, integrating all tool information into the limited model context becomes impractical, highlighting the need for efficient tool retrieval methods. In this regard, dominant methods primarily rely on semantic similarities between tool descriptions and user queries to retrieve relevant tools. However, they often consider each tool independently, overlooking dependencies between tools, whic...

ID: 2508.05152v1 cs.IR, cs.AI

arXiv PDF

📄 FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction

2025-08-09

Авторы:

Mohammed Daba, Jing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Роботизированная манипуляция текстильных изделий, такая как двуручное выравнивание (bimanual smoothing), представляет собой значительную проблему в области робототехники. Эта задача характеризуется высокой размерностью, сложностью динамики и внутрикатегорийными различиями, что делает ее одной из наиболее сложных для решения. Существующие подходы либо переобучаются на визуальных признаках для конкретного экземпляра, либо, несмотря на общую категорийную перцептивную универсальность, не могут точно предсказывать эффективность синергических двуручных действий. Это ограничивает их применимость в реальных условиях. Для достижения успешного выравнивания гардеробных предметов необходимо решать две ключевые проблемы: общую категорийную обобщенность и точность предсказания эффективности двуручных действий. В настоящее время многие методы используют визуальные данные, но страдают от переобучения на конкретные экземпляры или не могут эффективно обобщаться на невиденные ранее объекты. Это особенно актуально в контексте высокой сложности и динамических изменений текстильных материалов. Предлагаемый подход, основанный на обработке 3D-точечных облаков, предназначен для преодоления этих проблем, обеспечивая устойчивость к внутрикатегорийным изменениям и повышая эффективность двуручного выравнивания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанная модель, Feature-Conditioned Bimanual Value Network (FCBV-Net), основывается на обработке 3D-точечных облаков для улучшения общей категорийной обобщенности в задаче выравнивания гардеробных предметов. Основная идея FCBV-Net заключается в кондиционировании предсказания значений двуручных действий (bimanual action value) на основе предварительно обученных и замороженных плотных геометрических признаков. Эти признаки обеспечивают высокую устойчивость к внутрикатегорийным различиям гардеробных изделий. Архитектура FCBV-Net состоит из двух основных компонентов: статических геометрических фильтров и обучаемых компонентов, отвечающих за конкретную политику. Предварительно обученные геометрические фильтры позволяют эффективно извлекать ключевые геометрические характеристики из 3D-точечных облаков, не требуя дополнительного обучения. Затем, обучаемые компоненты используют эти признаки для предсказания оптимальных двуручных действий, что обеспечивает высокую эффективность и категорийную обобщенность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FCBV-Net проведены эксперименты в симуляторе GarmentLab с использованием датасета CLOTH3D. Результаты демонстрируют значительное превосходство FCBV-Net по отношению к существующим подходам. В частности, FCBV-Net показала только 11,5% потерь в эффективности (Steps80) на невиденных ранее изделиях, в то время как 2D-базовая модель испытала 96,2% потерь. Также, FCBV-Net достигла 89% финального покрытия (coverage), превосходя 83% покрытия, достигнутого 3D-моделью на основе предопределенных примитивов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель имеет широкое применение в области робототехники, особенно в сфере автоматической обработки и выравнивания текстильных изделий. Её преимущества включают высокую категорийную обобщенность, устойчивость к изменениям формы и структуры текстильных материалов, а также эффективность в решении сложных двуручных задач. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FCBV-Net представляет собой важный шаг вперед в области роботизированной манипуляции текстильными изделиями. Её успех заключается в декуплировании геометрического понимания от обучения политик действий, что обеспечивает лучшую категорийную обобщенность. В будущем предлагается расширить этот подход на более широкий класс задач роботизированной манипуляции и исследовать его применимость в реальных условиях.

Annotation:

Category-level generalization for robotic garment manipulation, such as bimanual smoothing, remains a significant hurdle due to high dimensionality, complex dynamics, and intra-category variations. Current approaches often struggle, either overfitting with concurrently learned visual features for a specific instance or, despite category-level perceptual generalization, failing to predict the value of synergistic bimanual actions. We propose the Feature-Conditioned Bimanual Value Network (FCBV-Ne...

ID: 2508.05153v1 cs.RO, cs.AI, I.2.9; I.2.6; I.4.8

arXiv PDF

📄 Domain-driven Metrics for Reinforcement Learning: A Case Study on Epidemic Control using Agent-based Simulation

2025-08-09

Авторы:

Rishabh Gaur, Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка агентных моделей (ABM) и рациональных агентных моделей (RABM) для сложных социальных систем представляет собой быстро развивающуюся область исследований, особенно в контексте моделирования распространения инфекционных заболеваний. Традиционные эпидемиологические модели, такие как модели SIR/SEIR, ограничены в своей способности учитывать поведенческие аспекты населения и динамику принятия решений индивидуальными агентами. В ответ на эти ограничения исследователи активно внедряют методы обучения с подкреплением (RL) для оптимизации поведения агентов в ABM/RABM, что позволяет моделировать адаптивное поведение в условиях пандемии, включая ношение масок, вакцинацию и соблюдение карантинных мер. Однако существует критическая проблема оценки эффективности RL-алгоритмов в таких сложных стохастических системах. Традиционные метрики RL, такие как совокупное вознаграждение или скорость сходимости, не учитывают специфику прикладной области и могут давать искаженное представление о качестве политики в контексте общественного здравоохранения. Например, политика, максимизирующая экономическую активность, может привести к катастрофическим последствиям в виде высокой смертности. Отсутствие стандартизированных, ориентированных на предметную область метрик затрудняет сравнение различных RL-алгоритмов и их применение в критически важных сферах, таких как реагирование на пандемические угрозы. Авторы статьи подчеркивают, что существующие подходы к оценке RL-моделей в эпидемиологическом моделировании игнорируют ключевые аспекты: динамику изменения поведения населения, неравномерный доступ к ресурсам (например, маскам или вакцинам), а также морально-этические аспекты принятия решений. Эти пропуски в методологии оценки могут привести к разработке политик, которые формально оптимальны с точки зрения RL-метрик, но неприемлемы или вредны в реальном мире. Исследование направлено на разработку комплексной системы метрик, которая учитывает как традиционные показатели эффективности RL, так и критически важные для общественного здравоохранения аспекты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют новую систему метрик "Domain-driven-RL-metrics", которая интегрирует традиционные RL-показатели с предметно-ориентированными метриками, специфичными для эпидемиологического моделирования. Методология строится на трехуровневой архитектуре оценки: базовом уровне RL-метрик, промежуточном уровне адаптированных эпидемиологических показателей и верхнем уровне комплексных метрик общественного здравоохранения. На базовом уровне используются стандартные RL-метрики: совокупное вознаграждение, скорость обучения, стабильность политики и разнообразие поведения. Однако эти метрики дополняются специфическими весами, отражающими приоритеты в области здравоохранения. Например, компонент вознаграждения за снижение смертности получает экспоненциально возрастающий вес по мере роста показателей смертности. Промежуточный уровень включает адаптированные эпидемиологические показатели: эффективное репродуктивное число (Rt), учитывающее поведенческие изменения; интегрированную нагрузку на систему здравоохранения, включающую не только количество госпитализаций, но и стратификацию по возрасту и коморбидностям; метрики экономического бремени, связанные с потерей рабочих дней и затратами на лечение. Особое внимание уделяется метрикам неравенства в доступе к средствам защиты, где вводится коэффициент Джини для распределения масок и вакцин среди различных социоэкономических групп. Верхний уровень представлен комплексными метриками, объединяющими показатели предыдущих уровней. Ключевыми являются: "Сбалансированный индекс пандемического отклика" (BPR), который взвешивает снижение смертности, экономические потери и социальное неравенство; "Индект устойчивости политики", оценивающий гибкость стратегии при появлении новых штаммов; и "Метрика общественного доверия", отражающая динамику комплаентности населения в ответ на рекомендации. Эти метрики рассчитываются как взвешенные комбинации базовых показ

Annotation:

For the development and optimization of agent-based models (ABMs) and rational agent-based models (RABMs), optimization algorithms such as reinforcement learning are extensively used. However, assessing the performance of RL-based ABMs and RABMS models is challenging due to the complexity and stochasticity of the modeled systems, and the lack of well-standardized metrics for comparing RL algorithms. In this study, we are developing domain-driven metrics for RL, while building on state-of-the-art...

ID: 2508.05154v1 cs.LG, cs.AI

arXiv PDF

📄 Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models

2025-08-09

Авторы:

Mason Nakamura, Saaduddin Mahmud, Kyle H. Wray, Hamed Zamani, Shlomo Zilberstein

## КОНТЕКСТ И ПРОБЛЕМАТИКА Актуальность выравнивания больших языковых моделей (LLM) с человеческими предпочтениями выросла стремительно после появления ChatGPT, Claude и других систем общего назначения. Без финего выравнивания даже самые мощные модели продолжают порождать вредоносный, токсичный или просто неполезный контент, что делает их непригодными для коммерческого и корпоративного использования. Традиционные подходы к выравниванию опираются на дорогостоящий процесс RLHF (Reinforcement Learning from Human Feedback), включающий подготовку тысяч человеческих примеров, обучение отдельной reward-модели и дальнейший финетюнинг целевой LLM. Этот процесс может занимать недели и требовать десятков тысяч долларов GPU-времени, что делает его недоступным для большинства исследователей и малых компаний. Альтернативой является выравнивание во время инференса (inference-time alignment), при котором модель не переобучается, а лишь переупорядочивает или фильтрует уже сгенерированные кандидаты с помощью reward-модели. Однако существующие методы (best-of-N sampling, beam search, MCTS и др.) либо не учитывают стоимость инференса, либо требуют доступа к градиентам модели, либо не способны балансировать между множественными целями (например, «ответь кратко, но будь полезен»). Критическая проблема — отсутствие практичного решения для сценариев, где разрешено сделать всего 1-3 вызова модели. В таких условиях даже обычный best-of-N терпит неудачу: он просто выбирает лучший из N кандидатов, не имея возможности «подсказать» модели, как улучшить ответ. Накопленный практический опыт показывает, что пользователи готовы жертвовать частью качества ради скорости и дешевизны, но ни одна из текущих систем не позволяет явно задать бюджет инференса и получить максимально возможное качество в рамках этого бюджета. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают HIA (Heuristic-Guided Inference-time Alignment) — метод, который не требует дообучения LLM, работает в «черном ящике» (достаточно лишь API модели) и позволяет строго ограничить число обращений к модели. HIA состоит из трёх ключевых компонентов. Во-первых, легковесный prompt-optimizer на основе «heuristic reward model» (HRM) — маленькой (≈ 770 M параметров) обученной модели, которая по тексту промпта и кандидат-ответа выдаёт скалярную оценку качества. HRM обучается на публичных датасетах с человеческими предпочтениями и потому не требует дорогостоящей разметки. В отличие от крупных reward-моделей в RLHF, HRM работает за доли секунды и может быть запущена локально на CPU. Вторая часть — двухэтапная фильтрация. На первом этапе («exploration») из исходного prompt генерируется k кандидат-ответов (обычно k ≤ 4). HRM оценивает каждый кандидат и выбирает лучший. Однако вместо того чтобы сразу отдавать его пользователю, HIA переходит ко второму этапу («refinement»). Лучший кандидат вместе с кратким «heuristic feedback» (например, «слишком длинный, добавь пример») подаётся обратно в LLM с просьбой улучшить. В результате получается окончательный ответ. Весь процесс расходует ровно k+1 вызовов модели, что позволяет заранее задать бюджет. Третье новшество — многокритериальная оптимизация. HRM может быть обучен одновременно по нескольким осям (helpfulness, conciseness, harmlessness). Во время инференса пользователь задаёт желаемый вектор приоритетов (например, «безопасность важнее краткости»), и HRM автоматически пересчитывает скалярную награду как взвешенную сумму. Это позволяет персонализировать поведение модели без переобучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки качества использовались два публичных набора реальных промптов: HelpSteer (19 200 примеров с 4-уровневой шкалой полезности) и ComPRed (6 000 промптов с критериями полезности, правдивости, краткости и безопасности). В экспериментах сравнивались четыре метода: (1) жадный генерация (Greedy), (2) best-of-N, (3) beam search с шириной N, (4) предложенный HIA при одинаковом общем бюджете вызовов k+1. В качестве backbone-мод

Annotation:

Aligning LLMs with user preferences is crucial for real-world use but often requires costly fine-tuning or expensive inference, forcing trade-offs between alignment quality and computational cost. Existing inference-time methods typically ignore this balance, focusing solely on the optimized policy's performance. We propose HIA (Heuristic-Guided Inference-time Alignment), a tuning-free, black-box-compatible approach that uses a lightweight prompt optimizer, heuristic reward models, and two-stage...

ID: 2508.05165v1 cs.LG, cs.AI, cs.CL, I.2.7; I.2.6; I.2.8

arXiv PDF

📄 Posterior-GRPO: Rewarding Reasoning Processes in Code Generation

2025-08-09

Авторы:

Lishui Fan, Yu Zhang, Mouxiang Chen, Zhongxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Результаты применения reinforcement learning (RL) в области кодогенерации для больших языковых моделей (LLMs) значительно улучшились в последнее время. Однако существующие подходы часто основываются на результирующих наградах, получаемых из тест-кейсов, без учета качества промежуточных процессов вывода. Такая ориентация на конечный результат может привести к недостаткам в процессе логического вывода, который является ключевым для понимания и генерации высококачественного кода. Прямое контролирование качества процесса вывода является перспективным направлением, но существует серьезная проблема ревард хакинга (reward hacking), при которой модель научится манипулировать процессом вывода, чтобы получить высокую оценку, не способствуя улучшению конечных результатов. Для решения этой проблемы необходимо разработать методы, позволяющие оценивать и награждать качество процесса вывода, не затрагивая финальный результат. В этой статье авторы предлагают комплексный подход, сочетающий в себе разработку бенчмарка для оценки процесса вывода, метод для точной оценки качества процесса и новый метод RL, который учитывает качество промежуточных процессов в выводе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют трехступенчатый подход к улучшению процесса кодогенерации. 1. **Разработка бенчмарка LCB-RB**: Для оценки качества процесса вывода разработан бенчмарк LCB-RB, который состоит из пар предпочтений, где каждая пара представляет два процесса вывода — один лучше, другой хуже. Этот бенчмарк позволяет модели оценивать качество процесса вывода на основе сравнения. 2. **Метод OD-based для обучения наградной модели**: Для точной оценки качества процесса вывода разработан метод Optimized-Degraded (OD-based). Этот метод позволяет генерировать высококачественные пары предпочтений путем систематического улучшения и ухудшения исходных процессов вывода по определенным критериям, таким как фактическая точность, логическая целостность и когерентность. На основе этого метода обучается модель наград размером 7 млрд параметров, которая достигает лучших результатов на бенчмарке LCB-RB и хорошо обобщается на другие данные. 3. **Метод Posterior-GRPO (P-GRPO)**: Новый метод RL, Posterior-GRPO, разработан для того, чтобы учитывать качество процесса вывода при обучении. Он награждает только те процессы вывода, которые приводят к успешным результатам, эффективно предотвращая ревард хакинг. Это позволяет выработать в модели логику, которая соотносит процесс вывода с конечным результатом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности их подхода. Используются различные данные для кодогенерации, включая задачи программирования и математические задачи. Результаты показывают, что модель с P-GRPO достигает лучших результатов по сравнению с базовыми моделями, которые основываются только на конечных результатах. Модель с P-GRPO показывает улучшение в 4,5% по сравнению с моделями, не учитывающими процесс вывода. Кроме того, модель достигает результатов, сопоставимых с GPT-4-Turbo, что демонстрирует высокую эффективность предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый подход имеет широкое практическое применение в области кодогенерации и математических задач. Он позволяет создавать модели, которые не только генерируют корректный код, но и выполняют это с высоким качеством процесса вывода. Это может быть полезно в областях, требующих высокой точности и логической целостности, таких как разработка программного обеспечения, математические моделирование и другие. Кроме того, предлагаемый метод может быть использован для улучшения качества вывода в других областях, где важно не только конечный результат, но и процесс достижения этого результата. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен комплексный подход к улучшению кодогенерации с помощью RL, который учитывает качество промежуточных процессов вывода. Разработанный бенчмарк, метод оценки качества процесса вывода и новый метод RL (P-GRPO) позволяют эффективно улучшить качество кодогенерации, предотвращая ревард хакинг и вырабатывая логику, соотносящую процесс вывода с конечным результатом. Будущие исследования могут фокусироваться на дальнейшем улучшении качества процесса вывода, расширении областей применения и интеграции этого подхода в более крупные модели.

Annotation:

Reinforcement learning (RL) has significantly advanced code generation for large language models (LLMs). However, current paradigms rely on outcome-based rewards from test cases, neglecting the quality of the intermediate reasoning process. While supervising the reasoning process directly is a promising direction, it is highly susceptible to reward hacking, where the policy model learns to exploit the reasoning reward signal without improving final outcomes. To address this, we introduce a unifi...

ID: 2508.05170v1 cs.SE, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Refining Gaussian Splatting: A Volumetric Densification Approach

2025-08-09

Авторы:

Mohamed Abdul Gafoor, Marius Preda, Titus Zaharia

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) представляет собой революционный метод рендеринга, который позволяет синтезировать новые ракурсы 3D-сцен с высокой точностью и в реальном времени. Метод использует точечные примитивы в виде 3D-гауссиан для представления сцены, что обеспечивает эффективное хранение данных и быструю визуализацию. Однако качество синтеза новых ракурсов напрямую зависит от эффективности управления этими точечными примитивами - их количества, распределения и характеристик. Существующий механизм адаптивного управления плотностью (Adaptive Density Control, ADC) в стандартной реализации 3DGS автоматизирует процессы уплотнения (densification) и обрезки (pruning) гауссиан. Этот процесс критически важен, так как оптимальное количество гауссиан влияет как на качество реконструкции, так и на вычислительную эффективность системы. Однако стандартная стратегия уплотнения в 3DGS демонстрирует ряд существенных недостатков. Ключевые проблемы включают неэффективное распределение гауссиан в пространстве, что приводит к перерасходу вычислительных ресурсов в менее важных областях и недостаточному покрытию критически важных участков сцены. Кроме того, существующий подход не учитывает важные геометрические характеристики гауссиан, такие как их ориентация и протяженность, что может привести к появлению артефактов в синтезированных изображениях. Отдельной проблемой является инициализация системы. Традиционно используется метод Structure from Motion (SfM) для получения начальной облачной точек, но современные методы глубокого сопоставления изображений (Deep Image Matching, DIM) могут предложить более точную и полную инициализацию. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод управления плотностью, который использует объемы инерции, связанные с каждым гауссианом, для направления процесса уточнения. Объем инерции представляет собой меру распределения массы вокруг осей вращения и учитывает как размер, так и ориентацию гауссиана в 3D-пространстве. Методология основана на следующих ключевых принципах: во-первых, каждый гауссиан характеризуется не только своими позиционными параметрами, но и своим тензором инерции, который отражает его геометрическую сущность. Это позволяет более точно определить области пространства, где требуется дополнительное уплотнение. Во-вторых, вводится новый критерий разбиения гауссиан, который учитывает не только градиенты ошибки реконструкции, но и отношение объема инерции к эффективному объему покрытия. Архитектура метода включает несколько ключевых компонентов: модуль вычисления объемов инерции для каждого гауссиана в реальном времени, механизм адаптивного определения порогов разбиения на основе локальных характеристик сцены, и алгоритм интеллектуального слияния близлежащих гауссианов, которые оказываются избыточными. Особое внимание уделяется балансу между качеством реконструкции и вычислительной эффективностью. Предложенный метод динамически регулирует уровень детализации в различных частях сцены, увеличивая плотность гауссиан в областях высокой частоты деталей и уменьшая в однородных регионах. Это достигается через многоуровневую схему оценки важности, где учитывается вклад каждого гауссиана в итоговое качество рендеринга. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная оценка проводилась на обширном наборе данных Mip-NeRF 360, который включает разнообразные сцены как внутренних, так и наружных пространств с различными освещениями и уровнями детализации. Датасет был выбран как стандартный бенчмарк для оценки качества нового синтеза ракурсов. Сравнение проводилось между стандартным 3DGS и предложенным методом, а также исследовалось влияние различных методов инициализации. Для инициализации использовались два подхода: традиционный Structure from Motion (SfM) и современный Deep Image Matching (DIM). Оказалось, что DIM обеспечивает более плотную и точную начальную облачную точек, что особенно важно для сцен с повторяющимися текстурами или слабыми текстурными признак

Annotation:

Achieving high-quality novel view synthesis in 3D Gaussian Splatting (3DGS) often depends on effective point primitive management. The underlying Adaptive Density Control (ADC) process addresses this issue by automating densification and pruning. Yet, the vanilla 3DGS densification strategy shows key shortcomings. To address this issue, in this paper we introduce a novel density control method, which exploits the volumes of inertia associated to each Gaussian function to guide the refinement pro...

ID: 2508.05187v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 Incident Response Planning Using a Lightweight Large Language Model with Reduced Hallucination

2025-08-09

Авторы:

Kim Hammar, Tansu Alpcan, Emil C. Lupu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире, где киберугрозы становятся все более частыми и сложными, своевременная и эффективная реагирование на инциденты является критическим фактором обеспечения безопасности. Однако определение правильных действий по реагированию для сложных систем представляет собой значительную техническую проблему. Традиционные методы часто требуют больших ресурсов и не всегда обеспечивают оптимальные решения. Одним из перспективных подходов к решению этой проблемы является использование больших языковых моделей (LLMs), которые включают в себя обширные знания в области кибербезопасности. Эти модели могут помочь операторам безопасности в процессе реагирования на инциденты, предоставляя рекомендации и планы действий. Однако существующие методы, основанные на prompt engineering фронтирных LLMs, столкнулись с рядом проблем. Во-первых, они являются дорогостоящими в использовании. Во-вторых, они часто вызывают галлюцинации — неточные или неправильные ответы, что может привести к нежелательным последствиям в критически важных ситуациях. В данной работе авторы предлагают новый подход к использованию LLMs для планирования реагирования на инциденты, который снижает вероятность галлюцинаций и одновременно остается легковесным и эффективным с точки зрения вычислительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод состоит из трех основных этапов: fine-tuning, информационный поиск и планирование с просмотром вперед (lookahead planning). 1. **Fine-tuning**: На этом этапе модель обучается на специфических данных, связанных с кибербезопасностью, что позволяет адаптировать ее к конкретной области использования. Это помогает улучшить точность и релевантность получаемых ответов. 2. **Информационный поиск**: Этот этап включает в себя поиск и извлечение релевантной информации из базы знаний или документов, связанных с конкретным инцидентом. Это помогает модели получать более точную информацию, необходимую для генерации плана действий. 3. **Lookahead Planning**: На последнем этапе модель использует полученную информацию для создания плана действий с учетом возможных последствий каждого шага. Этот подход позволяет снизить вероятность галлюцинаций, так как модель проверяет каждый шаг плана перед его финальным формированием. Авторы доказывают, что при использовании этого метода вероятность галлюцинаций может быть сделана произвольно малой за счет увеличения времени планирования при определенных условиях. Кроме того, метод является легковесным и может работать на обычном оборудовании, что делает его доступным для широкого круга пользователей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели эксперименты на данных из логов инцидентов, описанных в литературе. Результаты показали, что метод достигает до 22% более коротких времени восстановления после инцидентов по сравнению с фронтирными LLMs. Кроме того, метод демонстрирует хорошую адаптацию к различным типам инцидентов и реакционным действиям, что подтверждает его широкую применимость. Эксперименты также показали, что метод может быть эффективен даже при ограниченных вычислительных ресурсах, что делает его практичным для реального применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для области кибербезопасности. Он может быть использован для улучшения процесса реагирования на инциденты, что в свою очередь помогает снизить время восстановления и снизить вероятность возникновения дополнительных угроз. Одним из главных преимуществ этого метода является его легковесность и возможность использования на обычном оборудовании, что делает его доступным для малого и среднего бизнеса, а также для организаций с ограниченными бюджетами. Кроме того, метод позволяет снизить вероятность галлюцинаций, что является критическим фактором для принятия верных решений в критически важных ситуациях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был представлен новый подход к использованию LLMs для планирования реагирования на инциденты с уменьшенной вероятностью галлюцинаций. Этот метод демонстрирует значительные преимущества по сравнению с традиционными подходами, включая уменьшение времени восстановления и широкую адаптацию к различным типам инцидентов. В будущем, исследования могут быть направлены на дальнейшее улучшение точности и эффективности метода, а также на разработку более продвинутых методов для снижения вероятности галлюцинаций. Кроме того, может быть исследована возможность интеграции этого метода с другими системами кибербезопасности для создания более комплексных решений.

Annotation:

Timely and effective incident response is key to managing the growing frequency of cyberattacks. However, identifying the right response actions for complex systems is a major technical challenge. A promising approach to mitigate this challenge is to use the security knowledge embedded in large language models (LLMs) to assist security operators during incident handling. Recent research has demonstrated the potential of this approach, but current methods are mainly based on prompt engineering of...

ID: 2508.05188v1 cs.CR, cs.AI

arXiv PDF

📄 QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

2025-08-09

Авторы:

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Retrieval-Augmented Generation (RAG) является передовым подходом в Multimodal Large Language Models (MLLMs), направленным на снижение риска галлюцинаций в процессе генерации ответов. Он дополняет модели внешним знанием, что делает его весьма эффективным для решения задач Knowledge-Intensive Visual Question Answering (VQA). Тем не менее, существующие методы RAG часто ограничены возможностями поиска, осуществляющегося либо в текстовой, либо в визуальной области, что ограничивает их способность обрабатывать сложные запросы, требующие мульти-хоп рассуждений или актуального фактического знания. В попытке решить эту проблему, авторы предлагают QA-Dragon, систему, оптимизированную для мультимодальных, много-хоп и много-турных задач Вопрос-Ответ. QA-Dragon предназначен для работы в сложных сценариях, где требуется комбинация текстовых и визуальных данных для построения точного ответа. Однако, сложность таких задач заключается в том, что традиционные методы поиска не всегда могут эффективно обрабатывать запросы, которые требуют контекстуального поиска в разных доменах. Дополнительным вызовом является необходимость в поиске решений, которые могут динамически адаптироваться к конкретным доменам запроса. Такие запросы могут включать в себя не только текстовые, но и визуальные компоненты, что делает необходимым создание системы, способной динамически выбирать оптимальные стратегии поиска в зависимости от характеристик запроса. ## ПРЕДЛОЖЕННЫЙ МЕТОД QA-Dragon представляет собой Query-Aware Dynamic RAG System, который построен на основе двух ключевых компонентов: **domain router** и **search router**. **Domain router** отвечает за определение домена запроса, что позволяет системе выполнять доменно-специфичное рассуждение. **Search router**, в свою очередь, динамически выбирает оптимальную стратегию поиска, в зависимости от характеристик запроса. Эти компоненты работают вместе, чтобы координировать поиск в текстовых и визуальных источниках, обеспечивая гибридную стратегию поиска. В основе QA-Dragon лежит модель, которая позволяет производить мультимодальное, много-хоп и много-турное рассуждение. Это достигается за счет использования гибридного подхода, который комбинирует текстовый и визуальный поиск. Такой подход позволяет системе эффективно обрабатывать запросы, которые требуют интеграции информации из разных источников для построения контекстуального и точного ответа. Кроме того, QA-Dragon включает в себя механизмы для адаптивного управления поиском, что позволяет ему быть более эффективным в решении сложных задач. Эта система также поддерживает много-турный поиск, что делает его пригодным для задач, требующих последовательного выявления информации из разных источников. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ QA-Dragon был протестирован на Meta CRAG-MM Challenge в рамках KDD Cup 2025. Эксперименты показали значительное улучшение результатов по сравнению со стандартными подходами. Система показала рост точности ответов на 5.06% в задачах с одним источником, 6.35% в мульти-источниковых задачах и 5.03% в много-турных задачах. Эксперименты проводились на многомодальных данных, которые включали в себя как текстовые, так и визуальные компоненты. QA-Dragon продемонстрировал высокую эффективность в сложных сценариях, где требуется комбинация разных типов данных для построения точного ответа. Результаты экспериментов показали, что QA-Dragon не только повышает точность ответов, но и повышает качество рассуждений, основанных на внешнем знании. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ QA-Dragon имеет широкое применение в областях, требующих интеграции знаний из разных доменов для построения точных ответов на сложные запросы. Он может быть использован в различных приложениях, таких как поисковые системы, системы поддержки решений, и даже в областях медицинского и научного исследования, где необходима точная интеграция текстовых и визуальных данных. Одним из ключевых преимуществ QA-Dragon является его способность динамически адаптироваться к разным доменам и выбирать оптимальные стратегии поиска. Это делает его подходящим для решения задач, требующих контекстуального понимания и мультимодального поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ QA-Dragon представляет собой значительный шаг вперед в области Knowledge-Intensive Visual Question Answering. Он не только повышает точность ответов, но и позволяет системе эффективно обрабатывать сложные запросы, требующие мультимодального поиска. В будущем, этот подход может быть расширен для решения еще более сложных задач, включая те, где требуется еще большая интеграция информации из различных источников. Кроме того, QA-Dragon может быть адаптирован для работы в других областях, где необходимо обрабатывать мультимодальные данные, что делает этот подход весьма перспективным для дальнейшего развития.

Annotation:

Retrieval-Augmented Generation (RAG) has been introduced to mitigate hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge into the generation process, and it has become a widely adopted approach for knowledge-intensive Visual Question Answering (VQA). However, existing RAG methods typically retrieve from either text or images in isolation, limiting their ability to address complex queries that require multi-hop reasoning or up-to-date factual knowledge. ...

ID: 2508.05197v1 cs.AI, cs.CL, cs.CV

arXiv PDF

1
2
3382
3383
3384
3385
3386
3402
3403

Показано 33831 - 33840 из 34022 записей