📚 Саммари научных статей из arXiv

Найдено 196 результатов по запросу 'cs.AI, cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing

2025-09-20

Авторы:

Lanxiao Huang, Daksh Dave, Ming Jin, Tyler Cody, Peter Beling

## Контекст Модели ларж-лангуадж моделс (LLM) широко применяются для автоматизации и усиления процессов пенетрационного тестирования. Однако их эффективность и надежность в различных фазах атак остаются весьма сомнительными. Это приводит к необходимости оценить их реальные возможности и уязвимости. Исследование сосредоточено на изучении различных LLM-агентов, включая одноагентные и модульные конструкции, в реалистичных сценариях пенетрационного тестирования. Целем работы является измерение их производительности и выявление повторяющихся проблемных моментов в работе. Оценка позволит принять обоснованные решения о том, какие архитектуры и методы лучше всего подходят для автоматизации пенетрационных тестов. ## Метод Эксперименты были проведены с использованием пяти основных технических решений, каждое из которых адресует конкретную функциональную способность: глобальное контекстное память (GCM), взаимодействие между агентами (IAM), контекстно-обусловленный вызов (CCI), адаптивное планирование (AP) и реальное временное мониторинге (RTM). Эти компоненты были рассмотрены в качестве модулей, которые могут быть добавлены к основной LLM-архитектуре, чтобы улучшить ее возможности. Тестирование проводилось в условиях реальных угроз, использовавшихся для оценки производительности в вопросах контекстности, синхронности, стратегического планирования и динамического ответа на изменения. ## Результаты Исследование показало, что некоторые LLM-архитектуры уже имеют некоторые функциональные способности, но без дополнительных модулей их работа остается недостаточно надежной. Модули GCM и CCI улучшили контекстную когницию и синхронизацию между агентами, что увеличило точность исполнения инструментов. Модуль AP повысил уровень стратегического планирования и определения ошибок, а RTM обеспечил реакцию на внезапные изменения в реальном времени. Таким образом, модульные подходы, сочетающие несколько функциональных способностей, оказались более эффективными в задачах, требующих многоэтапного подхода и мгновенного реагирования. ## Значимость Полученные результаты имеют значительное значение для развития систем автоматизации пенетрационных тестов. Они позволяют усовершенствовать LLM-агенты, делая их более надежными в атаках с угрозами в реальном времени. Интеграция модулей, таких как GCM, CCI, AP и RTM, может не только увеличить эффективность, но и обеспечить более глубокую контекстную аналитику и совместную работу многоагентных систем. Эти наработки могут быть применены не только в сфере IT-безопасности, но и в других областях, где требуется над

Annotation:

Large language models (LLMs) are increasingly used to automate or augment penetration testing, but their effectiveness and reliability across attack phases remain unclear. We present a comprehensive evaluation of multiple LLM-based agents, from single-agent to modular designs, across realistic penetration testing scenarios, measuring empirical performance and recurring failure patterns. We also isolate the impact of five core functional capabilities via targeted augmentations: Global Context Mem...

ID: 2509.14289v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

2025-09-20

Авторы:

Ming Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou

## Контекст Статья рассматривает проблему понимания мышления у алгоритмов с цепочкой мыслей (chain-of-thought reasoning), которые используются в машинном обучении, особенно в задачах математического моделирования. Несмотря на то, что такие модели могут генерировать достаточно детальные цепочки рассуждений, эксперты исследователей не имеют четкой системы для анализа этих процессов. Одной из мотиваций является необходимость создания более прозрачных и управляемых моделей, которые могут объяснить свои решения. Такое понимание не только улучшит надежность моделей, но и позволит их лучше применять в реальной жизни, где понятность решений критична. Одной из самых популярных моделей является Large Reasoning Model (LRM), которая способна разбирать задачи сложного уровня. Однако, нет единого фреймворка для анализа работы таких моделей. Идея статьи заключается в использовании теории Схёнфельда о событиях (Episode Theory), которая была разработана для изучения устройства человеческого мышления в математике, для анализа цепочек мыслей моделей. Этот подход позволяет проанализировать, как LRMs принимают решения, какие этапы они проходят и что это говорит о динамике их работы. ## Метод Авторы применяют теорию Схёнфельда о событиях (Episode Theory) для разбора процесса рассуждений LRMs. Эта теория разделяет процесс решения задач на несколько определенных этапов (называемых "событиями"), таких как планирование, выполнение, проверка и другие. Для этого была проведена интенсивная работа по лексикографическому анализу и аннотации данных. Было проанализировано многочисленное количество решений, сгенерированных моделью LRM, и по каждому решению были применены семь этих "событий" для описания того, как модель пришла к решению. Из этой работы появился большой корпус данных, полностью аннотированный, который является первым в своем роде для цельного анализа машинного мышления. Авторы также разработали подробное руководство по аннотации, чтобы обеспечить точность и согласованность в анализе. Этот подход позволил исследователям выявить различные динамические закономерности в поведении моделей, включая переходы между состояниями рассуждений. ## Результаты В результате применения теории Схёнфельда к LRMs было выявлено несколько главных тенденций: 1. Модели LRMs используют схожие стратегии решения задач, что дает представление о том, как они приходят к решению. 2. Было выявлено, что LRMs часто переходят между разными состояниями рассуждений, такими как "планирование" и "проверка". 3. Было показано, что шаги, которые делают модели, могут быть структурированы и анализированы с помощью метода Episode Theory. Таким образом, авторы подгото

Annotation:

While Large Reasoning Models (LRMs) generate extensive chain-of-thought reasoning, we lack a principled framework for understanding how these thoughts are structured. In this paper, we introduce a novel approach by applying Schoenfeld's Episode Theory, a classic cognitive framework for human mathematical problem-solving, to analyze the reasoning traces of LRMs. We annotated thousands of sentences and paragraphs from model-generated solutions to math problems using seven cognitive labels (e.g., P...

ID: 2509.14662v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

2025-09-19

Авторы:

Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson

## Контекст Speech In-Context Learning (SICL) — это процесс, в котором модели понимают и обрабатывают речь, полагаясь не только на ранее прослушанные примеры, но и на контекст, в котором происходит данное выражение. Несмотря на то, что существуют многомодальные модели, включающие в себя множество языков и акцентов, их эффективность в сложных сценариях (например, речи с акцентом, детской речи или мультилингвальной речи) остается недостаточной. Это происходит из-за недостатка в эффективном выборе контекстных примеров для обучения в контексте. Отсутствие эффективных методов для выбора этих примеров приводит к ухудшению качества распознавания речи. В настоящий момент нет элементарных средств для решения этой проблемы, что ставит под угрозу достижение высокой точности в распознавании речи. ## Метод TICL (Text-Embedding KNN for SICL) — это простая архитектура, основанная на использовании текстовых примеров для улучшения распознавания речи. Она построена на базе больших моделей мультимодального понимания, таких как LLaMA или PaLM. Работа процесса TICL состоит в следующем: для каждого нового примера речи работает процесс поиска семантически близких примеров из предварительно обученного набора данных. Эти примеры являются ключевыми для ситуации, когда необходимо понять и распознать речь в контексте. Используя эти примеры, TICL оптимизирует процесс распознавания речи без непосредственного тренировочного процесса модели. Это позволяет повысить точность распознавания речи, даже в случаях, когда примеры речи отличаются от обучающего набора (например, речь с акцентом или детской речи). ## Результаты Надёжность и эффективность метода TICL были проверены на многочисленных сложных задачах распознавания речи. Это включало в себя речь с акцентом, мультилингвальную речь и речь детей. На этих задачах TICL позволил моделям достичь результатов, лучше нулевого запуска, с помощью относительного снижения Relative Word Error Rate (WER) до 84.7%. Для подтверждения результатов проводились абляционные исследования, показавшие, что качество работы TICL не зависит от выбора конкретной модели и работает эффективно с разными типами мультимодальных моделей. Эта надёжность демонстрирует значительный потенциал TICL в области распознавания речи. ## Значимость TICL открывает новые возможности для распознавания речи в различных сложных сценариях. Он может применяться для улучшения распознавания речи в реальном времени, включая системы управления, медицинское применение и технологии обучения. За счёт того, что TICL улучшает точность распознавания речи без необходимости дополнительной моделирования, он экономит ресурсы. Это может привести к более быстрому развитию технологий ра

Annotation:

Speech foundation models have recently demonstrated the ability to perform Speech In-Context Learning (SICL). Selecting effective in-context examples is crucial for SICL performance, yet selection methodologies remain underexplored. In this work, we propose Text-Embedding KNN for SICL (TICL), a simple pipeline that uses semantic context to enhance off-the-shelf large multimodal models' speech recognition ability without fine-tuning. Across challenging automatic speech recognition tasks, includin...

ID: 2509.13395v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

2025-09-19

Авторы:

Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang

## Контекст Обучение лагерных языковых моделей (LLMs) на больших данных ведет к появлению нежелательных поведений, таких как синкопаторность, генерация вредных сообщений и неверности. Эти проблемы могут быть вызваны неэффективным распределением внимания языковой модели к конкретным аспектам представленной информации. Одним из подходов к решению этих проблем является "representation steering", который стремится изменять внутреннюю модельный процессы для контроля поведения LLMs. Несмотря на рост интереса к этой области, существуют недостатки в систематическом оценивании показателей steering, особенно в отношении основных алгоритмов и их влияния на вторичные признаки. Мы предлагаем бенчмарк SteeringControl, который предназначен для оценки эффективности различных методов steering в трех основных областях: синкопаторность, вредная генерация и наложение. ## Метод SteeringControl представляет собой модульный фреймворк, состоящий из пяти основных методов steering, каждый из которых может использоваться для контроля представленной информации в текстах. Методы зависят от типа нарушения (синкопаторность, вредная генерация и т.д.) и представляют собой компоненты, которые изменяют внутренние представления языковой модели. Мы создали также большой набор данных, включающий в себя основные (primary) и вторичные (secondary) показатели этих нарушений. Эти данные используются для оценки того, насколько эффективно работает каждый метод steering в отношении конкретных задач. Мы проверяем эти методы на моделях Qwen-2.5-7B и Llama-3.1-8B, что позволяет получить значимые инсайты для трех основных показателей. ## Результаты В ходе экспериментов мы показали, что сильная стееринговой производительность зависит от конкретной комбинации метода steering, модели и целевого поведения. Мы обнаружили, что некоторые комбинации могут привести к серьезным концептуальным связанностям, которые препятствуют достижению целей steering. Например, модель Llama-3.1-8B показала лучшую производительность в случае синкопаторного steering, но сильные побочные эффекты, такие как вредная генерация, были замечены при использовании некоторых методов steering. На модели Qwen-2.5-7B, напротив, мы заметили лучшую производительность комбинаций steering методов, которые приводят к меньшему количеству побочных эффектов. ## Значимость SteeringControl предоставляет широкий круг возможностей для оценки steering методов в LLMs. Он может быть применен для эффективной оценки и контроля нежелательных поведений, таких как синкопаторность и вредная генерация. Мы предлагаем свой бенчмарк в открытом доступе, чтобы помочь улучшить долгосрочную безопасность и эффективность мо

Annotation:

We introduce SteeringControl, a benchmark for evaluating representation steering methods across core alignment objectives--bias, harmful generation, and hallucination--and their effects on secondary behaviors such as sycophancy and commonsense morality. While prior alignment work often highlights truthfulness or reasoning ability to demonstrate the side effects of representation steering, we find there are many unexplored tradeoffs not yet understood in a systematic way. We collect a dataset of ...

ID: 2509.13450v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Dense Video Understanding with Gated Residual Tokenization

2025-09-19

Авторы:

Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu

## Контекст Область видеопонимания (video understanding) является ключевым направлением искусственного интеллекта, которое призвано извлекать значимые сведения из видеоданных. Улучшение этой области имеет решающее значение для приложений, таких как анализ видео, системы рекомендации, автоматическая система оповещения и анализ социальных сетей. Однако существуют значительные вызовы, связанные с высокой стоимостью вычислений и большим объемом данных, которые необходимо обрабатывать. Особенно вызовы становятся актуальными при работе с высокочастотными видео (high-FPS video), где кадры проигрываются почти в реальном времени, и требуется точное временное выравнивание. Основная проблема заключается в том, что популярные технологии, такие как глубокие нейронные сети (deep neural networks) и видео-большие языковые модели (video large language models, VLLM), обычно работают с низкочастотными видео (low-frame-rate), либо выполняют выборку кадров, либо используют ключевые кадры. Это приводит к потере тонких деталей и неэффективности в обработке высокочастотных видео. Таким образом, необходимо разработать методы, которые позволят эффективно и точно обрабатывать высокочастотные видео, не жертвуя скоростью и точностью. ## Метод Для решения этой проблемы предлагается новая методология, основанная на двух этапах: _Motion-Compensated Inter-Gated Tokenization_ и _Semantic-Scene Intra-Tokenization Merging_. В первом этапе _Motion-Compensated Inter-Gated Tokenization_ используется пиксельный расчет движения для определения статичных областей видео, которые могут быть пропущены в процессе токенизации. Это позволяет эффективно сократить количество токенов и вычислительных ресурсов, необходимых для обработки высокочастотных видео. Во втором этапе _Semantic-Scene Intra-Tokenization Merging_ происходит слияние токенов внутри статичных сцен с целью уменьшить ненужную хаотичность и сохранить динамические свойства видео. Это два этапа обеспечивают наибольшую эффективность, точность и ресурсосберегающую модель, которая может быть применена для работы с высокочастотными видео и данными. ## Результаты Результаты экспериментов проводились на новом бенчмарке Dense Information Video Evaluation (DIVE), который был разработан для тестирования моделей на точность временного выравнивания и обработки высокочастотных видео. Модель Gated Residual Tokenization (GRT) доказала свою превосходность перед более крупными моделями VLLM, улучшив показатели точности в 20% и достигнув высокой эффективности в токенизации, что позволило сократить количество вычислительных операций на 30%. Благодаря двухэтапной токенизации, модель GRT не только эффективно обрабатывает высокочастотные видео, но и экономит ресурсы, что делает ее применимую в реальных ситуациях, таких как лекционный

Annotation:

High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing...

ID: 2509.14199v2 cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08, 94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9; I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8

arXiv PDF

📄 LLMAP: LLM-Assisted Multi-Objective Route Planning with User Preferences

2025-09-18

Авторы:

Liangqi Yuan, Dong-Jun Han, Christopher G. Brinton, Sabine Brunswicker

## Контекст Рост больших языковых моделей (LLMs) способствовал развитию новых подходов к маршрутизации, основанным на естественном языке. Эта область исследований охватывает многообразные пользовательские предпочтения и задачи. Существующие методы делятся на два типа: **LLM-as-Agent**, где LLMs прямо выполняют планирование маршрутов, и **graph-based strategies**, основанные на графах, которые позволяют искать оптимальные маршруты. Однако, LLM-as-Agent страдает от ограниченных возможностей обработки разреженных данных глобальных карт, а graph-based подходы ограничиваются в своей способности разбирать естественный язык пользовательских предпочтений. Это приводит к недостатку гибкости в учете пользовательских задач. Дополнительно, глобальная неоднородность и предсказательность зависимостей времени и расположения пользователей добавляет сложности. Наша цель заключается в разработке новой системы LLMAP, которая объединяет преимущества LLM-as-Parser и мощной многоцелевой оптимизации, чтобы обеспечить точное понимание задач и оптимальное планирование маршрутов. ## Метод LLMAP использует LLM-as-Parser для того, чтобы распознавать задачи, понимать естественный язык и извлекать пользовательские предпочтения, включая зависимости между задачами. Для оптимального планирования требуется использовать LLM в сочетании с Multi-Step Graph Construction with Iterative Search (MSGS) — алгоритмом построения графа и поиска маршрута. Многоцелевая оптимизация позволяет адаптивно управлять весами задач, чтобы приоритизировать качество точек интереса (POI), выполнение задач и минимизировать расстояние маршрута. Таким образом, гибко применяются три ограничения: временные рамки, динамика открытия точек интереса и зависимости между задачами. Это позволяет находить решение, учитывающее характеристики пользователя и глобальных ограничений. ## Результаты Мы провели эксперименты с 1000 сценариями маршрутизации, распределенными по 14 странам и 27 городам. Наши результаты показали, что LLMAP достигает высокой точности в обработке естественного языка, а также эффективно решает задачи многоцелевой оптимизации. Наши результаты показали, что система LLMAP превышает предыдущие подходы в обеспечении решений с гарантированным качеством, учитывая все ограничения. Кроме того, наш подход демонстрирует высокую гибкость в учете динамических изменений на карте, включая изменения времени работы точек интереса и изменения зависимостей между задачами. ## Значимость Полученные результаты открывают новые возможности для развития технологий маршрутизации, основанных на естественном языке. LLMAP может применяться в различных сферах, включая туризм

Annotation:

The rise of large language models (LLMs) has made natural language-driven route planning an emerging research area that encompasses rich user objectives. Current research exhibits two distinct approaches: direct route planning using LLM-as-Agent and graph-based searching strategies. However, LLMs in the former approach struggle to handle extensive map data, while the latter shows limited capability in understanding natural language preferences. Additionally, a more critical challenge arises from...

ID: 2509.12273v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning

2025-09-13

Авторы:

Bingning Huang, Tu Nguyen, Matthieu Zimmer

## Контекст Одним из ключевых направлений в развитии искусственного интеллекта является создание алгоритмов, которые могут принимать решения в условиях неопределенности и сложности. Традиционные модели часто сталкиваются с проблемами в обработке сложных задач, требующих многошагового рассуждения и адаптивного поведения. Многошаговое рассуждение является ключевым аспектом в таких областях, как управление, игры, математическая моделирование и решение задач символьной логики. Одна из сложностей заключается в том, чтобы оптимизировать политики, которые могут действовать в условиях неполного или частичного знания. Это влечет за собой необходимость разработки алгоритмов, которые могут использовать частично открытые данные и при этом поддерживать качество решений. Работа Tree-OPO стремится заполнить этот пробел, используя Monte Carlo Tree Search (MCTS) для улучшения оптимизации политик в среде поддержки многошагового рассуждения. ## Метод Методология Tree-OPO основывается на использовании Monte Carlo Tree Search (MCTS) для генерирования полного дерева возможных действий в любой момент времени во время задачи. Основным инновационным моментом является использование частично открытых деревьев для оценки привилегированного префикса в контексте групповой оптимизации политик. Архитектура Tree-OPO включает в себя несколько этапов: 1. **Генерация частичных деревьев**: Для каждого возможного префикса задачи генерируется дерево действий, используя MCTS. 2. **Оценка привилегированного префикса**: Основываясь на частично открытом дереве, вычисляется привилегированный префикс, который помогает оптимизировать политику. 3. **Оптимизация политики**: Используя структурированные выходы MCTS, алгоритм оптимизирует политику, используя Group Relative Policy Optimization (GRPO). Эта структура позволяет алгоритму работать над задачами, требующими многошагового рассуждения, в то же время уменьшая количество необходимого вычислительного ресурса. ## Результаты Эксперименты проводились на ряде сложных задач, включая задачи математического моделирования и решения задач символьной логики. Использованы различные данные, включая текстовые данные, символьные выражения и задачи математической символики. Результаты показали, что Tree-OPO значительно улучшает стабильность обучения и качество решений в сравнении с другими методами. Например, в задачах символьной логики, Tree-OPO показал значительное преимущество в точности решений, а также в способности обрабатывать задачи с частичным знанием. ## Значимость Tree-OPO может быть применен в различных областях, таких как управление, игровые алгоритмы, и решение задач символьной логики.

Annotation:

Recent advances in reasoning with large language models (LLMs) have shown the effectiveness of Monte Carlo Tree Search (MCTS) for generating high-quality intermediate trajectories, particularly in math and symbolic domains. Inspired by this, we explore how MCTS-derived trajectories, traditionally used for training value or reward models, can be repurposed to improve policy optimization in preference-based reinforcement learning (RL). Specifically, we focus on Group Relative Policy Optimization (...

ID: 2509.09284v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations

2025-09-13

Авторы:

Zakaria El Kassimi, Fares Fourati, Mohamed-Slim Alouini

#### Контекст Вопрос возникновения этого исследования связан с необходимостью обеспечить надежные и точные интерпретации правил радиокоммуникаций, которые являются ключевыми для работы в области связи. Эти правила не только регулируют технические аспекты систем связи, но и имеют юридическую и стратегическую важность. Ошибки в интерпретации могут привести к серьезным последствиям, включая юридические споры и технические неполадки. Несмотря на то, что существуют системы генерации ответов на вопросы, их применение в такой высококачественной и реалистичной области, как радиоправо, показывает значительные недостатки, в основном из-за отсутствия конкретных методов и архитектур, специализированных для этого домена. #### Метод Мы предлагаем новую методологию, объединяющую расширенную генерацию и вспомогательную поисковую систему, названную Retrieval-Augmented Generation (RAG). Этот подход включает в себя следующие этапы: 1) Извлечение подходящих документов из базы знаний, специально подготовленной для радиокоммуникаций; 2) Оценка качества извлеченных документов с помощью доменно-специфического метрического показателя; 3) Использование извлеченных документов для надёжной интерпретации вопросов и генерирования ответов. Мы также вводим новую многовариантную оценочную множество вопросов, конструированных на основе авторитетных источников, которые прошли автоматическую фильтрацию и ручную верификацию. #### Результаты Мы проводили эксперименты с несколькими моделями генерации ответов, включая GPT-4o. Наши результаты показывают, что применение RAG-пайплайна существенно повышает точность генерации ответов. Например, при традиционном подходе с простой вставкой документов в GPT-4o улучшение составляет менее 1%, в то время как при использовании пайплайна RAG эффект наблюдается в размере почти 12% относительного увеличения точности. Эта разница отражает эффективность направленного поиска и грундинга в контексте регуляторного вопроса-ответа. #### Значимость Результаты демонстрируют, что наш подход имеет широкое применение в сложных сферах, где точность и достоверность важны. Он может применяться не только в области радиокоммуникаций, но и в других регуляторных сферах, где необходимо использование специальных знаний. Главные преимущества RAG-пайплайна заключаются в своей мощности и точности, которые обеспечиваются высоким качеством извлечения и точной генерацией ответов. Мы также отмечаем, что данный подход может стать основой для развития будущих исследований в области генеративных моделей для регуляторных

Annotation:

We study question answering in the domain of radio regulations, a legally sensitive and high-stakes area. We propose a telecom-specific Retrieval-Augmented Generation (RAG) pipeline and introduce, to our knowledge, the first multiple-choice evaluation set for this domain, constructed from authoritative sources using automated filtering and human validation. To assess retrieval quality, we define a domain-specific retrieval metric, under which our retriever achieves approximately 97% accuracy. Be...

ID: 2509.09651v1 cs.IR, cs.AI, cs.CL, cs.LG, eess.SP

arXiv PDF

📄 SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

2025-09-13

Авторы:

Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding

## Контекст Vision-Language-Action (VLA) модели стали мощным инструментом для проблематики robotic manipulation. Они объединяют в себе способности понимания текста, обработки изображений и реального взаимодействия с окружающим перворостком. Несмотря на успехи, полученные благодаря большим объемам предобучения и настройке под конкретные задачи (SFT), эти модели сталкиваются с двумя основными проблемами: 1. Ограниченность и высокая стоимость больших датасетов траекторий управления, полученных с помощью ручного управления. 2. Ограниченность в общепринятом понятии generalization, что приводит к необходимости стремительного роста размера обучающих данных. Эти проблемы подчеркивают необходимость развития новых подходов к обучению VLA-моделей, которые смогут справляться с этими недостатками. ## Метод SimpleVLA-RL представляет собой развитие идей RL в области обучения VLA-моделей. Существующие техники RL, такие как veRL, были адаптированы с учетом конкретных особенностей VLA-моделей. Набор оптимизаций включает в себя: 1. **Выборка траекторий**: Методы, нацеленные на эффективное получение траекторий, которые затем используются для обучения. 2. **Параллельность**: Распараллеливание процесса выборки траекторий для увеличения эффективности. 3. **Улучшенные стратегии эксплуатации**: Инновационные подходы, позволяющие модели открывать новые траектории и варианты поведения. 4. **Оптимизация вычислений**: Реализация эффективных вычислений для работы с большими датасетами. Эти методы были реализованы в SimleVLA-RL, создав эффективный инструмент для обучения VLA-моделей с учетом их специфики. ## Результаты Проведены эксперименты с применением SimpleVLA-RL к двум известным датасетам: OpenVLA-OFT и RoboTwin. Эти эксперименты подтвердили, что SimpleVLA-RL: 1. Существенно улучшает результаты по сравнению с состоянием технологии (SoTA) на LIBERO. 2. Опережает модели $\pi_0$ на RoboTwin 1.0 и 2.0, благодаря новым стратегиям эксплуатации. При этом модель показала способность находить новые, до этого неизвестные траектории в процессе обучения, что демонстрирует способность к новым, нестандартным решениям. ## Значимость SimpleVLA-RL демонстрирует практическое применение RL в области VLA-моделей, решая ключевые проблемы: 1. Уменьшение зависимости от больших датасетов. 2. Улучшение способности моделей к generalization. 3. Увеличение эффективности реального применения VLA-моделей в сложных сценариях. Эти достижения открывают путь к развитию более надежных и производительных моделей для robotic manipulation. ## Выводы SimpleVLA-RL доказывает, что RL может эффективно решать проблемы обучения VLA-моделей, снижая

Annotation:

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that...

ID: 2509.09674v1 cs.RO, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 ArGen: Auto-Regulation of Generative AI via GRPO and Policy-as-Code

2025-09-11

Авторы:

Kapil Madan

## Контекст В последние годы статус генерирующихся систем AI, таких как Large Language Models (LLMs), поднимает вопросы о их справедливости, безопасности и соответствии нормам. Особенно сложно становится применять эти системы в культурно разнообразных и регулируемых сферах, таких как медицина и финансы. Существующие подходы к выравниванию генерирующихся систем AI, такие как предпочтение-скорсть, ограничиваются в области социально-этичных норм и законодательных требований. Это ставит под угрозу безопасность и этическое воздействие систем. "ArGen" (Auto-Regulation of Generative AI) представляет собой рамформу для глубокого выравнивания LLMs с подробными системами норм, включающими этические принципы, безопасность и законодательные нормы. Он призван преодолеть ограничения существующих подходов, обеспечивая адаптивный и прозрачный подход к выравниванию LLM. ## Метод "ArGen" основывается на трех ключевых компонентах: 1. **Principle-Based Automated Reward Scoring (PBARS):** Этот подход использует машинно-чтение правил, чтобы генерировать автоматические оценки, соответствующие нормам. 2. **Group Relative Policy Optimisation (GRPO):** Это метод, где политики групп жизненно важных норм и принципов учитываются в оптимизации поведения LLM. 3. **Open Policy Agent (OPA) Inspired Governance Layer:** Этот уровень, использующий Open Policy Agent, предоставляет прозрачность и контроль, обеспечивая возможность адаптации к уникальным требованиям каждого контекста. "ArGen" имеет гибкую архитектуру, которая позволяет ему сочетать эти элементы для создания "Governable Al" систем. ## Результаты В экспериментах "ArGen" был применен для выравнивания LLM в сложной медицинской сфере, ориентированной на принципы Dharmic ethics, такие как Ahimsa (нежестокость) и Dharma (порядок). Использовались тренировочные данные из медицинской практики, включая кейсы, где требуется соблюдение этических и законодательных норм. Результаты показали, что "ArGen" улучшил соответствие домена на 70.9% по сравнению с базовым подходом, при этом повысив прозрачность и управляемость LLM. Также были показаны снижение риска и улучшение соблюдения норм в тестировании. ## Значимость "ArGen" имеет широкое применение в области генерирующихся систем AI, где необходимо выравнивание с политиками, этическими принципами и законами. Он может быть полезен в сферах, таких как медицина, финансы и образование, где требуется высокий уровень управляемости и соответствия. Преимущества "ArGen" включают в себя повышенную прозрачность, предсказуемость и эффективность в управлении LLM. Это может привести к безопасному и этичному развертыванию AI в глобальных конте

Annotation:

This paper introduces ArGen (Auto-Regulation of Generative AI systems), a framework for aligning Large Language Models (LLMs) with complex sets of configurable, machine-readable rules spanning ethical principles, operational safety protocols, and regulatory compliance standards. Moving beyond just preference-based alignment, ArGen is designed to ensure LLMs adhere to these multifaceted policies through a novel synthesis of principle-based automated reward scoring, Group Relative Policy Optimisat...

ID: 2509.07006v1 cs.CY, cs.AI, cs.CL, cs.LG, 68T07, 68T50, I.2.6; I.2.7; K.4.1

arXiv PDF

1
2
12
13
14
15
16
19
20

Показано 131 - 140 из 196 записей