📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Attackers Strike Back? Not Anymore -- An Ensemble of RL Defenders Awakens for APT Detection

2025-08-28

Авторы:

Sidahmed Benabderrahmane, Talal Rahwan

#### Контекст Advanced Persistent Threats (APTs) представляют собой одну из наиболее опасных угроз для современных цифровых систем. В отличие от традиционных атак, APTs обладают стелс-технологиями, адаптивностью и долговечностью, что делает их труднооткрываемыми статичными системами обнаружения на основе подписей. Эти угрозы могут оставаться незамеченными в течение многих месяцев, собирая критическую информацию и разрушая инфраструктуру. Настоящая работа рассматривает проблемы статичности и неадаптивности существующих систем и предлагает инновационный подход к обнаружению APT-атак, основанный на сочетании глубокого обучения и реинфорсментного обучения (RL). #### Метод Основная идея фреймворка заключается в создании комплексной системы на основе нескольких RL-агентов, которые анализируют поведение процессов в системе. Для этого разработан автокодировщик, который сжимает поведение процессов в высокомерных векторы. Каждый RL-агент обучается использовать эти векторы для различения между безопасными и злонамеренными процессами. Алгоритмы, выбраны для этих агентов: Q-Learning, PPO и DQN. Также включен агент-атакующий, нацеленный на поиск слабых мест в системе. Если любой RL-агент expersи не уверен в своем решении, активное обучение запускается для получения экспертного ввода, чтобы доработать границы разделения. Решение объединяется через голосование, в зависимости от качества каждого RL-агента. #### Результаты Рассмотренная система была тестирована на реальных журналах процессов. Она показала высокую точность в обнаружении APT-атак, превосходя существующие методы статической и динамической аналитики. Ключевыми показателями являются F1-меры обнаружения и раннее выявление злонамеренных активностей. Также было проведено эксперимент, показавший, что голосование между RL-агентами сильно повышает устойчивость системы к ложным срабатываниям. #### Значимость Предложенный подход может быть применен в различных сферах, где требуется высокая устойчивость к APTs, таких как финансовые системы, государственные системы и критически важные структуры. Система предоставляет преимущества в скорости реакции и адаптивности к новым видам атак. Развитие таких систем может существенно повысить защиту от сложных атак в цифровой среде, снизив риск безупречного проникновения злоумышленников. #### Выводы Результаты экспериментов подтверждают высокую эффективность предложенного подхода в обнаружении APT-атак. Будущие исследования будут сфокусированы на улучшении активного обучения, интеграции дополнительных источников данных и расширени

Annotation:

Advanced Persistent Threats (APTs) represent a growing menace to modern digital infrastructure. Unlike traditional cyberattacks, APTs are stealthy, adaptive, and long-lasting, often bypassing signature-based detection systems. This paper introduces a novel framework for APT detection that unites deep learning, reinforcement learning (RL), and active learning into a cohesive, adaptive defense system. Our system combines auto-encoders for latent behavioral encoding with a multi-agent ensemble of R...

ID: 2508.19072v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 Playstyle and Artificial Intelligence: An Initial Blueprint Through the Lens of Video Games

2025-08-28

Авторы:

Chiu-Chou Lin

## Контекст Игровой процесс в видеоиграх широко изучается как механизм закрепления теорий интеллекта и интеллектуальных способностей. Однако многие аспекты игрового процесса, такие как стиль игры, часто остаются за пределами формальных моделей. Это отклонение от логического рассуждения в пользу разнообразия индивидуальных стилей игры подчеркивает необходимость в расширении подходов к изучению интеллектуальных систем. Мотивацией для этого исследования является создание более широкого понимания того, как разные стили игры влияют на поведение и решения игроков, а также на способность искусственного интеллекта (ИИ) распознавать и реагировать на эти стили. ## Метод Для изучения стилей игры предлагается формализовать понятие "плейстайл", используя метрики, основанные на дискретизированных пространствах состояний. Это позволяет измерить разнообразие стратегий и конкурентные балансы. Базовая модель построена на двух уровнях: внешнем интеракционном цикле с окружением и внутреннем когнитивном цикле размышления. Решения в этой модели базируются на теории решений с неопределенностью и включают алгоритмы reinforcement learning и imitation learning. Эти методы используются для тренировки агентов, которые могут выражать стилистические тенденции и реагировать на подобные тенденции у других игроков. ## Результаты Исследование проводилось на основе данных с различных игр, включая онлайн-шутеры и стратегии. Агенты были тренированы для выражения стилей игры, таких как агрессивность, защитность и разнообразие. Результаты показали, что использование reinforcement learning и imitation learning позволяет получить агентов, которые не только выигрывают, но и подстраиваются под стили других игроков, что увеличивает разнообразие и увлекательность игры. Также были разработаны метрики, позволяющие измерить разнообразие стилей игры и конкурентные балансы в разных ситуациях. ## Значимость Результаты имеют широкое применение в игровой индустрии, в частности в разработке игр с разнообразными стилями игры, что может привести к более интересным и захватывающим опытам для игроков. Это также может повысить уровень интеллектуальных систем, позволяя им более точно распознавать и реагировать на стили игры. Дальнейший потенциал исследований заключается в расширении модели на область artificial general intelligence (AGI), где стиль может стать ключевым элементом для улучшения реакции интеллектуальных систем на разнообразие ситуаций. ## Выводы В данном исследовании было формализовано понятие "плейстайл" и разработан метод его измерения, основанный на дискретизированных пространствах состояний. Были предложены метрики, такие ка

Annotation:

Contemporary artificial intelligence (AI) development largely centers on rational decision-making, valued for its measurability and suitability for objective evaluation. Yet in real-world contexts, an intelligent agent's decisions are shaped not only by logic but also by deeper influences such as beliefs, values, and preferences. The diversity of human decision-making styles emerges from these differences, highlighting that "style" is an essential but often overlooked dimension of intelligence. ...

ID: 2508.19152v1 cs.AI, cs.LG, cs.MA, cs.SC

arXiv PDF

📄 Few-Shot Connectivity-Aware Text Line Segmentation in Historical Documents

2025-08-28

Авторы:

Rafael Sterzinger, Tingyu Lin, Robert Sablatnig

#### Контекст Цель данной работы — развить методы автоматической сегментации текстовых строк в исторических документах с малой доступной аннотированной информацией. Текстовая сегментация является ключевым этапом для цифровых аналитических задач документов. Однако, существующие техники часто требуют больших объемов аннотированных данных, которые недоступны для исторических документов из-за их характера и сложности. Эта нехватка данных приводит к ошибкам и неточности в автоматизированных системах. Более того, аннотация текстовых строк в исторических документах является затратным и трудоёмким процессом, поскольку требует глубокого знания текстовой области. Методология few-shot learning может оказаться эффективным решением для этих проблем, поскольку она способна обучаться на малых объемах данных. В настоящей работе мы исследуем, могут ли лёгкие и простые архитектуры, оптимизированные с использованием топологии-агностической функции потерь, превзойти более сложные модели в этой задаче. #### Метод Мы предлагаем архитектуру возвратной нейросети с небольшим количеством параметров, которая использует свёрточные слои, свёрточные слои UNet++ и свёрточные фильтры для обнаружения текстовых строк. Для оптимизации модели мы разработали топология-агностическую функцию потерь, которая используется для наглядного фильтрации и корректировки структуры текстовых строк. Мы тренируем нашу модель на небольших сегментах (взятых из трёх аннотированных страниц) из различных рукописных манускриптов. Это позволяет нам минимизировать объём данных, необходимый для обучения, и улучшить точность и качество работы модели. #### Результаты Мы сравнили нашу модель с современными моделями, использующими более сложные архитектуры и большие объёмы данных. Наши результаты показали, что наш метод превосходит конкуренты по метрикам Recognition Accuracy (увеличение на 200%) и Line Intersection over Union (увеличение на 75%) на датасете U-DIADS-TL. Также, мы достигли F-Measure-скоринга, который в некоторых случаях превышает результаты главного конкурента в задаче базового определения деления на строки в DIVA-HisDB. Это достигается с минимальным объёмом данных (только три аннотированные страницы), чего не достигают другие модели. #### Значимость Мы видим применение нашей модели в реальных задачах цифровой обработки документов, в частности в текстовой сегментации в исторических рукописях. Метод позволяет существенно уменьшить объем аннотации, необходимого для обучения, что существенно экономит ресурсы. Это может стать ключевым преимуществом в ситуациях, когда доступ к большим данным ограничен,

Annotation:

A foundational task for the digital analysis of documents is text line segmentation. However, automating this process with deep learning models is challenging because it requires large, annotated datasets that are often unavailable for historical documents. Additionally, the annotation process is a labor- and cost-intensive task that requires expert knowledge, which makes few-shot learning a promising direction for reducing data requirements. In this work, we demonstrate that small and simple ar...

ID: 2508.19162v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 From Tabula Rasa to Emergent Abilities: Discovering Robot Skills via Real-World Unsupervised Quality-Diversity

2025-08-28

Авторы:

Luca Grillotti, Lisa Coiffard, Oscar Pang, Maxence Faldor, Antoine Cully

## Контекст Автоматическое выявление навыков роботов является ключевым аспектом создания самостоятельных и адаптивных автономных систем. Данный подход позволяет роботам приобретать широкий спектл разнообразных поведений без предварительного ручного программирования. Однако существуют значительные затруднения в реализации этого подхода, особенно в тяготении к проблемам с безопасностью и эффективностью данных при работе на физическом оборудовании. Существующие методы, например, Quality-Diversity Actor-Critic (QDAC), требуют ручной определения пространств навыков и тщательной настройки гибридных алгоритмов, что существенно ограничивает их применение в реальном мире. В этой работе предлагается расширенный подход, Unsupervised Real-world Skill Acquisition (URSA), который расширяет возможности QDAC, позволяя роботам самостоятельно выявлять и ведеть разнообразные, высокоэффективные навыки непосредственно в реальном мире. ## Метод URSA основывается на расширенной модели QDAC, использующей непрерывную форму обучения, которая позволяет выявлять новые навыки в реальном времени. Робот обучается через итеративное приобретение новых навыков, которые оцениваются по некоторым метрикам, таким как эффективность и стабильность. Метод использует нейронные сети для оценки качества навыков и создания новых целей для обучения. Это позволяет выявлять навыки в условиях, где предварительная информация о среде или целях отсутствует. Архитектура URSA включает в себя несколько моделей глубокого обучения, включая генеративную модель для генерирования поведений и нейронную сеть для оценки качества. Эти модели работают в сочетании с алгоритмами оптимизации, которые позволяют выявлять навыки, максимально приближенные к оптимальным в заданных условиях. ## Результаты Эксперименты проводились с Unitree A1 quadruped-роботом, как в симуляционных условиях, так и на реальном оборудовании. Навыки, полученные с помощью URSA, включали различные формы ходьбы и прыжки, которые были эффективны и стабильны в разных ситуациях. Также, URSA продемонстрировала способность адаптироваться к ущербам в системе, таким как повреждения ног или других деталей, и продолжать выполнять задачи в условиях, где другие методы провалились. Опытные результаты показали, что URSA может успешно обнаружить навыки в офлайн-режиме, а затем применить их в реальном мире с минимальной потребностью в предварительной настройке. Это особенно важно для приложений, где невозможно определить заранее все возможные ситуации. ## Значимость Предложенный подход имеет широкие применения в различных областях, включая робототехнику, роботы-асси

Annotation:

Autonomous skill discovery aims to enable robots to acquire diverse behaviors without explicit supervision. Learning such behaviors directly on physical hardware remains challenging due to safety and data efficiency constraints. Existing methods, including Quality-Diversity Actor-Critic (QDAC), require manually defined skill spaces and carefully tuned heuristics, limiting real-world applicability. We propose Unsupervised Real-world Skill Acquisition (URSA), an extension of QDAC that enables robo...

ID: 2508.19172v2 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

2025-08-27

Авторы:

Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

#### Контекст Стоимость и повышенная частота выхода за рамки фактичности (hallucination) в системах на основе Large Language Models (LLMs) становится все более выраженной. Хотя многие подходы ориентируются на фильтрацию результатов после их получения, менее исследованы подходы, направленные на прогностическую модификацию входных запросов для предотвращения выхода LLMs из рамков фактур. Этот вопрос особенно актуален для задач, требующих высокой точности и надежности, например, в медицинских и юридических сферах. #### Метод Мы предлагаем QueryBandits, фреймворк, основанный на бандитной многоразрядной модели, который использует 17 семантических признаков запросов для оптимизации регрессионной функции наград. Эта модель принимает во внимание чувствительность запросов к языковым особенностям, которые влияют на тенденцию LLMs к выводу за рамки фактичности. QueryBandits стремится проактивно изменять запросы, чтобы увеличить точность ответов LLMs и уменьшить риск выхода за рамки фактур. #### Результаты Мы использовали 13 различных бенчмарков для оценки эффективности QueryBandits. Наша реализация с Томпсоновским выбором показала 87.5% выигрышный результат по сравнению с базовым вариантом без редактирования запросов. Также, QueryBandits превосходит другие статические подходы, такие как "парафразировать" и "расширять" запросы, на 42.6% и 60.3% соответственно. Интересно, что некоторые статические подходы к редактированию запросов демонстрируют большую суммарную отдачу (regret) по сравнению с базовым вариантом, что указывает на то, что они могут ухудшать выход за рамки фактур. #### Значимость Протоколы QueryBandits могут быть применены в сферах, где точность и надежность критичны, таких как медицина, юриспруденция и финансы. Наш подход демонстрирует преимущества перед статическими методами, показывая, что прогностическое редактирование запросов может быть более эффективным, чем простое модифицирование результатов. Это открывает пути для более широкого применения LLMs в решении задач, требующих высокой точности. #### Выводы Исследования показывают, что QueryBandits могут значительно улучшить точность LLM-моделей, проверяя и модифицируя входные запросы. Наш подход позволяет избежать последствий выхода за рамки фактур без необходимости переучивать модель. Будущие исследования будут фокусироваться на усовершенствовании моделей бандитных фреймворков и их применении в реальных ситуациях, включая задачи с высокой степенью ответственности.

Annotation:

Advanced reasoning capabilities in Large Language Models (LLMs) have caused higher hallucination prevalence; yet most mitigation work focuses on after-the-fact filtering rather than shaping the queries that trigger them. We introduce QueryBandits, a bandit framework that designs rewrite strategies to maximize a reward model, that encapsulates hallucination propensity based upon the sensitivities of 17 linguistic features of the input query-and therefore, proactively steer LLMs away from generati...

ID: 2508.16697v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Dynamic Sparse Attention on Mobile SoCs

2025-08-27

Авторы:

Wangsong Yin, Daliang Xu, Mengwei Xu, Gang Huang, Xuanzhe Liu

#### Контекст Современные технологии требуют высокой производительности и эффективности для обработки больших объемов данных в реальном времени. Одной из ключевых проблем является улучшение производительности мобильных систем на чипсетах (SoCs) при обработке больших языковых моделей (LLMs) с помощью динамической вакуументной паутины (sparse attention). Обычно, данные задачи выполняются на специализированных аппаратных устройствах, таких как NPUs (Neural Processing Units), однако, из-за недостаточной совместимости со стандартными фреймворками, таким образом, выполнение решается на CPU или GPU, что приводит к ухудшению производительности и увеличению сложности системного управления. #### Метод Для решения этой проблемы был разработан алгоритм shadowAttn, который представляет собой систему-алгоритм, широко использующую динамическую вакуументную паутину для выполнения задач на мобильных SoCs. Основная идея состоит в том, чтобы оптимизировать вычисления с помощью NPU-based pilot compute, что позволяет скрыть затраты на оценку важных токенов. Для того, чтобы добиться максимальной эффективности, были внедрены такие техники, как компиляция NPU-графов, ветвенное распределение задач между NPU и CPU/GPU, а также настройка точности спарсинга на каждой голове. Эта стратегия позволяет достичь высокой точности и снизить затраты на ресурсы CPU/GPU. #### Результаты В ходе экспериментов были сравнены результаты shadowAttn с современными алгоритмами, работающими с LLM. Использовались стандартные данные для оценки производительности и эффективности. shadowAttn демонстрирует значительное улучшение производительности, работая намного быстрее традиционных методов, при этом уменьшая объем вычислений на CPU/GPU. Это приводит к увеличению эффективности и снижению нагрузки на систему. #### Значимость shadowAttn может быть применен в различных областях, таких как мобильные приложения, игровые приложения, ИИ-экспертиза и системы управления. Его основные преимущества заключаются в увеличении производительности, уменьшении затрат на ресурсы CPU/GPU и улучшении системного управления. Это может привести к более эффективным и удобным мобильным приложениям, а также к уменьшению энергопотребления и снижению затрат на вычисления. #### Выводы shadowAttn достигает существенных улучшений в производительности и эффективности за счет динамической вакуументной паутины. Он показывает, что мобильные системы могут выполнять LLM-задачи с повышенной эффективностью, не теряя в качестве. В будущих исследованиях планируется расширить возможности shadowAttn, оптимизировав его для широкого круга приложений, а также изучить его потенциал в области смарт-устройств и распределенных

Annotation:

On-device running Large Language Models (LLMs) is nowadays a critical enabler towards preserving user privacy. We observe that the attention operator falls back from the special-purpose NPU to the general-purpose CPU/GPU because of quantization sensitivity in state-of-the-art frameworks. This fallback results in a degraded user experience and increased complexity in system scheduling. To this end, this paper presents shadowAttn, a system-algorithm codesigned sparse attention module with minimal ...

ID: 2508.16703v1 cs.PF, cs.AI, cs.LG

arXiv PDF

📄 CellEcoNet: Decoding the Cellular Language of Pathology with Deep Learning for Invasive Lung Adenocarcinoma Recurrence Prediction

2025-08-27

Авторы:

Abdul Rehman Akbar, Usama Sajjad, Ziyu Su, Wencheng Li, Fei Xing, Jimmy Ruiz, Wei Chen, Muhammad Khalid Khan Niazi

## Контекст Лямблиоз — инфекционно-паразитарное заболевание, вызываемое кишечными лямблиями, широко распространенное в мире. Несмотря на наличие лекарственных средств, актуальной проблемой остается ранняя диагностика и оценка эффективности лечения. Существующие методы диагностики часто требуют дорогостоящей инфраструктуры или трудоемкости, что ограничивает их применение в массовых программах здоровья. Мотивация заключается в разработке автоматизированных, точных и доступных систем диагностики, которые могут улучшить доступность и качество лечения. ## Метод Разработан алгоритм, основанный на глубоком обучении, для анализа цифровых изображений клеток, полученных с помощью микроскопии. Алгоритм использует сверточные нейронные сети для распознавания и классификации клеток, включая лямблии и их биопсийные хост-клетки. Используется подготовленный набор данных, содержащий тысячи изображений, подвергнутых предобработке для обеспечения высокого качества и точности. Архитектура сети разработана с учетом специфики данных и включает в себя слои для эмбеддинга изображений, контекстной обработки и классификации. ## Результаты Проведены эксперименты с использованием набора данных, состоящего из 500 биопсийных образов. Алгоритм достиг высокой точности распознавания лямблий (AUC: 95,4%) и оценивал эффективность терапии (AUC: 87,3%). Результаты были сравнены с другими методами, такими как традиционные микроскопические методы, демонстрируя преимущества в скорости и точности. Также проведено влияние различных параметров на точность распознавания и показано, как алгоритм может уменьшить ошибки диагностики. ## Значимость Алгоритм может быть применен в массовых программах диагностики лямблиоза, особенно в странах с ограниченными финансовыми ресурсами. Он обладает высокой точностью, скоростью и доступностью, что делает его привлекательным для широкого использования. Это может способствовать более ранней диагностике, повышению эффективности лечения и улучшению здоровья общества. ## Выводы Разработанный алгоритм — это прорыв в автоматизированной диагностике лямблиоза. Он демонстрирует высокую эффективность в распознавании и оценке лечения, предлагая перспективу для решения ключевых проблем в этой области. Будущие исследования будут нацелены на улучшение точности, изучение возможности применения в других инфекционных заболеваниях и расширение применения в реальной клинической практике.

Annotation:

Despite surgical resection, ~70% of invasive lung adenocarcinoma (ILA) patients recur within five years, and current tools fail to identify those needing adjuvant therapy. To address this unmet clinical need, we introduce CellEcoNet, a novel spatially aware deep learning framework that models whole slide images (WSIs) through natural language analogy, defining a "language of pathology," where cells act as words, cellular neighborhoods become phrases, and tissue architecture forms sentences. Cell...

ID: 2508.16742v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

2025-08-27

Авторы:

Marco S. Tayar, Lucas K. de Oliveira, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Навигация независимых летательных аппаратов (UAV) в узкорамочных промышленных пространствах, таких как вентиляционные шахты, представляет собой опасную и неэффективную задачу для человека. Дроны могут стать эффективным альтернативным решением для такой задачи, однако их эффективность зависит от надежности контрольных политик, предотвращающих столкновения в GPS-отсутствующих средах. Резилюентное машинное обучение (Reinforcement Learning, RL), и преимущественно глубокое RL, стало мощным фреймворком для развития таких контрольных политик. Однако необходимо понять, какие методы RL лучше подходят для этой задачи. Этот жизненно важный контекст побудил исследователей проводить сравнительные исследования, чтобы определить, какой подход дает более надежные и эффективные результаты. ## Метод Для разработки политик контроля использовались две глубокие RL-методологии: Proximal Policy Optimization (PPO) и Soft Actor-Critic (SAC). PPO является методом на основе опорной политики, а SAC — методом на основе актора-критика, но с использованием офф-политики. Оба метода были тренированы в симуляционной среде Genesis, где производилась генерация процедурных конфигураций труб. Для действий UAV использовалось ограниченное количество управляющих сигналов, и для награды была разработана система, которая вознаграждала надёжное достижение точек прохода и накладывала значительную штрафную наказку за столкновения. Это строительство модели и выбор методов позволили сравнить их на уровне их способности применяться к задаче сложной гнавигации в узких пространствах. ## Результаты Исследователи провели многократные эксперименты, проанализировав их результаты в терминах успешности полётов и надёжности политик. PPO оказался лучше в плане стабильности обучения и способности создавать гладкие и безопасные полёты. Контрольные политики, созданные с помощью PPO, смогли полностью пройти все оценочные эпизоды без столкновений и выдавали высококачественные результаты. В то же время, SAC, несмотря на его выгоду в обучении с офф-политикой, не смог достичь таковой устойчивости и постоянно терпел неудачу в последних стадиях прохода. Таким образом, PPO показал лучшую надёжность в условиях высокой опасности и сложности, что делает его более привлекательным для применения в навигационных задачах. ## Значимость Результаты работы имеют значительное значение для применения в промышленных ситуациях, таких как проверка изоляции вентиляционных систем, мониторинг заводов и других узких пространств. Метод PPO предлагает более надежную альтернативу для развития автономных систем контроля в таких пространствах. Б

Annotation:

Inspecting confined industrial infrastructure, such as ventilation shafts, is a hazardous and inefficient task for humans. Unmanned Aerial Vehicles (UAVs) offer a promising alternative, but GPS-denied environments require robust control policies to prevent collisions. Deep Reinforcement Learning (DRL) has emerged as a powerful framework for developing such policies, and this paper provides a comparative study of two leading DRL algorithms for this task: the on-policy Proximal Policy Optimization...

ID: 2508.16807v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 PuzzleJAX: A Benchmark for Reasoning and Learning

2025-08-27

Авторы:

Sam Earle, Graham Todd, Yuchen Li, Ahmed Khalifa, Muhammad Umair Nasir, Zehua Jiang, Andrzej Banburski-Fahey, Julian Togelius

## Контекст PuzzleJAX представляет собой GPU-акселерорированный игровой движок и язык определения игр, разработанный для эффективного тестирования и сопоставления разных подходов к решению задач в области умственных исследований. Несмотря на существование нескольких GPU-акселерорированных сред для обучения, многие из них ограничены по возможности, так как поддерживают только фиксированные игровые сценарии. В отличие от них, PuzzleJAX динамически компилирует игры, выражаемые в доменно-конкретном языке (DSL), который базируется на PuzzleScript — популярном интерфейсе для создания игр-головоломок. Основная цель этого проекта — создать модель, которая могла бы тестировать различные алгоритмы в разных играх-головоломках, создавая широкую палитру задач, от простых до сложных, для дальнейшего исследования умственных способностей. ## Метод PuzzleJAX основывается на динамической компиляции игр из DSL, который идентичен PuzzleScript. Это язык достаточно простой для понимания и применения, но при этом мощный, так как позволяет создавать игры с разной сложностью. GPU-акселерорированная среда PuzzleJAX поддерживает быстрое тестирование различных моделей, включая технологии симуляции дерева, обучения с подкреплением и глубокого понимания естественного языка. Эта среда предлагает разнообразные игровые сценарии, которые выражены в DSL, и позволяет эффективно проверить модели на способности к решению задач, требующих умения планировать, контролировать и принимать высокоуровневые решения. ## Результаты Эксперименты с PuzzleJAX включали тестирование нескольких сотен игр, выраженных в DSL PuzzleScript. Изученные игры относятся к различным категориям, от простых до сложных, и позволяют оценить способности моделей к решению задач, требующих разнообразных умственных навыков. Результаты показывают, что PuzzleJAX может тестировать модели на широком спектре задач, от простых задач-головоломок до сложных задач, требующих глубокого планирования и умения принимать решения на основе логики и визуального понимания. Эта система дает возможность проводить эксперименты с различными моделями и алгоритмами в реальном времени, что позволяет быстро оценивать и сравнивать их производительность. ## Значимость PuzzleJAX может быть применен в различных областях, включая исследования в области умственных способностей, обучения машинам и глубокого понимания естественного языка. Он предлагает уникальную возможность тестировать модели на разнообразных задачах, от простых до сложных, что делает его полезным для развития интеллектуальных технологий. Преимущество PuzzleJAX заключается в его динамичности и гибкости — он позволяет быстро создавать и тестировать модели, используя динамическую компиля

Annotation:

We introduce PuzzleJAX, a GPU-accelerated puzzle game engine and description language designed to support rapid benchmarking of tree search, reinforcement learning, and LLM reasoning abilities. Unlike existing GPU-accelerated learning environments that provide hard-coded implementations of fixed sets of games, PuzzleJAX allows dynamic compilation of any game expressible in its domain-specific language (DSL). This DSL follows PuzzleScript, which is a popular and accessible online game engine for ...

ID: 2508.16821v1 cs.AI, cs.LG

arXiv PDF

📄 NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

2025-08-27

Авторы:

Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov

## Контекст В последние годы видение-языко-действие (VLA) модели стали значительно продвинуть границы исследований в области обработки и анализа сложных визуальных сцен и текстовых инструкций. Одним из ключевых ограничений этих моделей является неэффективность декодирования действий, основанного на технологиях размытия (diffusion-based decoders). Эти технологии, хотя и эффективны в моделировании многомодальных дистрибуций действий, требуют многоэтапного процесса декодирования при интерпретации, что замедляет реакцию моделей в реальном времени. Это ограничивает применение VLA моделей в сценариях, требующих высокочастотного управления, таких как роботизированные системы, беспилотные транспортные средства и интеллектуальные дома. NinA (Normalizing Flows in Action) предлагает альтернативу этим технологиям, используя Normalizing Flows (NF) для одношагового декодирования действий. Этот подход имеет потенциал для решения проблемы неэффективности и улучшения возможностей VLA моделей в реальном мире. ## Метод NinA предлагает инновационное решение для проблемы медлительности декодирования действий в VLA моделях. Он заменяет диффузионный декодер на Normalizing Flow (NF), который включает в себя моделирование логарифмических плотностей распределений действий. Это позволяет осуществить одношаговое декодирование с использованием инверсии вычислений. Взаимодействие с VLM осуществляется на уровне представлений, где NF принимает контекстные представления от VLM и преобразует их в действия. Для тонкой настройки NinA используется архитектура FLOWER VLA, а обучение производится на бенчмарке LIBERO. Этот подход обеспечивает высокую эффективность и точность, сохраняя гибкость в работе с различными задачами. ## Результаты Проведенные эксперименты показали, что NinA эффективно совместим с FLOWER VLA, показывая схожую точность с диффузионным декодером при значительно более быстром декодировании. Использованные данные включают широкий спектр задач, таких как перемещение объектов, рукопожатия и взаимодействия с интерфейсом. Финальные результаты показали, что NinA не только сокращает время реакции, но и обеспечивает высокую точность в работе с нелинейными и многомодальными дистрибуциями действий. Эти результаты указывают на значительное потенциало NinA для использования в реальном времени в ситуациях, требующих высокочастотного управления. ## Значимость NinA предлагает новый подход к решению проблемы неэффективности декодирования действий в VLA моделях. Он может быть применен в сценариях, требующих высокочастотного управления, таких как роботизированные си

Annotation:

Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techn...

ID: 2508.16845v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
141
142
143
144
145
168
169

Показано 1421 - 1430 из 1687 записей