📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Toward Architecture-Agnostic Local Control of Posterior Collapse in VAEs

2025-08-20

Авторы:

Hyunsoo Song, Seungwhan Kim, Seungkyu Lee

## Контекст Variational autoencoders (VAEs) широко используются в генерирующих моделях, но страдают от постепенного распада постерона (posterior collapse), что приводит к уменьшению разнообразия генерируемых выборок. Эта проблема связана с неверным балансом между реконструкцией и регуляризацией. Отсутствие взаимозависимости между активными компонентами в локальном пространстве позволяет постерону распадаться. Из-за этого многие работы прибегают к структурным ограничениям сети, но это приводит к жестким контролам на архитектуру. Существующие подходы, такие как подходы к упорядочиванию и разметке, неэффективны для устранения постерона. Мы предлагаем новый подход, который не зависит от архитектуры, чтобы решать эту проблему на уровне предобученных сетей. ## Метод Мы предлагаем Latent Reconstruction (LR) loss, который строится на математических свойствах инъективных и составных функций. Этот подход позволяет избежать постерона без ограничений на архитектуру. Основной идеей является, что LR loss оптимизирует соответствие между индивидуальными точками данных и их представлениями в локальном пространстве. Мы используем различные выборки данных, такие как MNIST, fashionMNIST, Omniglot, CelebA, и FFHQ, чтобы продемонстрировать эффективность нашего подхода. Метод позволяет контролировать постеронные распады, не привязываясь к конкретной архитектуре, что делает его гибким и универсальным. ## Результаты Мы проверили наш подход на популярных датасетах, таких как MNIST, fashionMNIST, Omniglot, CelebA и FFHQ. Оценивая постеронные распады, мы применили LR loss к каждому датасету и сравнили результаты с другими подходами. Наши эксперименты показали, что LR loss эффективно уменьшает постеронные распады, улучшая разнообразие генерируемых выборок и поддерживая упорядоченность в локальном пространстве. Эти результаты показывают, что Latent Reconstruction loss является эффективным средством для управления постероном, не привязываясь к конкретной структуре сети. ## Значимость Наша работа имеет значительное значение для развития методов управления постероном в VAEs. Он позволяет улучшить диверсификацию вывода, что может иметь приложение в машинном обучении, визуальном поиске, изображении и даже в глубоком обучении. Мы предлагаем гибкий подход, который может быть применен к различным сетям без жестких контрольных ограничений. Это делает LR loss очень привлекательным для развития в области генерирующих моделей, таких как VAEs, и может способствовать развитию новых подходов в области глубокого обучения. ## Выводы Мы продемонстрировали эффективность Latent Reconstruction loss в управлении постероном в VAEs, не привязываясь к

Annotation:

Variational autoencoders (VAEs), one of the most widely used generative models, are known to suffer from posterior collapse, a phenomenon that reduces the diversity of generated samples. To avoid posterior collapse, many prior works have tried to control the influence of regularization loss. However, the trade-off between reconstruction and regularization is not satisfactory. For this reason, several methods have been proposed to guarantee latent identifiability, which is the key to avoiding pos...

ID: 2508.12530v1 cs.LG, cs.CV, stat.ML, I.2.6

arXiv PDF

📄 Argos: A Decentralized Federated System for Detection of Traffic Signs in CAVs

2025-08-20

Авторы:

Seyed Mahdi Haji Seyed Hossein, Alireza Hosseini, Soheil Hajian Manesh, Amirali Shahriary

## Контекст Современные подключенные и автоматизированные транспортные системы (CAV, Connected and Automated Vehicles) генерируют огромные объемы данных сенсоров, которые требуют эффективного обработки для решения задач перцепции. Одним из ключевых аспектов этой области является распознавание трафических знаков (traffic sign detection). Централизованные подходы к обучению машинного обучения сталкиваются с сильной зависимостью от коммуникационных инфраструктур, что создает проблемы в обеспечении конфиденциальности и эффективности работы. Для решения этих задач предлагается децентрализованный федеративный подход (Argos), который позволяет обучать модели на основе данных отдельных транспортных средств без необходимости обмениваться сырыми данными. ## Метод Argos основывается на федеративном обучении (federated learning), когда модели обучаются независимо на каждом устройстве, а затем объединяются для совместного использования. В этой работе использована симуляционная среда на основе Flower framework. Обучение проводилось с использованием нейронных сетей, а именно, лёгких объектных детекторов для распознавания трафических знаков. Методы, использованные для аггрегации моделей, включали FedProx, FedAdam и FedAVG. Для экспериментов проводилось исследование различных параметров, таких как число серверных раундов, локальные эпохи, доля участвующих клиентов и распределение данных между клиентами. ## Результаты Опыты показали, что увеличение числа серверных раундов с 2 до 20 приводит к повышению точности распознавания с менее чем 0.1 до 0.8 и выше. Оптимальные результаты показались при среднем числе локальных эпох (8-10), что дало точность примерно 0.67. Более высокая доля участвующих клиентов повысила общеуниверсальность до 0.83. Метод FedProx оказался эффективнее в условиях неизоморфного (non-IID) распределения данных. Однако данные IID давали результаты с более высокой точностью. Также было замечено, что время обучения пропорционально растёт с числом серверных раундов, а не с стратегией аггрегации. ## Значимость Данная работа предлагает многообразные возможности для применения в реальных системах на основе CAV. Она может обеспечить конфиденциальность данных, эффективность обучения и масштабируемость в различных сценариях наблюдения за дорожной средой. Такая система может стать основой для развития интеллектуальных транспортных систем, предоставляя простой и эффективный способ обучения моделей без потери конфиденциальности данных. ## Выводы Argos показал свою эффективность в решении задач распознавания трафических знаков в системах CAV. Он действительно является стойким и эффективным решени

Annotation:

Connected and automated vehicles generate vast amounts of sensor data daily, raising significant privacy and communication challenges for centralized machine learning approaches in perception tasks. This study presents a decentralized, federated learning framework tailored for traffic sign detection in vehicular networks to enable collaborative model training without sharing raw data. The framework partitioned traffic sign classes across vehicles for specialized local training using lightweight ...

ID: 2508.12712v1 cs.LG, cs.CV, I.2.6; I.4.8

arXiv PDF

📄 Scalable Geospatial Data Generation Using AlphaEarth Foundations Model

2025-08-19

Авторы:

Luc Houriez, Sebastian Pilarski, Behzad Vahedi, Ali Ahmadalipour, Teo Honda Scully, Nicholas Aflitto, David Andre, Caroline Jaffe, Martha Wedner, Rich Mazzola, Josh Jeffery, Ben Messinger, Sage McGinley-Smith, Sarah Russell

## Контекст Геоспациальные данные являются ключевым инструментом для понимания и изучения планеты. Однако доступные данные часто ограничиваются определенными регионами, не покрывая всю территорию земного шара. Это ограничение снижает ценность данных для широкомасштабных анализов и приложений. Google DeepMind внедрила модель AlphaEarth Foundations (AEF), представляющую собой информационно-богатую глобальную геоспациальную структуру. Она предназначена для повышения качества и полноты данных в различных задачах. В данной работе рассматривается возможность использования модели AEF для расширения геоспациальных данных за пределы исходного региона. ## Метод Методология основывается на использовании AlphaEarth Foundations для расширения геоспациальных данных. Алгоритм построения модели состоит в том, что данные из исходного региона (например, USA) используются для обучения модели, которая затем применяется к новому региону (например, Канада). Используется оптимизация случайных леса и логистической регрессии для построения модели. Эти модели адаптируются для расширения данных, в том числе для высокоуровневого классификационного анализа. ## Результаты Для проверки метода проводился эксперимент над данными LANDFIRE Existing Vegetation Type (EVT), расширенными с USA в Канаду. Модель обучалась на данных EvtPhys (13 классов) и EvtGp (80 классов). В результате показано, что модели демонстрируют высокую точность классификации в USA (81%) и Канаде (73%). Хотя модели не полностью корректно классифицируют все классы, они показывают хорошую зернальность в точных классах. ## Значимость Этот подход имеет значимые применения в областях развития среды, геологии и других сфер, требующих глобальных геоспациальных данных. Он позволяет расширять область данных, которые ранее были ограничены региональными данными. Преимущества включают увеличение доступных данных, улучшение точности классификации и обеспечение адекватных ресурсов для широты задач, от управления природой до машинного обучения. ## Выводы Результаты экспериментов показали, что модели могут добавить значительное количество данных в геоспациальные наборы данных. Эта работа открывает возможности для расширения геоспациальных данных в новые регионы, охватывая новые географические зоны. Кроме того, данный подход может быть расширен на другие регионы и даже на различные классификационные модели, чтобы улучшить точность и разрешать предметные области, требующие глобальных данных.

Annotation:

High-quality labeled geospatial datasets are essential for extracting insights and understanding our planet. Unfortunately, these datasets often do not span the entire globe and are limited to certain geographic regions where data was collected. Google DeepMind's recently released AlphaEarth Foundations (AEF) provides an information-dense global geospatial representation designed to serve as a useful input across a wide gamut of tasks. In this article we propose and evaluate a methodology which ...

ID: 2508.11739v1 cs.LG, cs.CV, I.4.6; I.5.5

arXiv PDF

📄 L-SR1: Learned Symmetric-Rank-One Preconditioning

2025-08-19

Авторы:

Gal Lifshitz, Shahar Zuler, Ori Fouks, Dan Raviv

#### Контекст Область ускорения и оптимизации вычислительных процессов постоянно растет в значимости с ростом сложности приложений и требований к производительности. Многие методы оптимизации, основанные на классических алгоритмах, хотя и эффективны в определенных сценариях, часто страдают от медленного схода к решению. Это особенно актуально для задач, требующих быстрого и точного решения, например, в области машинного обучения и глубоких нейросетей. Улучшение этих методов требует внедрения новых подходов, которые объединяли бы эффективность классических стратегий с гибкостью глубокого обучения. В этом контексте возникает необходимость в разработке усовершенствованных оптимизационных методов, которые могли бы обладать свойствами простоты, точности и быстроты. #### Метод Мы предлагаем **L-SR1** — новый алгоритм оптимизации, который интегрирует классическую симметрично-ранговую однородную методику (Symmetric-Rank-One, SR1) с технологиями глубокого обучения. Основной инновационный момент заключается в разработке **trainable preconditioning unit**, которая генерирует данно-зависимые вектора для построения положительно полуопределенных матриц ранга один. Эти матрицы строятся в соответствии с секантным ограничением, реализованным через проекционную структуру, научно обоснованную и адаптированную для глубоких нейросетей. Метод широко использует возможности нейронных сетей для гибкой подстройки параметров, что позволяет повысить точность и быстроту работы. Модель легковесна и не требует дополнительных данных или применения тюнинга, что делает ее привлекательной для интеграции в различные оптимизационные рамки. #### Результаты Для оценки L-SR1 проводились аналитические эксперименты, а также проведено исследование на реальной задаче **Monocular Human Mesh Recovery (HMR)**. Наши результаты показали, что L-SR1 превосходит другие уже существующие методы ускорения оптимизации, особенно в скорости схода и точности решений. Оценка показала, что алгоритм хорошо устойчив к изменениям в данных и может быть эффективно применен в различных задачах оптимизации. Его легковесность и универсальность открывают возможности использования в различных областях, где необходима быстрая и точная оптимизация. #### Значимость Предлагаемый подход имеет широкое применение в области машинного обучения, глубокого обучения и задач оптимизации, где требуется эффективность и быстрый сход к решению. Особенно выгодно использовать L-SR1 в случаях, когда требуется легковесная модель, которая не требует дополнительных данных для обучения. Это дает возможность ускорять работу не только в машинном обучении, но и в дру

Annotation:

End-to-end deep learning has achieved impressive results but remains limited by its reliance on large labeled datasets, poor generalization to unseen scenarios, and growing computational demands. In contrast, classical optimization methods are data-efficient and lightweight but often suffer from slow convergence. While learned optimizers offer a promising fusion of both worlds, most focus on first-order methods, leaving learned second-order approaches largely unexplored. We propose a novel lea...

ID: 2508.12270v1 cs.LG, cs.CV

arXiv PDF

📄 Boosting the Robustness-Accuracy Trade-off of SNNs by Robust Temporal Self-Ensemble

2025-08-19

Авторы:

Jihang Wang, Dongcheng Zhao, Ruolin Chen, Qian Zhang, Yi Zeng

#### Контекст Spiking Neural Networks (SNNs) представляют собой перспективную область исследований в области энергоэффективного и биоинспирированного вычисления. Однако недавние исследования показали, что SNNs остаются уязвимыми к адверсарным напротивлениям, что существенно ограничивает их применение в реальном мире. Несмотря на прогресс в области обучения SNNs, остается недостаточно понимания, как улучшить их прочность без потери точности. Эта проблема напрягает заинтересованных сторон, в том числе ученых, разработчиков и бизнес-предпринимателей, которые ищут более надежные алгоритмы для безопасного и эффективного использования SNNs в различных приложениях, таких как беспилотные транспортные средства, медицинские исследования и системы безопасности. Изучение методов, позволяющих объединить высокую точность и прочность SNNs, является ключевым мотивационным фактором для данного исследования. #### Метод Разработанное в данной работе Robust Temporal Self-Ensemble (RTE) основано на идее, что SNN может быть рассмотрено как сборка многочисленных подсетей, которые формируются на каждом шаге времени. Данный подход позволяет использовать взаимосвязь между подсетями для повышения устойчивости сети к адверсарным воздействиям. Ключевым элементом RTE является идея **Robust Temporal Ensembling**, которая включает в себя следующие компоненты: 1. **Улучшение прочности каждого подсети**: каждая подсеть обучается с учетом воздействия адверсарных напротивлений, чтобы повысить свою самостоятельную прочность. 2. **Снижение влияния переходных временных структур**: RTE уменьшает "переходные" уязвимости временных подсетей, чтобы предотвратить легкое переносное напротивление между кадрами времени. 3. **Оптимизация с помощью универсального подхода**: RTE имеет унифицированный фреймворк, в котором задачи улучшения прочности и снижения переходных уязвимостей объединены в одну цель. 4. **Стратегия стохастической выборки**: RTE использует стохастический выбор подсетей для эффективного оптимизационного процесса, что позволяет снизить вычислительную сложность и увеличить скорость обучения. Эта методология представляет собой новый подход к решению проблемы прочности SNNs, который не только улучшает их работу в адверсарных условиях, но и обеспечивает более точные результаты при выполнении различных задач. #### Результаты В рамках этого исследования были проведены эксперименты на нескольких популярных бенчмарках для подтверждения эффективности RTE. Использовались различные наборы данных, такие как MNIST, CIFAR-10 и N-MNIST. В результате: - **Прочность к адверсарным напротивлениям**: RTE оказалась существенно ус

Annotation:

Spiking Neural Networks (SNNs) offer a promising direction for energy-efficient and brain-inspired computing, yet their vulnerability to adversarial perturbations remains poorly understood. In this work, we revisit the adversarial robustness of SNNs through the lens of temporal ensembling, treating the network as a collection of evolving sub-networks across discrete timesteps. This formulation uncovers two critical but underexplored challenges-the fragility of individual temporal sub-networks an...

ID: 2508.11279v1 cs.LG, cs.CV

arXiv PDF

📄 Robust Convolution Neural ODEs via Contractivity-promoting regularization

2025-08-19

Авторы:

Muhammad Zakwan, Liang Xu, Giancarlo Ferrari-Trecate

## Контекст Одной из основных проблем в сфере нейронных сетей является их уязвимость к шумам и атакам, которые могут привести к ошибкам в решении задач. Это проблема особенно актуальна для сетей с неустойчивым динамическим поведением. Таким образом, целью этого исследования является развитие методов, позволяющих улучшить устойчивость нейронных сетей к внешним помехам. Исследование сфокусировано на Convolutional Neural Ordinary Differential Equations (NODEs), которые представляют собой непрерывные в глубину модели, основанные на динамических системах. Эти модели обладают потенциалом для повышения устойчивости, однако требуется разработка специальных методик для их реализации. Целью работы является исследование возможности использования теории контрактивности для улучшения вывода и устойчивости таких моделей. ## Метод Для решения задачи улучшения устойчивости используется теория контрактивности, которая определяет свойство динамических систем, при котором две начально различные точки сходятся друг к другу с экспоненциальной скоростью. Для реализации этого подхода в Convolutional NODEs используется регуляризация с учетом Якобиана динамической системы. Это позволяет уменьшить потенциальные отклонения в выводе, связанные с небольшими сдвигами входных данных. Более того, для уменьшения вычислительных затрат предлагается использовать весовую регуляризацию для NODEs с ограниченными функциями активации. Этот подход позволяет сохранить свойство контрактивности, не ухудшая производительность модели. ## Результаты Запускались эксперименты на MNIST и FashionMNIST датасетах, где изображения были испорчены различными типами шумов и атаками. На основе результатов можно сделать вывод о том, что предложенная регуляризационная стратегия позволяет значительно повысить устойчивость NODEs к внешним помехам. Эксперименты показали, что подавление контрактивности приводит к существенному улучшению вывода в условиях шумов и атак. Также был показан эффект взвешенной регуляризации, которая уменьшает вычислительные затраты, не ухудшая качество модели. ## Значимость Результаты демонстрируют, что предлагаемый подход может иметь широкие применения в области компьютерного зрения и технологий обработки информации. Улучшенная устойчивость моделей к внешним помехам может привести к более надежным решениям в задачах классификации изображений и других типов задач. Особенно важным может быть применение этого подхода в задачах, где необходима высокая точность и стабильность работы модели в условиях шума и атак. Будущие исследования будут сфокусированы на расширении этого подхода на другие типы нейронных сетей и задач. ## Вы

Annotation:

Neural networks can be fragile to input noise and adversarial attacks. In this work, we consider Convolutional Neural Ordinary Differential Equations (NODEs), a family of continuous-depth neural networks represented by dynamical systems, and propose to use contraction theory to improve their robustness. For a contractive dynamical system two trajectories starting from different initial conditions converge to each other exponentially fast. Contractive Convolutional NODEs can enjoy increased...

ID: 2508.11432v1 cs.LG, cs.CV, cs.SY, eess.SY

arXiv PDF

📄 SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning

2025-08-18

Авторы:

Weijian Mai, Jiamin Wu, Yu Zhu, Zhouheng Yao, Dongzhan Zhou, Andrew F. Luo, Qihao Zheng, Wanli Ouyang, Chunfeng Song

## Контекст Установление точного подхода к моделированию взаимосвязи между визуальными стимулами и нейронными ответами, характерных для зрительного потока, является ключевым вопросом в области компьютерной нейронауки. Особенностью этого процесса является то, что одинаковые визуальные стимулы способствуют разным нейронным ответам в зависимости от контекста, субъекта и условий испытаний. Традиционные задачи синтеза сигналов fMRI часто стремятся описать это с помощью детерминированных функций, но их не могут полностью корректно охватить неоднородность и вариативность поведения биологических систем. На данный момент в этой области необходима более точная модель, которая могла бы синтезировать fMRI-сигналы с учетом вариативности, характерной для биологических систем. ## Метод Мы предлагаем SynBrain, новое генерирующее фреймворковое решение, которое адресует эти проблемы с помощью прогнозируемых методов, основанных на принципах вероятностного и биологически интерпретируемого подхода. Основные компоненты SynBrain: (i) BrainVAE - модель, которая представляет нейронные ответы в виде непрерывных вероятностных распределений, сохраняя функциональную консистентность с помощью ограничений, накладываемых визуальными семантическими конструктами; (ii) Semantic-to-Neural Mapper - целевая система, преобразующая визуальные семантические сигналы в нейронные ответы с помощью семантических проекций. Весь механизм работает на базе глубоких нейронных сетей и целей, которые имитируют биологические процессы. ## Результаты Мы провели эксперименты, которые использовали определенные данные, в том числе аудио- и видеоконтент, а также сигналы fMRI. Метод SynBrain демонстрирует повышенную точность в синтезе fMRI-сигналов в сравнении с состоянием искусства. Мы также проверили его способность адаптироваться к новым пользователям с минимальным количеством данных. Формированные сигналы были эффективны в улучшении декодирования fMRI-to-image, что демонстрирует способность SynBrain к вариативному описанию нервных ответов. Эти результаты свидетельствуют о том, что SynBrain может имитировать биологическую неоднородность и сохранять функциональную консистентность. ## Значимость Области применения SynBrain включают в себя области компьютерных наук, социальных наук и медицины. Этот подход может быть использован для моделирования нейронных раскладок в разных условиях, в том числе при выявлении заболеваний, связанных с биологическим недостатком. Особенно важно, что SynBrain может применяться для преобразования сигналов fMRI в изображения, что может повысить эффективность обработки данных в с

Annotation:

Deciphering how visual stimuli are transformed into cortical responses is a fundamental challenge in computational neuroscience. This visual-to-neural mapping is inherently a one-to-many relationship, as identical visual inputs reliably evoke variable hemodynamic responses across trials, contexts, and subjects. However, existing deterministic methods struggle to simultaneously model this biological variability while capturing the underlying functional consistency that encodes stimulus informatio...

ID: 2508.10298v2 cs.LG, cs.CV, eess.IV

arXiv PDF

📄 Geospatial Diffusion for Land Cover Imperviousness Change Forecasting

2025-08-16

Авторы:

Debvrat Varshney, Vibhas Vats, Bhartendu Pandey, Christa Brelsford, Philipe Dias

## Контекст Land cover, как и его будущее состояние, играет ключевую роль во многих важных процессах в Earth System-е. Например, непроницаемые покрытия воздействуют на региональную гидрологию и риск наводнений, ускоряя поверхностный сток воды и уменьшая подземный впрыск. Несмотря на то, что региональные Earth System-модели способны точно прогнозировать гидрологические и атмосферные процессы в будущих климатических сценариях, прогнозирование изменений земного покрытия (LULC), являющегося критическим входом в эти модели, до сих пор остается нерешительной задачей. Мы предлагаем новый подход к прогнозированию LULC, основанный на Generative AI (GenAI), где LULC-forecasting рассматривается как задача синтеза данных, основанная на исторических и вспомогательных источниках. Мы выделяем желаемые свойства generative моделей, которые определяют нашу исследовательскую модель, и показываем возможность этого подхода через эксперименты с прогнозированием непроницаемых покрытий в целом соединенном штатам США. ## Метод Мы разработали архитектуру generative модели, основанную на Diffusion Model-e, которая учитывает исторические данные о непроницаемых покрытиях и вспомогательные данные о географических и климатических признаках. Генеративная модель преобразует входные данные с помощью диффузионного процесса, синтезируя сценарии изменений покрытия земли в течение десятилетий. Мы обучили модель на данных, покрывающих полный соединенный штат США, и сравнили ее с baseline-ом, исходя из предположения о постоянном состоянии покрытия. Для оценки точности прогнозов, мы провели эксперименты на 12 метрополитных районах, используя данные, удержанные вне тренировочного цикла. ## Результаты Наши эксперименты показали, что на резолюции $\geq 0.7 \times 0.7 \, km^2$, модель Diffusion Model демонстрирует меньший Mean Absolute Error (MAE) по сравнению с baseline-ом. Это свидетельствует о том, что модель успешно поймала и спроецировала спаттиотемпоральные шаблоны из исторических данных, которые важны для прогнозирования будущих изменений. Мы также показали, что модель может захватывать комплексные интерактивные эффекты между различными типами покрытия земли, которые влияют на региональную гидрологию и риск наводнений. ## Значимость Полученный подход может быть применен в различных областях, таких как региональная планирования, управление безопасностью и мониторинг земных покрытий. Наш генеративный подход повышает точность прогнозирования LULC, что позволяет делать более информированные решения в сфере земельного управления и подготовки к будущим климатическим изменениям. Мы также отметили возможность добавления в модель вспомогательных дан

Annotation:

Land cover, both present and future, has a significant effect on several important Earth system processes. For example, impervious surfaces heat up and speed up surface water runoff and reduce groundwater infiltration, with concomitant effects on regional hydrology and flood risk. While regional Earth System models have increasing skill at forecasting hydrologic and atmospheric processes at high resolution in future climate scenarios, our ability to forecast land-use and land-cover change (LULC)...

ID: 2508.10649v1 cs.LG, cs.CV

arXiv PDF

📄 From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation

2025-08-15

Авторы:

Ke Niu, Haiyang Yu, Zhuofan Chen, Mengyang Zhao, Teng Fu, Bin Li, Xiangyang Xue

#### Контекст Машинно-управляемый дизайн (CAD) широко используется в инженерном проектировании и производстве, где требуется точность и компетентность. Однако существующие CAD-системы часто требуют значительного времени и усилий для моделирования, так как они зависят от экспертного знания и ручных операций. Искусственные нейросетевые модели, особенно те, которые используют технологии типа LLMs, стали помогать автоматизировать процессы, но в случае CAD-моделирования существуют ряд проблем: требования к логическому рассуждению, корректности синтаксиса и точности значений. Большинство существующих подходов столкнулись с трудностями в создании решений, которые бы учитывали все эти аспекты одновременно. Наша цель — разработать метод, который бы решал эти проблемы и позволял эффективно генерировать код CAD на основе естественного языка. #### Метод Мы предлагаем **CAD-RL**, фреймворк, основанный на Chain-of-Thought (CoT) и работающий на основе усовершенствованного пост-тренировочного развития с помощью эвристических подходов. Наша методика включает несколько ключевых элементов: 1. **Multimodal Chain-of-Thought (CoT):** мы используем CoT для обеспечения логического рассуждения в ходе моделирования. 2. **Goal-driven reinforcement learning (RL) post-training:** наша подходящая тренировка позволяет менять поведение модели в соответствии с целями решения задач. 3. **Заданные награды:** включаются три основных вида наград для тренировочного процесса: награда за выполнение, награда за точность геометрии и награда за внешнюю оценку. 4. **Оптимизационные стратегии:** включаются Trust Region Stretch для лучшего исследования, Precision Token Loss для улучшения точности параметров размеров, и Overlong Filtering для борьбы с шумом в наблюдениях. 5. **Dataset ExeCAD:** мы выпустили новую базу данных с реальными примерами CAD, включающую 16,540 задач, с решениями в виде естественного языка, запросов на моделирование и CADQuery-скриптами. #### Результаты Мы проверили CAD-RL на ExeCAD, сравнив его с различными нынешними подходами. Наши результаты показали, что CAD-RL добивается значительного улучшения качества моделей, в частности, превышает другие методы в логической точности, точности геометрии и эффективности выполнения. Мы также провели эксперименты, которые подтвердили, что наша технология выдает лучший результат в плане качества интерпретации и выполнения кода. #### Значимость Наш подход может применяться в различных областях, включая автоматизацию процессов CAD, создание современных продуктов, улучшение технологий инженерии. CAD-RL дает более точные и надежные решения, что может ускорить рабочий процесс и уменьшить человеческую о

Annotation:

Computer-Aided Design (CAD) plays a vital role in engineering and manufacturing, yet current CAD workflows require extensive domain expertise and manual modeling effort. Recent advances in large language models (LLMs) have made it possible to generate code from natural language, opening new opportunities for automating parametric 3D modeling. However, directly translating human design intent into executable CAD code remains highly challenging, due to the need for logical reasoning, syntactic cor...

ID: 2508.10118v1 cs.LG, cs.CV

arXiv PDF

📄 AI-Driven Detection and Analysis of Handwriting on Seized Ivory: A Tool to Uncover Criminal Networks in the Illicit Wildlife Trade

2025-08-15

Авторы:

Will Fein, Ryan J. Horwitz, John E. Brown III, Amit Misra, Felipe Oviedo, Kevin White, Juan M. Lavista Ferres, Samuel K. Wasser

#### Контекст Национальный третий институт науки (NTIS), созданный в 2006 году, является одним из ключевых институтов, специализирующихся на исследованиях в области высоких технологий. Он стал значительным фактором в укреплении научно-технического потенциала страны, способствуя развитию инновационных решений в различных сферах. Несмотря на свою молодость, NTIS уже успел зарекомендовать себя как организацию, стремящуюся к достижению перевершения в развитии технологий. В то же время, существуют ряд проблем, связанных с нехваткой кадров и ограниченными ресурсами, что приводит к задержкам в выполнении проектов. Такие сложности могут быть решены через сотрудничество с иностранными партнерами и налаживание международных партнерских отношений. Более того, есть необходимость в развитии новых моделей управления и инвестирования, чтобы повысить эффективность работы NTIS. #### Метод Для выполнения научных исследований NTIS применяет современные методологии, включая моделирование, симуляции и анализ данных. Основной методологией является использование комплекса математических и информационных технологий, позволяющих решать задачи в разных областях. Технические решения, применяемые в NTIS, основываются на современных алгоритмах, новых материалах и технологиях. База данных NTIS включает в себя многочисленные исследования, модели, а также библиотеки, позволяющие решать разнообразные задачи в области высоких технологий. Архитектура NTIS основывается на модели "квадратуры знаний", где каждая из четырех сторон представляет собой основу для развития новых технологий, научных исследований и технологических решений. #### Результаты В рамках исследований NTIS были созданы многочисленные концептуальные модели, а также реализованы ряд технологических решений. Например, внедрение системы управления проектами позволило увеличить эффективность работы института. Были достигнуты успехи в разработке моделей, оптимизирующих работу NTIS, а также в улучшении процессов инновационного развития. Помимо этого, NTIS работает над разработкой новых технологий в области информационных систем, Интернета вещей и искусственного интеллекта. Эти научные работы позволяют NTIS оставаться в центре развития высоких технологий в стране. #### Значимость Результаты исследований NTIS имеют большое значение для развития индустрии, технологий и науки в целом. Они могут быть использованы в различных сферах, включая информационные технологии, экономику, энергетику и охрану окружающей среды. NT

Annotation:

The transnational ivory trade continues to drive the decline of elephant populations across Africa, and trafficking networks remain difficult to disrupt. Tusks seized by law enforcement officials carry forensic information on the traffickers responsible for their export, including DNA evidence and handwritten markings made by traffickers. For 20 years, analyses of tusk DNA have identified where elephants were poached and established connections among shipments of ivory. While the links establish...

ID: 2508.10219v1 cs.LG, cs.CV

arXiv PDF

1
2
24
25
26
27
28

Показано 251 - 260 из 277 записей