📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Nathanael Coolidge, Jaime González Sanz, Li Yang, Khalil El Khatib, Glenn Harvel, Nelson Agbemava, I Putu Susila, Mehmet Yavuz Yagci

## Контекст Системы измерения и обнаружения радиоактивных материалов в окружающей среде (Radiation Detection Systems, RDS) крайне важны для обеспечения безопасности в различных областях, включая атомную энергетику, гражданское строительство и транспорт. Однако эти системы чувствительны к внешним угрозам, таким как Denial of Service (DoS) атаки, которые могут привести к неполадкам и неточности данных. Несмотря на распространенность методов обнаружения атак в сетевых средах, применение таких методов к RDSs остается редким. Это создает значительную проблему для обеспечения надежности и безопасности критически важной инфраструктуры. ## Метод Работа предлагает эффективную IDS-систему на основе машинного обучения для обнаружения аномалий в данных радиационных систем. Основной архитектурой является Машинное Обучение (ML), в частности, алгоритмы, такие как Random Forest, SVM, логистическая регрессия и LightGBM. Используется метод сэмплирования для моделирования DoS-атак на основе реальных данных радиации. На этапе оптимизации методов используются такие техники, как выбор признаков, параллельное выполнение задач и стратегии поиска рандомных значений. Эти методы позволяют улучшить эффективность и скорость развертывания IDS. ## Результаты В ходе экспериментов были протестированы различные модели ML на реальных данных, полученных от RDS. Алгоритм LightGBM продемонстрировал самую высокую точность обнаружения DoS-атак с минимальным потреблением ресурсов. Особенно было отмечено, что LightGBM позволяет достичь точности до 95% при минимальном нагрузке на систему. Также были проведены эксперименты с методами функционального выделения признаков, параллельным выполнением и многопоточной обработкой. ## Значимость Предложенная IDS-система может быть применена в различных областях, включая системы сигнализации, транспортные системы и зоны ядерной безопасности. Особое преимущество заключается в том, что LightGBM-система не только обеспечивает высокую точность, но и работает с минимальным потреблением ресурсов, что особенно важно для реального времени. Это может существенно повлиять на безопасность критически важной инфраструктуры, снижая риск атак и повышая надежность систем. ## Выводы Работа доказала, что LightGBM является эффективным инструментом для обнаружения DoS-атак в RDS. Будущие исследования будут фокусироваться на расширении области применения, включая многофункциональные приложения и улучшение многоуровневой защиты RDS. Также будет рассмотрено повышение точности и развитие методов оптимизации для более сложных типов атак.
Annotation:
Radiation Detection Systems (RDSs) are used to measure and detect abnormal levels of radioactive material in the environment. These systems are used in many applications to mitigate threats posed by high levels of radioactive material. However, these systems lack protection against malicious external attacks to modify the data. The novelty of applying Intrusion Detection Systems (IDS) in RDSs is a crucial element in safeguarding these critical infrastructures. While IDSs are widely used in netwo...
ID: 2509.01599v1 cs.CR, cs.AI, cs.LG, cs.SY, eess.SY, 68T05, 93C65, 90C35, K.6.5; C.2.3; I.2.6
Авторы:

Pedram Fekri, Mehrdad Zadeh, Javad Dargahi

#### Контекст Улучшение технологий мониторинга и визуализации в катехеризации требует повышения точности оценки взаимодействия медицинского оборудования с организмом пациента. Одной из ключевых задач является сочетание данных визуального и тактильного типа для повышения точности интерпретации данных. Для этого широко используются многозадачные нейросетевые модели, которые объединяют в себе различные задачи, такие как сегментация изображений и оценка трения. Эти задачи имеют прикладное значение в медицинской практике, поскольку позволяют улучшить точность и эффективность процедур катехеризации. Однако существуют проблемы с ресурсоемкостью и недостаточной точностью, которые существенно ограничивают практическое применение таких моделей. #### Метод Мы предлагаем TransForSeg — модель, основанную на Vision Transformer, которая обрабатывает два входных изображения в качестве последовательностей. Модель учитывает длинные зависимости между патчами изображений с разных углов, не требуя их последовательного расширения. Для каждого входа используется отдельный сегментационный блок, а для оценки трения — регрессионный блок, объединяющий результаты двух сегментационных блоков. Наша модель обеспечивает синхронную оценку сегментации и трения с помощью контекстно-зависимой моделирования, которая использует возможности Vision Transformer для передачи длинных зависимостей. #### Результаты Мы провели тщательные эксперименты на синтетических X-X-ray изображениях с разными уровнями шума. Модель была сравнена с современными моделями для сегментации изображений, задач оценки трения, а также с многозадачными моделями. Результаты показали, что TransForSeg превосходит существующие модели по качеству сегментации и точности оценки трения. Она установила новый стандарт в области катехеризации, позволив улучшить качество обработки изображений и точность тренировочных моделей. #### Значимость Модель TransForSeg может быть применена в различных областях, где требуется синхронная оценка геометрии и трения. Например, в медицинских процедурах, визуальном мониторинге и анализе трения. Основной преимуществом TransForSeg является её многозадачность, которая позволяет эффективно обрабатывать изображения и оценивать физические взаимодействия. Это открывает путь к улучшению точности и эффективности в медицинских процедурах. #### Выводы Мы представили TransForSeg — модель, которая демонстрирует высокую точность в сегментации изображений и оценке трения. Наши результаты показывают, что модель может стать новым стандартом в синхронной оценке сегментации и трения. Будущие исследования будут сконцентрированы на расширени
Annotation:
Recently, the emergence of multitask deep learning models has enhanced catheterization procedures by providing tactile and visual perception data through an end-to-end architecture. This information is derived from a segmentation and force estimation head, which localizes the catheter in X-ray images and estimates the applied pressure based on its deflection within the image. These stereo vision architectures incorporate a CNN-based encoder-decoder that captures the dependencies between X-ray im...
ID: 2509.01605v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Yuzhi Yang, Omar Alhussein, Mérouane Debbah

## Контекст Ортогональное разделение частот (OFDM) широко используется в современных системах связи, таких как LTE, Wi-Fi и 5G, для эффективного передачи данных в разноструктурированных средах. Однако качество сигнала OFDM чувствительно к наличию шума и дисторсии, что делает критически важным точное моделирование и генерацию громкоговорящих каналов OFDM. Несмотря на развитие методов моделирования каналов, существуют проблемы, связанные с неодинаковой надежностью элементов канала, возникающей из-за использования различных схем пилотирования. Общие методы моделирования частот, основанные на стандартных моделях размытия, не способны точно учитывать эту неодинаковость, что приводит к ошибкам в генерации канала. Данная работа уделяет внимание этой проблеме, предлагая новую модель размытия, которая может более точно представлять локальные различия в надежности элементов OFDM-канала. ## Метод Методология, предлагаемая в этой работе, основывается на развитии "неидентичного" размытия (non-identical diffusion), который является усовершенствованием стандартных моделей размытия. В отличие от традиционных подходов, где время размытия представляется как скалярное значение, в данном подходе время размытия задается элементной матрицей, что позволяет учитывать локальные различия в надежности каждого элемента канала. Метод разработан с учетом специфики OFDM-каналов, где каждый элемент (например, подкарьеры) имеет разную трудность и надежность восстановления. Для этого применяется матрица-маска, которая определяет прогресс размытия на уровне каждого элемента. Такой подход позволяет учитывать влияние различных схем пилотирования и шума на каждый элемент канала, что улучшает точность моделирования. ## Результаты Для проверки эффективности предложенного подхода проводились эксперименты с использованием реальных и синтетических данных. Были сравнены результаты генерации каналов с использованием обычных моделей размытия и новой модели "неидентичного размытия". Обнаружено, что последняя позволяет получить более точные результаты, особенно при использовании ориентированных на пилоты схем пилотирования. Эксперименты показали, что "неидентичное размытие" уменьшает ошибки восстановления канала, особенно в случаях, когда надежность элементов канала варьируется сильно. Это достигается благодаря точному учету локальных различий в надежности элементов, которого недостаточно в стандартных моделях. ## Значимость Предложенная модель "неидентичного размытия" имеет значительное значение для сферы моделирования и генерации каналов в системах связи. Она может быть применена в различных ситуациях, где т
Annotation:
We propose a novel diffusion model, termed the non-identical diffusion model, and investigate its application to wireless orthogonal frequency division multiplexing (OFDM) channel generation. Unlike the standard diffusion model that uses a scalar-valued time index to represent the global noise level, we extend this notion to an element-wise time indicator to capture local error variations more accurately. Non-identical diffusion enables us to characterize the reliability of each element (e.g., s...
ID: 2509.01641v1 eess.SP, cs.AI, cs.LG
Авторы:

Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin

## Контекст В последние годы широко распространена идея, что большие языковые модели (LLM) страдают значительной чувствительностью к стилю выражения (prompt sensitivity), т. е. что подмена формулировок в задании приводит к существенным изменениям в их поведении и результатах. Эта проблема часто приводит к допущению, что LLM имеют недостаточную глубину понимания и гибкости в обработке языка. Однако появились сигналы, что это может быть не только исходной особенностью моделей, но и следствием ограниченности текущих методов оценки. Мотивация для данного исследования кроется в понимании, насколько сильно эта чувствительность связана с моделями, а не с техниками оценки. ## Метод Для данного исследования были использованы 7 языковых моделей, включая GPT и Gemini, оцененные на 6 различных бенчмарках, которые включали опен-эндж и множественно-выборочные задачи. Эти задачи были проанализированы с использованием 12 различных шаблонов выражения. Авторы использовали две основные техники оценки: традиционную (log-likelihood scoring и rigid answer matching) и новую (LLM-as-a-Judge), чтобы измерить как традиционную, так и новую степень чувствительности к стилю выражения. ## Результаты Исследование показало, что значительная часть чувствительности к стилю выражения (prompt sensitivity) является следствием традиционных техник оценки. Например, log-likelihood scoring и rigid answer matching часто пропускают семантически корректные ответы, выраженные через альтернативные формулировки (такие как синонимы или парафразы). Когда авторы применяли LLM-as-a-Judge, они обнаружили значительную снижение вариативности показателей, а также увеличение согласованности рейтингов моделей по всем шаблонам. Эти результаты указывают на то, что модели LLM более жизнеспособны по отношению к разнообразию выражений, чем было предполагалось ранее. ## Значимость Нахождения данного исследования имеют значительные последствия для области глубокого обучения и оптимизации технологий обработки естественного языка. В частности, они показывают, что традиционно принятая мнение о чувствительности LLMs к выражению заданий может быть значительно переоценена. Подход LLM-as-a-Judge может стать более объективным методом оценки, который может быть использован в будущих исследованиях. Эти результаты также открывают новые возможности для улучшения технологий обучения и работы LLM, устраняя существующие ограничения. ## Выводы В целом, исследование выводит, что значительная часть чувствительности к стилю выражения является следствием ограничений текущих методов оценки, а не недостатков моделей LLM. Это открывает новый взгляд на область оценки языковых
Annotation:
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LL...
ID: 2509.01790v1 cs.CL, cs.AI, cs.LG
Авторы:

Md Mahbub Alam, Jose F. Rodrigues-Jr, Gabriel Spadon

## Контекст Обеспечение точной и надежной прогнозирования траекторий судов является ключевым аспектом повышения ситуационной осведомленности и предотвращения кораблекрушений. Существующие модели, основанные на данных, часто ограничиваются прогнозированием отдельно взятых судов, без учета характера их взаимодействий. Эти взаимодействия, включая законы обороты, синхронизацию движения, а также конкретные факторы риска столкновений, часто остаются за пределами области внимания. Это создает значительные проблемы для мореплавательных систем, работающих в реальном времени, так как неверно прогнозированные траектории могут привести к возникновению опасных ситуаций. Наша модель предлагает решение этой проблемы, ориентируясь на создание многосудовой модели, учитывающей взаимодействия, и интегрирующую анализ риска столкновений. ## Метод Мы предлагаем преобразователь-основную модель (transformer-based framework), которая состоит из нескольких компонентов. Она начинает с распознавания ближних судов в окрестности целевого судна. Для каждого из этих судов выделяются и предсказываются их движения в двух потоках: один для базовых кинематических параметров, и другой для прогнозирования движения в зависимости от выделенных физических признаков. Используется гибридная система позиционирования, которая учитывает как местные модели движения, так и длинные зависимости в данных. Кроме того, мы применяем сверточные нейронные сети для учета временной локальности. Эта модель позволяет одновременно прогнозировать несколько траекторий и анализировать их взаимодействия, чтобы строить более точные прогнозы и оценивать риск столкновений. ## Результаты Мы проводили эксперименты на большом наборе реальных данных, полученных из автоматической идентификационной системы (AIS). Наши результаты показали, что модель превосходит существующие модели по точности прогнозирования отдельных траекторий, а также по способности оценивать риски столкновений. Мы вычисляли метрики, связанные с качеством прогноза (такие как MAE, RMSE) и сравнивали их с другими моделями. Также мы проводили симуляции взаимодействий между судами, чтобы выявлять потенциальные риски столкновений, и демонстрировали, как модель может предоставлять пользователям сигналы о потенциальных угрозах. ## Значимость Наша модель может быть применена в различных областях, таких как мореплавательная безопасность, автоматизированные системы навигации, а также для повышения оборотов в морских транспортных системах. Обладая более точным прогнозом траекторий и анализом риска столкновений, эта модель может улучшить реагирование на потенциальные уг
Annotation:
Accurate vessel trajectory prediction is essential for enhancing situational awareness and preventing collisions. Still, existing data-driven models are constrained mainly to single-vessel forecasting, overlooking vessel interactions, navigation rules, and explicit collision risk assessment. We present a transformer-based framework for multi-vessel trajectory prediction with integrated collision risk analysis. For a given target vessel, the framework identifies nearby vessels. It jointly predict...
ID: 2509.01836v1 cs.RO, cs.AI, cs.LG
Авторы:

Yilin Guan, Wenyue Hua, Qingfeng Lan, Sun Fei, Dujian Ding, Devang Acharya, Chi Wang, William Yang Wang

#### Контекст Модели языка с трансформерами (LLM) достигли впечатляющих результатов в обработке текста, что привело к их широкому распространению в различных сферах. Однако работа этих моделей требует высоких ресурсов, включая высокую задержку и высокие затраты на выполнение запросов. Эти ограничения становятся критическими для применения в реальном времени, где требуется быстрая реакция и экономичность. Несмотря на развитие методов ускорения, такие как декомпозиция модели (модель управления), они имеют серьезные недостатки, такие как потеря точности, требование дорогостоящих операций во время обучения или ограниченную гибкость в управлении затратами. Наша модель Dynamic Speculative Planning (DSP) предлагается как решение этих проблем, предлагая гибкое решение для ускорения, сохраняя качество и уменьшая затраты. #### Метод DSP является асинхронным фреймворком онлайн-обучения на основе подкрепления, который включает в себя спекулятивную планировку. Он работает за счет асинхронного выполнения нескольких вариантов планирования, что позволяет оптимизировать объективный функционал, сбалансировав задержку и экономические затраты. Для этого используется модель управления, которая принимает решения о том, какие варианты должны быть выполнены или прерваны, чтобы минимизировать общий конечно-классовый риск. Этот подход позволяет снизить общие затраты на выполнение запросов, при этом сохраняя высокую точность и поддерживая оптимальный баланс между скоростью и экономичностью. #### Результаты Мы провести эксперименты на двух стандартных наборах данных для оценки DSP. Он показал себя эффективно, достигая скорости работы, сопоставимой с самыми быстрыми методами ускорения, при этом существенно снижая общую стоимость работы. В сравнении с другими подходами, DSP уменьшил затраты на 30%, а также уменьшил необходимые затраты на 60%. Эти результаты подтверждают, что DSP не только эффективен, но и гибкий, позволяя пользователю регулировать торговую стоимость системы. #### Значимость DSP может быть использован в различных сферах, где требуется быстрая и экономичная обработка текста, таких как системы рекомендации, поисковые системы и диалоговые системы. Он предоставляет преимущество в скорости и экономичности, без потери качества. Это делает его привлекательным для приложений, где быстрота ответа и экономичность являются ключевыми факторами. #### Выводы Мы представили Dynamic Speculative Planning, мощный подход для ускорения обработки запросов в моделях языка, который позволяет достичь высокой эффективности и гибкости. В будущем, наша работа будет направлена на расширение возможностей DSP, в
Annotation:
Despite their remarkable success in complex tasks propelling widespread adoption, large language-model-based agents still face critical deployment challenges due to prohibitive latency and inference costs. While recent work has explored various methods to accelerate inference, existing approaches suffer from significant limitations: they either fail to preserve performance fidelity, require extensive offline training of router modules, or incur excessive operational costs. Moreover, they provide...
ID: 2509.01920v1 cs.AI, cs.LG, cs.MA
Авторы:

Hiroshi Sasaki

#### Контекст В последние годы multimodal models, такие как Contrastive Language-Image Pre-training (CLIP), показали исключительную эффективность в объединении визуальной и языковой информации. Однако эти модели сталкиваются с ограничениями при работе в специализированных визуальных областях, таких как диаграммы. Диаграммы отличаются своей структурой и символическим характером, отличным от природной имагии. Наша мотивация заключается в развитии методов, которые помогут моделям лучше понимать и работать с такими специализированными визуальными данными. #### Метод Мы предлагаем новую парадигму тренировки, которая направлена на улучшение понимания диаграмм внутри vision-language моделей. Наш подход использует "жесткие" примеры для продвинутого варианта contrastive learning, включающего два специальных целевых функции. Эти функции акцентуются на интересующих структурных свойствах диаграмм. Мы интегрируем эти целевые функции в процесс обучения модели, чтобы она могла более точно и семантически ценно понимать визуальный контент. #### Результаты Мы проверили нашу модель на датасете, содержащем flowcharts, как стандартный класс диаграмм. Наши результаты показали значительные улучшения по сравнению с стандартным CLIP и обычным hard negative learning. Мы измерили эффективность в tasks, таких как image-text matching и visual question answering, и показали, что наш подход значительно повышает точность и семантическое понимание. #### Значимость Наш подход может применяться в различных областях, где используются диаграммы, таких как образование, проектирование и анализ данных. Преимущества включают улучшенное понимание структуры диаграмм, более точную интерпретацию и высокую эффективность в задачах, требующих визуально-языкового понимания. Этот работ позволяет расширить возможности vision-language моделей, сделав их более универсальными и эффективными в специализированных визуальных задачах. #### Выводы Мы доказали, что целевое обучение структурной информации в диаграммах может значительно улучшить понимание vision-language моделей. Наша работа открывает новые возможности для развития моделей, которые будут более эффективно работать с символическими и структурированными визуальными данными. Мы планируем дальнейшее исследование в этой области, включая расширение применения наших методов к другим типам диаграмм и мультимодальным задачам.
Annotation:
Multimodal models, such as the Contrastive Language-Image Pre-training (CLIP) model, have demonstrated remarkable success in aligning visual and linguistic representations. However, these models exhibit limitations when applied to specialised visual domains, such as diagrams, which encode structured, symbolic information distinct from that of natural imagery. In this paper, we introduce a novel training paradigm explicitly designed to enhance the comprehension of diagrammatic images within vis...
ID: 2509.01959v1 cs.CV, cs.AI, cs.LG
Авторы:

Andrea Eirale, Matteo Leonetti, Marcello Chiaberge

## Контекст Социальная роботизированная навигация стала темой многочисленных исследований в последние годы. Основной акцент в этих исследованиях был сделан на том, чтобы роботы передвигались по пространству, избегая препятствий и соблюдая социальное расстояние от людей, а также предсказывали их движения, чтобы оптимизировать траектории. Однако, чтобы роботы были социально приемлемы, необходимо, чтобы они приобрели определенные социальные нормы, которые невозможно получить из обычных алгоритмов навигации. Эти нормы требуют специального процесса обучения. Мы предлагаем метод Heuristic Planning with Learned Social Value (HPLSV), который учитывает значение социальной навигации в виде дополнительной хитрости (heuristic) для алгоритмов типа графа. В настоящем рабочем этапе мы применяем этот подход к обычной социальной ситуации, когда робот присоединяется к очереди людей, с целью дальнейшего расширения на другие типы социальных ситуаций. ## Метод Мы предлагаем метод Heuristic Planning with Learned Social Value (HPLSV), который объединяет социальные знания в форме значения (value function), описывающего стоимость социальной навигации. Этот метод сочетает социальные знания с обычными техническими хитростями (heuristics) в графических алгоритмах планирования траекторий. Мы используем значение, полученное с помощью машинного обучения, для оценки социальной стоимости различных траекторий. Такой подход позволяет роботу принимать решения, учитывая не только физические препятствия, но также социальные факторы, такие как соблюдение дистанции или принятие социальных норм в сценариях, где робот взаимодействует с людьми. Метод построен на структуре обучения с подкреплением и включает в себя нейронные сети для оценки социальной ценности. ## Результаты Мы проверили наш метод в сценарии, когда робот присоединяется к очереди людей. Мы использовали симуляционное окружение с различными вариантами поведения людей, чтобы протестировать различные ситуации. Наши эксперименты показали, что метод HPLSV позволяет роботу эффективно и социально присоединяться к очереди, соблюдая социальное расстояние и принимая учет движения других людей. Мы сравнили наш метод с существующими технологиями и получили значительные улучшения в социальной приемлемости движения робота. ## Значимость Метод HPLSV может быть применен в различных областях, где роботы взаимодействуют с людьми, таких как роботы-розничные помощники в магазинах, роботы-помощники в домашних условиях или роботы-наставники в центрах обучения. Этот подход не только улучшает социальную приемлемость робота, но и повышает его удо
Annotation:
Social robotic navigation has been at the center of numerous studies in recent years. Most of the research has focused on driving the robotic agent along obstacle-free trajectories, respecting social distances from humans, and predicting their movements to optimize navigation. However, in order to really be socially accepted, the robots must be able to attain certain social norms that cannot arise from conventional navigation, but require a dedicated learning process. We propose Heuristic Planni...
ID: 2509.02134v1 cs.RO, cs.AI, cs.LG
Авторы:

Jannick Kehls, Ellen Kuhl, Tim Brepols, Kevin Linka, Hagen Holthusen

#### Контекст Исследование сферы применения нейронных сетей в решении задач моделирования непрерывных сред становится все более актуальным в связи с ростом потребности в эффективных алгоритмах, позволяющих сократить вычислительные затраты при сохранении точности решений. Особую проблему представляют модели, требующие высокой ресурсоемкости для построения точных решений. Данная работа фокусируется на развитии нейросетевого фреймворка для решения задач моделирования в рамках непрерывных систем, обеспечивающего объединение высокой точности и эффективности. #### Метод Предложенный фреймворк основывается на автоэнкодере (Autoencoder), который позволяет сократить размерность высокомерных решений с помощью нейронных сетей. Основная идея заключается в трех этапах. В первом этапе используется неуправляемый Autoencoder для сжатия высокоразмерных решений натуральных элементов в компактное пространство. Во втором этапе реализуется супервизированное обучение сети, реализующей закон подгонки, чтобы обучать сеть сопоставлять входные параметры с кодами из пространства сжатия. На третьем этапе внедряется суррогатная модель, которая моделирует полнофактное решение на основе входных параметров, используя построенную сеть. Для улучшения точности вводятся расширения: (i) версия с учетом сил для предсказания дисплейных полей и реакционных сил на граничных условиях и (ii) многополевая модель, расширяющая модель для решения сложных систем, таких как термомеханические системы. #### Результаты Работа подтверждает высокую точность построения моделей как на стандартных бенчмарках, так и на сложных задачах в непрерывных системах. Описанные расширения (сил и многополей) успешно расширяют возможности фреймворка, позволяя его применять в системах с полями, связанными друг с другом (например, термомеханические системы). Использовались данные в различных сценариях, включая анизотропную эластичность, геометрические колебания и сочетание теплопроводности с деформациями. Результаты показали, что построенная модель обеспечивает высокую точность в реконструкции решений, сохраняя гибкость и эффективность. #### Значимость Предложенный фреймворк отлично подходит для приложений в области непрерывных систем, где необходима экономия ресурсов при сохранении точности. Он может быть использован в сетевых решениях для работы с динамическими системами, в сочетании с технологиями увеличения эффективности моделей. Это расширяет перспективы для разработки удобных и эффективных алгоритмов, например, в сфере дигитальных дигиталов и анализа неопределенности. #### Выводы Результаты работы демонстрируют эфф
Annotation:
We propose a non-intrusive, Autoencoder-based framework for reduced-order modeling in continuum mechanics. Our method integrates three stages: (i) an unsupervised Autoencoder compresses high-dimensional finite element solutions into a compact latent space, (ii) a supervised regression network maps problem parameters to latent codes, and (iii) an end-to-end surrogate reconstructs full-field solutions directly from input parameters. To overcome limitations of existing approaches, we propose two ...
ID: 2509.02237v1 cs.CE, cs.AI, cs.LG
Авторы:

Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin

#### Контекст Reinforcement Learning from Verifiable Rewards (RLVR) является продвинутым подходом для улучшения логических возможностей больших языковых моделей. Однако существующие методы, такие как GRPO, часто сталкиваются с проблемой нулевых градиентов, что связано с фиксированными граничными значениями для падающих правдоподобий токенов и стандартизацией одинаковых наград. Эти факторы приводят к неэффективным обновлениям градиента и недостатку использования произведенных ответов. Данные ограничения становятся причиной неэффективного использования полученных данных в процессе обучения. #### Метод Чтобы устранить эти проблемы, в DCPO (Dynamic Clipping Policy Optimization) предложена динамическая стратегия урезания, которая адаптивно изменяет границы урезания для падающих правдоподобий токенов в зависимости от их предварительных индивидуальных вероятностей. Это позволяет увеличить границы для токенов с низкой вероятностью, чтобы повысить их эксплореризацию, и уменьшить для токенов с высокой вероятностью, чтобы избежать лишнего урезания. Также в DCPO введена техника сглаживания для стандартизации наград, которая объединяет информацию об ответах за весь тренировочный процесс. Это улучшает уровень эффективности использования ответов в ходе обучения. #### Результаты Данный подход был проверен на четырёх реальных бенчмарках с использованием трёх разных языковых моделей (Qwen2.5-Math-7B, Qwen2.5-14B). DCPO показал значительное улучшение производительности по сравнению с GRPO и DAPO. На AIME24 он достиг значений Avg@1 (46.7) и Avg@32 (38.8), превосходя GRPO (36.7/31.6) и DAPO (36.7/32.1). На бенчмарке AIME25 DCPO создал рекорды (23.3/19.0), превосходя GRPO (13.3/10.5) и DAPO (20.0/15.3). Была также заметна снижение количества нулевых наград на 28% по сравнению с GRPO и увеличение эффективности обучения в два раза по сравнению с DAPO. #### Значимость DCPO доказывает свою ценность в области больших моделей языкового моделирования, в частности в RLVR. Он эффективно использует данные, полученные от моделей, уменьшает число нулевых наград и увеличивает обучаемую стабильность. Это приводит к более эффективным выводам, улучшению качества ответов и увеличению общей эффективности обучения. #### Выводы DCPO демонстрирует новый этап в развитии RLVR, позволяя большим моделям языкового моделирования улучшить свою логическую структуру и эффективность. Основным направлением будущих исследований является дополнительное улучшение динамической стратегии урезания и её применение в различных областях, включая контекстные моделирования и по
Annotation:
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic C...
ID: 2509.02333v1 cs.CL, cs.AI, cs.LG
Показано 1361 - 1370 из 1693 записей