📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Less is More: Learning Graph Tasks with Just LLMs

2025-08-15

Авторы:

Sola Shirai, Kavitha Srinivas, Julian Dolby, Michael Katz, Horst Samulowitz, Shirin Sohrabi

## Контекст Графы широко используются в различных областях, включая социальные сети, финансы и биологию. Однако решение задач, связанных с графами, часто требует специализированных алгоритмов и моделей. Большие языковые модели (LLMs), оснащенные мощным способом обработки текста, могут быть применены для решения таких задач. Тем не менее, существуюют сомнения в том, могут ли LLMs решать задачи графа независимо от сериализованных в виде текста данных, и какие подходы окажутся эффективными. Мотивирует это желание упростить процесс решения задач графов, уменьшив необходимость в дополнительных сложностях, таких как сериализация данных и использование специализированных моделей. ## Метод Исследование основывается на использовании LLMs, обученных с использованием цепочки мышления (chain-of-thought), для решения задач графов. Для этого рассматриваются несколько подходов: (1) традиционная сериализация графов в текст, (2) использование LLMs с цепочкой мышления для прямого решения задач, и (3) рекуррентное обучение с учетом цепочки мышления. Отдельное внимание уделяется экспериментам с различными архитектурами графов и размерами моделей. Таким образом, исследование сосредоточено на сравнении эффективности разных подходов и их общих возможностей в решении задач графов. ## Результаты В ходе экспериментов были проанализированы различные модели, включая LLMs с разным объемом параметров и различными типами графов. Наблюдалось, что даже небольшие модели с цепочкой мышления способны решать базовые задачи графов, включая поиск пути и нахождение кратчайшей цепи. Более того, эти модели могут общаться с неизвестными графами и задачами, не прибегая к сериализации. В сравнении с традиционными подходами, основывающимися на сериализации данных или комбинации GNNs и LLMs, LLMs с цепочкой мышления показали выигрыш в скорости обучения и гибкости при увеличении задач и графов. ## Значимость Полученные результаты открывают новые возможности для использования LLMs в области графовых задач. Они предлагают упрощенный подход, не требующий сериализации данных или специального графового представления. Это может привести к значительной экономии ресурсов и ускорению процесса решения задач в различных приложениях, включая социальные сети, бизнес-анализ и биоинформатику. Более того, полученные преимущества могут открыть новые пути для использования графов в области искусственного интеллекта. ## Выводы Результаты исследования показывают, что LLMs, обученные с использованием цепочки мышления, могут эффекти

Annotation:

For large language models (LLMs), reasoning over graphs could help solve many problems. Prior work has tried to improve LLM graph reasoning by examining how best to serialize graphs as text and by combining GNNs and LLMs. However, the merits of such approaches remain unclear, so we empirically answer the following research questions: (1) Can LLMs learn to solve fundamental graph tasks without specialized graph encoding models?, (2) Can LLMs generalize learned solutions to unseen graph structures...

ID: 2508.10115v1 cs.LG, cs.AI, I.2.7; I.2.6; I.5.1

arXiv PDF

📄 Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts

2025-08-15

Авторы:

Maxime Heuillet, Yufei Cui, Boxing Chen, Audrey Durand, Prasanna Parthasarathi

## Контекст Улучшение моделей языковых моделей (LLMs) в сложных областях, таких как математическое моделирование, требует эффективных методов обучения с подenом награды (Reinforcement Learning, RL). Одним из таких подходов является reinforced fine-tuning (ReFT), в котором модель генерирует несколько концовок для задачи, а затем эти концовки оцениваются с помощью ревард-функции. Хотя такой подход продемонстрировал выдающиеся результаты, его вычислительная стоимость возникает из-за необходимости многократного выполнения модели для каждой итерации обучения. Это становится особенно важно при обучении больших моделей. Мы предлагаем Nested-ReFT, новый подход к ReFT, который уменьшает вычислительные затраты за счет использования слоев модели в качестве "поведенческой" модели для генерации концовок в процессе обучения. ## Метод Nested-ReFT использует многоуровневую архитектуру, в которой некоторые слои модели используются для генерации концовок заданий, в то время как другие слои отвечают за оценку этих концовок. Это позволяет эффективно использовать модель, не требуя генерации концовок на каждой итерации. Мы также ввели технику "динамического пропуска слоев", которая позволяет еще больше сократить вычислительные затраты. Для обеспечения точности решения мы предлагаем три варианта устранения биаса в обучении с off-policy данными, которые позволяют сохранить высокий уровень производительности. ## Результаты Мы провели эксперименты на нескольких математических задачах и моделях различных размеров. Результаты показали, что Nested-ReFT выполняет большое количество подсчетов задач за секунду (tokens/sec) в сравнении с стандартными ReFT-методами, что демонстрирует его высокую эффективность. Также, мы проанализировали эффективность различных стратегий устранения биаса, показав, что они позволяют сохранить точность решения на уровне ReFT-методов с полной моделью. ## Значимость Nested-ReFT открывает новые возможности для эффективного обучения моделей языковых моделей в сложных областях. Его применимость распространяется на такие области, как математическое моделирование, логические задачи и другие сложные решения, для которых требуется высокая точность и эффективность. Он обеспечивает выигрыш в скорости обучения и уменьшает количество вычислительных ресурсов, что может сделать эти модели более доступными для ученых и разработчиков. ## Выводы Мы представили Nested-ReFT, новый эффективный подход к обучению моделей языковых моделей с использованием RL. Наши результаты показали, что использование слоев модели в качестве поведенческой модели не только уменьшает накладные расходы, но и позволяет достичь высокой точности решения. Наше исследова

Annotation:

Advanced reasoning in LLMs on challenging domains like mathematical reasoning can be tackled using verifiable rewards based reinforced fine-tuning (ReFT). In standard ReFT frameworks, a behavior model generates multiple completions with answers per problem, for the answer to be then scored by a reward function. While such RL post-training methods demonstrate significant performance improvements across challenging reasoning domains, the computational cost of generating completions during training...

ID: 2508.10123v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 rETF-semiSL: Semi-Supervised Learning for Neural Collapse in Temporal Data

2025-08-15

Авторы:

Yuhan Xie, William Cappelletti, Mahsa Shoaran, Pascal Frossard

## Контекст Глубокие нейронные сети (DNNs), применяемые к задачам классификации временных рядов, должны эффективно характеризировать сложные тренды и динамику данных. Несмотря на прогресс в обучении с подкреплением (self-supervised learning), оптимальное подборщие предварительных задач (pretext tasks) для обучения остается нерешенной проблемой. Этот этап часто основывается на эвристиках, а его работоспособность в супервизированном сегменте не гарантируется. Мы предлагаем сочетать self- и semi-supervised learning в стратегии, нацеленной на формирование представлений, которые соответствуют феномену Neural Collapse — очень жесткой геометрии внутренних представлений, наблюдаемой при оптимальном обучении классификаторов. ## Метод Мы предложили **rETF-semiSL**, метод, который следует двум принципам: (1) использование циклических представлений (cyclic representations) для подготовки и (2) добавление генеративных задач для улучшения семантической структуры. Мы используем **rotational equiangular tight frame (rETF)** — классификатор, который генерирует циклические представления трехмерных векторов. Эти представления являются фундаментальным инструментом для само-супервизионной подготовки. Кроме того, мы расширили подход, включив **pseudo-labeling**, что позволяет эффективно использовать небольшие выборки меток. Для эффективного представления динамики временных рядов мы включили **generative pretext tasks**, такие как подбор моделей изображений. Мы также внедрили **sequential augmentation**, чтобы повысить выделительные свойства представлений. ## Результаты Мы провели эксперименты на трех популярных датасетах временных рядов с многоканальной классификацией: **UCR**, **UEA** и **HHAR**. Мы сравнили нашу модель с различными архитектурами (LSTM, Transformer, State-Space Models) и существующими методами обучения (SimCLR, MoCo, BYOL). Результаты показали, что **rETF-semiSL** приводит к существенному улучшению в производительности, особенно при малом количестве меток. Мы также показали, что наш подход значительно соответствует теоретическим предположениям Neural Collapse, чего не достигают другие методы. ## Значимость Метод **rETF-semiSL** имеет широкие приложения в области обработки временных рядов, таких как здравоохранение, мониторинг сетей и датчики. Он обеспечивает повышенную точность классификации, особенно при небольшом количестве меток. Это направляет наши исследования в направлении создания представлений, глубже взаимосвязанных с теоретическими принципами, чтобы повысить надежность и эффективность моделей. ## Выводы Мы представили **rETF-semiSL**, новый подход к обучению с подкреплением для временных рядов, который использует циклические представления и гене

Annotation:

Deep neural networks for time series must capture complex temporal patterns, to effectively represent dynamic data. Self- and semi-supervised learning methods show promising results in pre-training large models, which -- when finetuned for classification -- often outperform their counterparts trained from scratch. Still, the choice of pretext training tasks is often heuristic and their transferability to downstream classification is not granted, thus we propose a novel semi-supervised pre-traini...

ID: 2508.10147v1 cs.LG, cs.AI, 68T07

arXiv PDF

📄 Out-of-Distribution Detection using Counterfactual Distance

2025-08-15

Авторы:

Maria Stoica, Francesco Leofante, Alessio Lomuscio

#### Контекст Обнаружение данных вне распределения (OOD) является ключевым заданием в области машинного обучения, особенно в сферах, требующих высокой надежности и безопасности, таких как медицина, автопилоты и системы мониторинга. Несанкционированные входы, которые выходят за пределы обучающих данных, могут привести к серьезным ошибкам и непредсказуемости. Несмотря на высокую точность современных моделей, они часто не в состоянии точно определять OOD-данные, что делает их применение в реальных условиях опасным. Более того, многие существующие подходы не обеспечивают достаточной прозрачности, что снижает доверие пользователей. Эти проблемы подчеркивают необходимость развития методов OOD-обнаружения, которые обеспечат как точность, так и возможность пояснения решений. #### Метод Метод, предложенный в статье, основан на использовании **counterfactual explanations** для вычисления расстояния до разделяющих поверхностей (decision boundaries) в многоклассовых вопросах. Такие расчеты позволяют определить, насколько данный вход отличается от обучающих примеров. Для улучшения производительности и эффективности, авторы предлагают рассчитывать используемые расстояния непосредственно в пространстве эмбеддингов, а не в полном пространстве признаков. Это позволяет избежать дорогостоящих вычислений во всех нейрослоях, что особенно важно для больших моделей. Метод представляет собой **post-hoc** подход, что означает, что он может быть применен к уже обученным моделям без необходимости изменять их архитектуру. #### Результаты Авторы демонстрируют эффективность своего подхода с помощью экспериментов на фреймворках CIFAR-10, CIFAR-100 и ImageNet-200. На CIFAR-10 метод достиг высокой точности — AUROC 93.50% и низкой частоты ложноположительных результатов (FPR95 25.80%). На более сложном наборе данных CIFAR-100, где OOD-данные часто напоминают схожие классы, полученные результаты значительно превосходят конкурентные подходы: AUROC 97.05% и FPR95 13.79%. На большом наборе данных ImageNet-200, кросс-валидация по четырём OOD-данным подтвердила высокую общую точность — AUROC 92.55% и FPR95 33.55%. Эти результаты подтверждают, что способ авторов способен эффективно обнаруживать OOD-данные в разных условиях. #### Значимость Метод оказался полезен для приложений, требующих высокой точности обнаружения OOD, таких как автоматизация процессов, безопасность систем управления и мониторинга. Его преимущество в том, что он обеспечивает не только высокую точность, но также и понятность решений благодаря использованию counterfactual explanations. Эти свойства делают его применимы

Annotation:

Accurate and explainable out-of-distribution (OOD) detection is required to use machine learning systems safely. Previous work has shown that feature distance to decision boundaries can be used to identify OOD data effectively. In this paper, we build on this intuition and propose a post-hoc OOD detection method that, given an input, calculates the distance to decision boundaries by leveraging counterfactual explanations. Since computing explanations can be expensive for large architectures, we ...

ID: 2508.10148v1 cs.LG, cs.AI

arXiv PDF

📄 WeChat-YATT: A Simple, Scalable and Balanced RLHF Trainer

2025-08-15

Авторы:

Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Tingfeng Xian, Haoqiang Hong, Boqi Chen, Haotao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao

## Контекст WeChat-YATT (Yet Another Transformer Trainer in WeChat) — это простой, масштабируемый и балансированный тренер для Reinforcement Learning from Human Feedback (RLHF). Он разработан для решения проблем, связанных с масштабированием и эффективностью тренировки больших трансформеров и мультимодальных систем. Несмотря на прогрессы в технологиях RLHF, существуют значительные недостатки в системах, которые относятся к управлению большими моделями, адаптации к динамическим задачам и оптимизации вычислительных ресурсов. В частности, существующие системы часто сталкиваются с проблемами масштабируемости контроллеров и неэффективностью пайплайнов RLHF при работе с интенсивными динамическими обработками. В этом исследовании мы развиваем новую архитектуру и методологию, которые позволяют устранить эти проблемы. ## Метод WeChat-YATT предлагает новую архитектуру, основанную на parallel controller programming model, которая упрощает работу с множеством моделей и оптимизирует процессы RLHF. Фреймворк также включает в себя dynamic placement schema, который адаптивно распределяет вычислительные ресурсы в зависимости от динамических условий обучения. Это позволяет минимизировать время простоя и повысить GPU-утилизацию. Метод предлагает эффективное управление рабочими нагрузками в трех сценариях: статических, динамических и мультимодальных. Он также использует adaptive sampling, который позволяет увеличить эффективность тренировочных процессов. Эта методология готова для масштабирования до больших моделей и интенсивных задач RLHF. ## Результаты Мы провели эксперименты для оценки производительности WeChat-YATT в отношении существующих фреймворков RLHF. Для этого использовались различные модели и данные с большим размером. Результаты показали, что WeChat-YATT совершенно опережает современные аналоги по составным показателям: throughput, GPU-утилизации и стабильности работы. Также были проведены сценарии, в которых WeChat-YATT продемонстрировал улучшения в скорости обучения и эффективности вычислений при масштабировании моделей. Эти результаты указывают на успешное решение проблем масштабируемости и динамического распределения ресурсов. ## Значимость WeChat-YATT может применяться в различных сценариях, включая обучение и мультимодальные системы для большого количества пользователей. Он позволяет улучшить производительность и экономить ресурсы, чтобы обучение было более эффективным и быстрым. Особенно важно, что WeChat-YATT успешно применяется для обучения моделей в рамках WeChat, что подтверждает его значимость в реальном мире. Фреймворк может стать новой стандартной платформой для RLHF с улучшенной масштабируемостью и стабильностью. ## Выводы WeChat-YATT представляет собо

Annotation:

Reinforcement Learning from Human Feedback (RLHF) has emerged as a prominent paradigm for training large language models and multimodal systems. Despite notable advances enabled by existing RLHF training frameworks, significant challenges remain in scaling to complex multimodal workflows and adapting to dynamic workloads. In particular, current systems often encounter limitations related to controller scalability when managing large models, as well as inefficiencies in orchestrating intricate RL...

ID: 2508.07970v2 cs.LG, cs.AI

arXiv PDF

📄 On Understanding of the Dynamics of Model Capacity in Continual Learning

2025-08-15

Авторы:

Supriyo Chakraborty, Krishnan Raghavan

## Контекст Основной фокус данной работы построен на изучении динамики модели в целях понимания моделирования в пределах тематики продолжительного обучения (continual learning, CL). Нейронные сети (NN), как основные средства машинного обучения, сталкиваются с проблемой "стабильность-пластичность" (stability-plasticity dilemma), которая отражает противоречия в их характере: способность учиться новым задачам (пластичность) и сохранять прошлые знания (стабильность). Взаимодействие этих противоречий играет ключевую роль в CL, где необходимо обеспечить эффективное обучение на постоянно меняющихся данных. Настоящая работа стремится раскрыть изменчивый характер моделирования, определяя его как "эффективную модельную мощность" (effective model capacity, CLEMC). ## Метод Ключевая инновация данной работы заключается в применении развитого математического подхода для описания характера взаимодействия нейронной сети с задачей и оптимизационным процедурой. Была разработана дифференциальная уравнение, описывающее динамику этого процесса. Это уравнение позволяет моделировать уровень устойчивости и пластичности в зависимости от данных задач, архитектуры сети и оптимизационных методов. Для исследований использовались различные модели, включая небольшие полносвязные сети, сверточные сети, сети графов и трансформеры, реализованные на масштабных данных. Это позволило проверить гипотезы на разнообразных уровнях сложности. ## Результаты Исследования показали, что эффективная модельная мощность не является стационарной и изменяется в зависимости от характера подаваемых данных и архитектур модели. Особенно выраженно это проявляется при перекрывающихся или сильно различающихся распределениях задач. Эксперименты подтвердили, что даже существенно разные архитектуры моделей сталкиваются с ограничениями в представлении новых задач, когда распределение задач не совпадает с прошлыми. Эти находки подкрепляются анализом теоретических моделей и результатов экспериментов, показывающих, насколько сильно CL зависит от характера входных данных и структуры модели. ## Значимость Результаты данной работы имеют большое значение для широкого круга задач, включая организационные системы, которым необходимо адаптироваться к постоянно меняющейся среде, и системы управления роботами, которым требуется учиться вне лабораторных условий. Особенно полезны результаты для развития технологий CL в области глубокого обучения, где необходимо учитывать динамику изменения задач и данных. Преимущества CLEMC заключаются в том, что она предоставляет новый подход к измерению и динамике характера обучения, что может способствовать развитию более эффекти

Annotation:

The stability-plasticity dilemma, closely related to a neural network's (NN) capacity-its ability to represent tasks-is a fundamental challenge in continual learning (CL). Within this context, we introduce CL's effective model capacity (CLEMC) that characterizes the dynamic behavior of the stability-plasticity balance point. We develop a difference equation to model the evolution of the interplay between the NN, task data, and optimization procedure. We then leverage CLEMC to demonstrate that th...

ID: 2508.08052v2 cs.LG, cs.AI

arXiv PDF

📄 Hierarchical Adaptive networks with Task vectors for Test-Time Adaptation

2025-08-15

Авторы:

Sameer Ambekar, Daniel M. Lang, Julia A. Schnabel

## Контекст Проблема тест-тайм адаптации заключается в том, что наиболее распространенные методы недостаточно эффективны при работе с разнообразными и сложными переходами доменов. Они оперируют одномерными линейными слоями, которые не могут полностью учесть все сложности в тест-тайм адаптации. Недостаточность этих методов влечет за собой ухудшение производительности моделей в нестандартных условиях. Мы предлагаем новую архитектуру, **Hierarchical Adaptive Networks with Task Vectors (Hi-Vec)**, которая использует несколько слоев различных размеров для динамической тест-тайм адаптации. Эта архитектура позволяет декомпозировать пространство представлений как в размерность, так и в сложность, чтобы повысить способность модели адаптироваться к разнообразным сценариям. Мы стремимся решить проблему недостаточности текущих методов по адаптации к изменениям доменов, обеспечивая гибкость и надежность в подборе слоев для адаптации при тесте. ## Метод **Hi-Vec** предлагает новую структуру, которая включает в себя несколько слоев, организованных в иерархический порядок, для более тонкой адаптации во время теста. Эти слои работают в динамическом режиме, при этом выбирается оптимальный слой для каждой конкретной батч-батче. Метод также использует **механизм динамического объединения весов**, который позволяет объединить веса из выбранного слоя с другими слоями, чтобы обеспечить постоянную синхронизацию целевой информации. Для того, чтобы избежать неточностей в адаптации, мы вводим **гейтинговую функцию**, которая определяет, насколько батч является шумным. Это позволяет избежать нежелательного применения адаптации на некорректных данных. Таким образом, Hi-Vec предлагает сложную, но эффективную методологию, которая динамически реагирует на разнообразие тестовых данных. ## Результаты Мы провели эксперименты, используя разнообразные данные, включая сценарии с высокой степенью перехода доменов и сложных шумовых условий. Модель Hi-Vec показала значительное повышение точности и улучшение способности адаптироваться к изменениям доменов в сравнении с базовыми методами. Мы протестировали Hi-Vec на нескольких целевых датасетов и показали, что она обеспечивает улучшение в метриках производительности, редкости и восприятия шума. Наши результаты доказали, что Hi-Vec может обрабатывать высокую степень изменения доменов, обеспечивая лучший результат в сегментации, классификации и других задачах, где требуется жесткая адаптация к изменениям в данных. ## Значимость Мы видим применение Hi-Vec во многих областях, где необходима гибкая адаптация моделей во время теста, например, в медицине, г

Annotation:

Test-time adaptation allows pretrained models to adjust to incoming data streams, addressing distribution shifts between source and target domains. However, standard methods rely on single-dimensional linear classification layers, which often fail to handle diverse and complex shifts. We propose Hierarchical Adaptive Networks with Task Vectors (Hi-Vec), which leverages multiple layers of increasing size for dynamic test-time adaptation. By decomposing the encoder's representation space into such...

ID: 2508.09223v1 cs.LG, cs.AI

arXiv PDF

📄 M3-Net: A Cost-Effective Graph-Free MLP-Based Model for Traffic Prediction

2025-08-15

Авторы:

Guangyin Jin, Sicong Lai, Xiaoshuai Hao, Mingtao Zhang, Jinlei Zhang

#### Контекст Трафическое предсказание является ключевым аспектом развития интеллектуальных систем транспорта. Оно позволяет оптимизировать движение транспорта, сокращать пробои и повысить безопасность дорожного движения. Однако, существующие методы, основанные на графах или вершинных аттестациях, часто требуют значительных вычислительных ресурсов и сложного дизайна моделей для точного предсказания. Даже с появлением графовых моделей, таких как Spatio-temporal Graph Neural Networks (STGNNs), эффективность использования ресурсов и затраты на моделирование до сих пор остаются значительными проблемами. Наша модель M3-Net (Multilayer Perceptron-based Model for Traffic Prediction) предлагает решение этих проблем, предлагая более эффективный подход к предсказанию трафика. #### Метод М3-Net опирается на новую MLP-Mixer архитектуру с механизмом mixture of experts (MoE), которая включает в себя линейные слои и моделирование взаимодействия между различными сегментами сигнала. Модель обрабатывает временную серию и данные спато-термиовых зависимостей с использованием эмбеддингов, что позволяет эффективно обрабатывать признаки. М3-Net также использует нелинейности для построения модели, которая может работать на больших данных без необходимости графической структуры. Для эффективного обучения и предсказания, мы используем адаптивный метод варьиационного понижения размерности (Variational Dimensionality Reduction, VDR), который позволяет значительно сократить затраты ресурсов. #### Результаты Мы провели эксперименты на нескольких реальных датасетах, включая METR-LA и PEMS-BAY. Модель M3-Net показала существенное превосходство по сравнению с другими методами, такими как ST-GCN и ASTGNN, как в точности предсказания, так и в скорости вычислений. Модель достигла точности в прогнозировании трафика (MAPE), примерно в 2-3% лучше, чем аналоги. Это улучшение признаком нового подхода к обработке временных рядов и спато-термиовых зависимостей. Модель показала свою эффективность в ситуациях с низкими ресурсами, таких как устройства с ограниченным объемом памяти и вычислительной мощности. #### Значимость М3-Net может быть применена в различных областях, таких как управление трафиком, системы навигации, организация дорожного движения. Она предоставляет более эффективный и недорогой способ получения точных прогнозов трафика, чтобы повысить безопасность и эффективность транспортных систем. Эта модель также имеет значительный потенциал для уменьшения затрат на ресурсы, которые требуются для моделирования и прогнозирования. Из-за своей легковесной архитектуры, модель может быть использована в реальном врем

Annotation:

Achieving accurate traffic prediction is a fundamental but crucial task in the development of current intelligent transportation systems.Most of the mainstream methods that have made breakthroughs in traffic prediction rely on spatio-temporal graph neural networks, spatio-temporal attention mechanisms, etc. The main challenges of the existing deep learning approaches are that they either depend on a complete traffic network structure or require intricate model designs to capture complex spatio-t...

ID: 2508.08543v2 cs.LG, cs.AI

arXiv PDF

📄 GSMT: Graph Fusion and Spatiotemporal TaskCorrection for Multi-Bus Trajectory Prediction

2025-08-15

Авторы:

Fan Ding, Hwa Hui Tew, Junn Yong Loo, Susilawati, LiTong Liu, Fang Yu Leong, Xuewen Luo, Kar Keong Chin, Jia Jun Gan

## Контекст Городской транспорт, особенно автобусные линии, является ключевым компонентом урбанизированных транспортных систем. Однако точность прогноза маршрутов автобусов остается вызовом, особенно в районах с ограниченным доступом к многомодальным данным. Оставшийся вариант — использование данных GPS, но они имеют свои ограничения в точности и надежности. Наша мотивация заключается в разработке модели, которая использует доступные данные GPS и дополняет их с помощью расширенных методов машинного обучения для корректного прогнозирования маршрутов. ## Метод Мы предлагаем GSMT (Graph Fusion and Spatiotemporal Task Correction), комбинацию Graph Attention Network (GAT) и Sequence-to-Sequence Recurrent Neural Network (RNN). GAT извлекает специфические локальные зависимости данных, а RNN обрабатывает последовательности данных GPS. Более того, GSMT включает в себя Task Corrector, который выполняет детальный анализ и сортировку исторических данных путей, чтобы выявить различные модели движения и улучшить прогнозы. Этот двухэтапный подход позволяет объединять динамические и статические данные, улучшая точность и универсальность прогнозов маршрутов. ## Результаты Мы проверили GSMT на реальных данных города Куала-Лумпур. Модель была тестирована в условиях сложной тактической среды, где были проведены сравнения с другими популярными моделями. Результаты показали, что GSMT не только превосходит конкуренты в краткосрочном и долгосрочном прогнозировании маршрутов, но и достигает высокой точности в условиях проведения экспериментов, демонстрируя выигрыш в качестве прогнозов на несколько процентов. ## Значимость Наша модель может быть применима в различных ситуациях, где необходимо точно прогнозировать траектории движения, например, для управления транспортом, мониторинга дорожного движения и планирования маршрутов. Основные преимущества GSMT заключаются в ее универсальности, модифицируемости и высокой производительности в сложных транспортных средах. Это может привести к улучшению управления транспортом и к более эффективной планировке городских маршрутов. ## Выводы GSMT доказала свою эффективность в таске прогнозирования маршрутов автобусов в тяжелых городских условиях. Мы планируем расширить модель, внедрив более сложные механизмы обучения и выполнив эксперименты на более широком множестве данных, чтобы продемонстрировать его универсальность и надежность в разных областях.

Annotation:

Accurate trajectory prediction for buses is crucial in intelligent transportation systems, particularly within urban environments. In developing regions where access to multimodal data is limited, relying solely on onboard GPS data remains indispensable despite inherent challenges. To address this problem, we propose GSMT, a hybrid model that integrates a Graph Attention Network (GAT) with a sequence-to-sequence Recurrent Neural Network (RNN), and incorporates a task corrector capable of extract...

ID: 2508.09227v1 cs.LG, cs.AI, cs.CE

arXiv PDF

📄 Detection of Odor Presence via Deep Neural Networks

2025-08-15

Авторы:

Matin Hassanloo, Ali Zareh, Mehmet Kemal Özdemir

## Контекст Обнаружение запахов (одеров) широко используется в таких областях, как мониторинг пищевой безопасности, окружающая среда, медицинская диагностика и др. Однако существующие искусственные датчики часто сталкиваются с проблемами при распознавании сложных запаховых смешанок. Более того, методы, основанные на неинвазивном записи, часто не могут обеспечить надежные результаты на уровне каждого отдельного эксперимента. Целью данной работы является разработка общей системы для обнаружения запахов, которая будет оперировать новыми техническими решениями. ## Метод Для достижения поставленных целей в работе предлагается использовать энсамбл (комплекс) из двух одномерных конволюционных нейронных сетей: ResCNN и AttentionCNN. Эти сети будут обрабатывать данные в виде локальных полевых потенциалов (LFPs), поступающих из венды нюхательного отделения. Особенностью данного подхода является то, что он не только проверяет возможность распознавания запахов на основе локальных полевых потенциалов, но и доказывает, что достаточно использовать данные только от одного датчика — венды нюхательного отделения — для этой цели. Эксперименты проводятся на основе данных от 7го мыша, с 2349 записанными ответом на запах. ## Результаты Эксперименты показали, что предлагаемая модель достигает важной точности в распознавании запахов — 86.6%, с F1-мерной метрикой 81.0% и AUC-метрикой 0.9247. Такие результаты существенно превосходят предыдущие решения, подтверждая возможность обнаружения запахов на основе LFPs в реальном времени. Также в рамках работы был проведен анализ, показавший, что модель корректно выделяет биологически значимые характеристики запаха. ## Значимость Результаты данного исследования открывают новый путь для разработки более точных систем обнаружения запахов, которые могут быть применены в медицине, сельскохозяйственной промышленности, окружающей среде и др. Также данный подход может помочь в понимании биологических процессов, связанных с нюхательным отделением. Так, например, возможность распознавания запахов на основе LFPs может стать основой для новых инновационных технологий в области здоровья и сельского хозяйства. ## Выводы Исследование подтвердило возможность обнаружения запахов на основе LFPs в реальном времени с высокой точностью. Это подтверждает мощность глубоких нейронных сетей в обработке сложных сигналов. Будущие исследования будут сфокусированы на расширении функционала модели, улучшении точности распознавания и изучении биологических принципов, подкрепляющих данный подход.

Annotation:

Odor detection underpins food safety, environmental monitoring, medical diagnostics, and many more fields. The current artificial sensors developed for odor detection struggle with complex mixtures while non-invasive recordings lack reliable single-trial fidelity. To develop a general system for odor detection, in this study we present a preliminary work where we aim to test two hypotheses: (i) that spectral features of local field potentials (LFPs) are sufficient for robust single-trial odor de...

ID: 2508.09264v1 cs.LG, cs.AI

arXiv PDF

1
2
266
267
268
269
270
290
291

Показано 2671 - 2680 из 2901 записей