📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Junjing Zheng, Chengliang Song, Weidong Jiang, Xinyu Zhang
## Контекст
В современных приложениях, таких как компьютерное зрение, естественноязыковые обработка и медицинская информатика, часто приходится работать с высокомерными данными, представленными в виде высокоранговых тензоров. Этот вид данных обладает огромным потенциалом, но его анализ сталкивается с несколькими проблемами. Обычные методы, такие как традиционные MLP-based autoencoders (AE), сталкиваются с проблемой того, что тензоры должны быть операцией разворачивания (flattening), что приводит к огромному росту модели, высокому расходу вычислительных ресурсов и сложности оптимизации при попытках глубокого углубления для учета структуры данных. Тензорные сети, такие как CP и Tucker, уменьшают вычислительные затраты, но часто ограничиваются в способности учитывать нелинейные зависимости в данных. Мотивацией для предложенного подхода является необходимость развития компактных, эффективных и гибких моделей, которые могут эффективно учитывать структуру высокомерных данных.
## Метод
Мы предлагаем Mode-Aware Non-Linear Tucker Autoencoder (MA-NTAE), который является универсальным решением для обработки высокомерных данных. Основной идеей является расширение классической Tucker-декомпозиции до нелинейной формы, используя Pick-and-Unfold strategy. Этот подход позволяет выполнять рекурсивный процесс разворачивания (unfold), кодирования (encode) и склеивания (fold) каждого режима (mode) тензора отдельно. Эта гибкость позволяет лучше учитывать структуру данных в режимах, а не просто разворачивать весь тензор в единое плоское представление. Модель также включает нелинейные функции, что дает возможность учитывать сложные нелинейные зависимости в данных. Благодаря этому, MA-NTAE применяет структурные признаки тензора непосредственно в модели, что приводит к лучшему усвоению данных. Мы также доказали, что комплексность модели растет линейно с рангом тензора и пропорционально к размеру мод, что делает ее эффективной для высокомерных данных.
## Результаты
Мы провели эксперименты на нескольких датасетах, включая тензорные данные из областей компьютерного зрения и естественного языка. Мы сравнили MA-NTAE с стандартными AE и другими тензорными сетями, такими как CP и Tucker. Модель MA-NTAE показала значительные выигрыши в задачах сжатия и кластеризации, особенно в случае высокоранговых тензоров. Например, в задаче кластеризации, MA-NTAE показала более высокую точность в сравнении с конкурирующими моделями, особенно для тензоров с большим количеством режимов. Также, мы провели эксперименты с разными размерами тензоров, и показали, что MA-NTAE имеет линейный рост вычислительной сложности по сравнении с квадратичным ростом у других моделей. Это делает MA-NTAE
Annotation:
High-dimensional data, particularly in the form of high-order tensors,
presents a major challenge in self-supervised learning. While MLP-based
autoencoders (AE) are commonly employed, their dependence on flattening
operations exacerbates the curse of dimensionality, leading to excessively
large model sizes, high computational overhead, and challenging optimization
for deep structural feature capture. Although existing tensor networks
alleviate computational burdens through tensor decomposition t...
Авторы:
Rui Liu, Haolin Zuo, Zheng Lian, Hongyu Yuan, Qi Fan
## Контекст
Многомодальная распознавание эмоций (MER) является важной задачей в области обработки естественного языка, которая стремится понять человеческие эмоции, используя различные модальности, такие как текст, звук и изображения. Однако, несмотря на прогрессы в этой области, проблемы, связанные с отсутствием модальностей (missing modalities), остаются неразрешенными. Отсутствие модальностей может возникнуть из-за сбоев сенсоров, повреждений данных или просто отсутствия некоторых модальностей во время обучения или тестирования. Традиционные подходы к решению этой проблемы, такие как реконструкция отсутствующих модальностей, часто ограничиваются эффективностью, так как они не учитывают различия в сложности реконструкции между разными примерами. Это, в свою очередь, приводит к снижению производительности моделей, особенно при работе с трудными примерами. Для решения этой проблемы мы предлагаем новый подход, который адаптивно учитывает сложность реконструкции для каждого примера и стратегически фокусируется на их обучении.
## Метод
Наше решение, Hardness-Aware Dynamic Curriculum Learning (HARDY-MER), оперирует в двух основных этапах. В первом этапе мы используем механизм Multi-view Hardness Evaluation, который оценивает сложность реконструкции для каждого примера. Это основывается на двух компонентах: Direct Hardness (ошибки реконструкции модальностей) и Indirect Hardness (кросс-модальные меры информации). Во втором этапе мы применяем Retrieval-based Dynamic Curriculum Learning, который адаптивно изменяет порядок обучения. Мы выбираем примеры с похожим семантическим содержанием и равномерно распределяем фокус обучения между легкими и трудными примерами. Этот подход развивается в целях улучшения модели на трудных случаях, снижая ее чувствительность к неоднородности данных.
## Результаты
Мы проводили эксперименты на нескольких бенчмарк-датасетах, сравнивая HARDY-MER с тремя состоящими методами. Наши результаты показали, что HARDY-MER значительно превосходит существующие подходы в сценариях отсутствия модальностей. В частности, он демонстрирует лучшую точность распознавания эмоций, снижает ошибки реконструкции и улучшает общую стабильность модели в сложных условиях. Эти результаты подтверждают эффективность нашего подхода в обработке отсутствующих модальностей и улучшении общей производительности MER-систем.
## Значимость
Предлагаемый подход представляет собой значительный вклад в область MER, в частности, в адаптивное обучение при отсутствии модальностей. Он может быть применен не только в MER, но и в других задачах, где отсутствуют некоторые данные (например, в задачах классификации изображений с отсутствующими признаками). Одним из преим
Annotation:
Missing modalities have recently emerged as a critical research direction in
multimodal emotion recognition (MER). Conventional approaches typically address
this issue through missing modality reconstruction. However, these methods fail
to account for variations in reconstruction difficulty across different
samples, consequently limiting the model's ability to handle hard samples
effectively. To overcome this limitation, we propose a novel Hardness-Aware
Dynamic Curriculum Learning framework, te...
Авторы:
Xiao Huang, Xu Liu, Enze Zhang, Tong Yu, Shuai Li
#### Контекст
Оффлайн-то-онлайн Reinforcement Learning (O2O RL) — это область исследований, нацеленная на сокращение затрат на онлайн-финетюнинг политик, предварительно обученных оффлайн. Данная тема имеет решающее значение, так как онлайн-интерфейсы часто обладают ограниченной модификацией, что приводит к высоким затратам на экспериментацию. Однако, существующие подходы столкнулись с проблемой несовпадения данных, генерируемых оффлайн-демонстрациями, и реальными данными онлайн-интерфейса. Это ограничивает качество адаптации политик. Данная работа предлагает решение этой проблемы, сосредоточившись на улучшении эффективности и точности оффлайн-то-онлайн RL.
#### Метод
Методология, предложенная в данной работе, основывается на использовании **Classifier-Free Diffusion Generation (CFDG)** — метода, который оптимизирует данные для генерации, не требуя дополнительного обучения классификаторов. CFDG применяет **diffusion model** для генерации данных, которые более точно соответствуют онлайн-дистрибуции. Данный подход также включает в себя метод реигрессирования, позволяющий генерировать более адекватные данные, которые более эффективно подходят для онлайн-режима.
#### Результаты
Исследования проводились на б BENCHMARK D4RL, включающем такие задачи, как MuJoCo и AntMaze. Результаты показали, что CFDG улучшил производительность на 15% в среднем по сравнению с другими методами, включая перекрестное переиспользование двух видов данных и стандартные методы диффузии. Эксперименты также продемонстрировали, что CFDG позволяет совершенствовать качество политик, сохраняя их устойчивость в различных сценариях.
#### Значимость
Предложенный подход может быть применен в различных областях, от игр до робототехники, где требуется эффективное применение оффлайн-демонстраций для онлайн-адаптации. CFDG отличается гибкостью и может быть интегрирован с любыми существующими O2O RL-алгоритмами. Это делает его привлекательным для практического применения в реальных системах, где высокая точность и стабильность ключевые факторы.
#### Выводы
В ходе работы был разработан и проверен CFDG, показав его преимущество над традиционными методами генерации данных для O2O RL. Результаты позволяют выделить CFDG как перспективный подход для улучшения эффективности и качества онлайн-адаптации политик. Будущие исследования будут сфокусированы на расширении этого подхода для более широкого класса задач и систем.
Annotation:
Offline-to-online Reinforcement Learning (O2O RL) aims to perform online
fine-tuning on an offline pre-trained policy to minimize costly online
interactions. Existing work used offline datasets to generate data that conform
to the online data distribution for data augmentation. However, generated data
still exhibits a gap with the online data, limiting overall performance. To
address this, we propose a new data augmentation approach, Classifier-Free
Diffusion Generation (CFDG). Without introduci...
Авторы:
Ishwar Balappanawar, Venkata Hasith Vattikuti, Greta Kintzley, Ronan Azimi-Mancel, Satvik Golechha
## Контекст
Область исследования сосредоточена на обнаружении нежелательного поведения в нейронных сетях, в частности в контексте моделей глубокого обучения. Несмотря на их потрясающие возможности, нейронные сети часто являются непрозрачными и могут внедрять нежелательное поведение, которое не очевидно и может быть использовано атакующими. Эта проблема не только становится важной с точки зрения безопасности, но и влияет на доверие к алгоритмам, используемым в критически важных областях, таких как здравоохранение, финансы и автоматизированные системы принятия решений. Существующие методы обнаружения нежелательного поведения часто имеют ограниченную эффективность, особенно при недостаточной информации о нежелательном поведении. В этой статье предлагается альтернативный подход, основанный на игре между двумя командами: красная команда настраивает модели с и без нежелательного поведения, тогда как синюха команда пытается обнаружить подозрительную модель с ограниченной информацией. Этот подход может обеспечить более точные результаты в сравнении с традиционными методами.
## Метод
Предлагаемая методология основывается на использовании игры между красной и синюхой командами. Красная команда обучает две почти идентичные модели: одну на основе безопасных данных, а другую с внедренным нежелательным поведением. Обе модели должны оказаться почти неразличимыми на безопасном датасете. Задача синюхой команды — определить модель с нежелательным поведением, используя различные методы аудита. Набор этих методов включает гауссовский шум, модельные различия, интегрированные производные, а также атаки с адверсарным вводом. Эти методы были изучены для моделей типа CNN, а затем протестированы с разным уровнем признаков, предоставленных красной командой. Для повышения гибкости исследования, методы были также применены к моделям типа LLM, где применялись стандартные методы ввода запросов или ввода с указанием нежелательного распределения.
## Результаты
Эксперименты показали, что атаки с адверсарным вводом демонстрируют высокую точность в определении модели с нежелательным поведением при достаточном уровне подсказок (100% правильных прогнозов). Другие методы, такие как гауссовский шум и модельные различия, показали менее впечатляющие результаты, но все равно оказались полезными в определенных сценариях. Для моделей типа LLM, результаты были более смешанными, но приемлемыми, особенно когда были предоставлены указания о нежелательном распределении. На основе этих результатов, авторы подчеркивают, что адверсарные методы могут являться кл
Annotation:
Detecting hidden behaviors in neural networks poses a significant challenge
due to minimal prior knowledge and potential adversarial obfuscation. We
explore this problem by framing detection as an adversarial game between two
teams: the red team trains two similar models, one trained solely on benign
data and the other trained on data containing hidden harmful behavior, with the
performance of both being nearly indistinguishable on the benign dataset. The
blue team, with limited to no informatio...
Авторы:
Aleksandar Todorov, Juan Cardenas-Cartagena, Rafael F. Cunha, Marco Zullich, Matthia Sabatelli
#### Контекст
В глубоком reinforcement learning (RL) существует критическая проблема, называемая plasticity loss, которая проявляется в уменьшении возможности адаптации в процессе обучения. Это становится особенно актуальным в multi-task reinforcement learning (MTRL), где агенты должны уметь управлять различными и, возможно, конфликтующими задачами. Обычно, для улучшения plasticity используются специальные методы, но они часто приводят к неэффективности или увеличению сложности моделей. Мы изучаем, насколько могут быть эффективны спарсинговые методы, такие как Gradual Magnitude Pruning (GMP) и Sparse Evolutionary Training (SET), для повышения plasticity в MTRL, что, в свою очередь, может повысить общую эффективность.
#### Метод
Мы используем спарсинговые методы GMP и SET для оценки их влияния на plasticity в MTRL. Оба метода основываются на уменьшении весов сети в течение обучения, но GMP делает это постепенно, а SET — с использованием специальной структуры регуляризации. Мы проводим эксперименты с различными архитектурами MTRL: одним общим скелетным слоем, Mixture of Experts (MoE) и Mixture of Orthogonal Experts (MoOE). Для сравнения мы используем dense baselines и другие методы, например, regularization и explicit plasticity. Наши эксперименты проводятся на стандартных MTRL бенчмарках.
#### Результаты
Наши результаты показывают, что GMP и SET способны существенно снизить негативные показатели plasticity, такие как neuron dormancy и representational collapse. Эти улучшения часто приводят к повышению производительности в MTRL. В частности, sparse agents показывают лучшие результаты по сравнению с dense baselines и, в некоторых случаях, даже с превосходят специально разработанные методы для повышения plasticity. Эти результаты продемонстрированы на разных архитектурах и бенчмарках.
#### Значимость
Наша работа показывает, что sparsity-driven approaches могут быть эффективными для улучшения plasticity в MTRL. Они могут быть использованы в различных приложениях, где необходима высокая адаптивность агента, например, в robotics, game AI, и других областях, где задачи меняются динамически. Этот подход предоставляет преимущества в своей простоте и эффективности по сравнению с более сложными методами. Мы также отмечаем, что динамическая спарсинг может быть контекстно-зависима, что требует дополнительных исследований.
#### Выводы
Мы доказали, что GMP и SET эффективно улучшают plasticity в MTRL, приводя к повышению производительности и снижению негативных показателей, таких как dormancy и representational collapse. Эти результаты открывают новые пути для исследований в области sparsity и plasticity в deep RL. Будущие исследования будут ориентированы на дальнейшее изучение контекстной спарсинговой стратегии и ее применения в различных задачах MTRL.
Annotation:
Plasticity loss, a diminishing capacity to adapt as training progresses, is a
critical challenge in deep reinforcement learning. We examine this issue in
multi-task reinforcement learning (MTRL), where higher representational
flexibility is crucial for managing diverse and potentially conflicting task
demands. We systematically explore how sparsification methods, particularly
Gradual Magnitude Pruning (GMP) and Sparse Evolutionary Training (SET), enhance
plasticity and consequently improve perfo...
Авторы:
Lishi Zuo, Man-Wai Mak, Lu Yi, Youzhi Tu
## Контекст
Медицинская диагностика является ключевым компонентом системы здравоохранения, позволяющей определить заболевания и принять соответствующие меры. Однако существуют значительные проблемы, связанные с биасами в данных и алгоритмах. Биасы могут приводить к недооценке или переоценке определенных классов, что приводит к неточным диагнозам и неэффективному применению ресурсов. Одним из важных видов биаса является **class-feature bias**, когда модель ориентируется на функции, которые сильно коррелируют только с некоторыми классами, что приводит к непослужительной производительности и плохой общей применимости на других классах. Данная работа адресует эту проблему, стремясь разработать метод, который уменьшит степень биаса и улучшит общее качество диагностики.
## Метод
Метод, предложенный в работе, называется **Cls-unbias**, который призван обучать модели, учитывающие все классы равномерно, минимизируя при этом влияние класс-фичевого биаса. Метод основывается на двух основных компонентах:
1. **Class-wise Inequality Loss**: Этот лосс призван выравнивать вклады отдельных классов в обучение модели. Он поощряет равномерное влияние каждого класса на обучение, компенсируя влияние класс-фичевого биаса.
2. **Class-wise Group Distributionally Robust Optimization (C-wGDRO)**: Это оптимизационная техника, которая увеличивает веса менее эффективных классов в процессе тренировки. Это позволяет улучшить общую обнаружительность, даже при несбалансированных классах.
Технически, алгоритм использует класс-веса для управления потерями и вкладом каждого класса в обучение. Эта архитектура позволяет модели ориентироваться на все классы равномерно, уменьшая влияние класс-фичевого биаса.
## Результаты
Эксперименты проводились на двух типах данных: синтетических и реальных медицинских данных. В синтетических данных был симулирован класс-фичевой биас, а в реальных данных использовались реальные медицинские данные. Результаты показывают, что:
- Модель Cls-unbias существенно улучшает доброту диагностики по сравнению с базовыми моделями.
- Метод эффективно уменьшает влияние класс-фичевого биаса, улучшая производительность для менее представительных классов.
- Он также улучшает общую обнаружительность, даже в условиях несбалансированности классов.
Эти результаты иллюстрируют, что Cls-unbias эффективно компенсирует класс-фичевый биас и улучшает общую обнаружительность моделей в медицинской диагностике.
## Значимость
Разработанный метод имеет широкое применение в следующих областях:
1. **Медицинская д
Annotation:
Medical diagnosis might fail due to bias. In this work, we identified
class-feature bias, which refers to models' potential reliance on features that
are strongly correlated with only a subset of classes, leading to biased
performance and poor generalization on other classes. We aim to train a
class-unbiased model (Cls-unbias) that mitigates both class imbalance and
class-feature bias simultaneously. Specifically, we propose a class-wise
inequality loss which promotes equal contributions of clas...
📄 AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance
2025-08-13Авторы:
Lixuan He, Jie Feng, Yong Li
## Контекст
В последние годы Large Language Models (LLMs) стали неотъемлемой частью различных интеллектуальных задач, таких как математическое моделирование, визуальное рассуждение и взаимодействие с визуальными средами. Однако достижение высокого уровня производительности в этих областях часто требует сложной подготовки моделей, включающей в себя и супервизированную оптимизацию (SFT), и реинфорсмент (RL). Несмотря на выгоды от удовлетворения параллельных потребностей моделей, существуют затруднения в достижении гармоничного баланса, что приводит к таким проблемам, как катастрофическое забывание, неоптимальный баланс между имитацией и экспериментом, а также сложности в выборе правильной стратегии для конкретных задач. Эти трудности приводят к увеличению времени обучения и снижению стабильности результатов. В этой работе мы применяем теоретическое осмысление гибкого имплицитного механизма регулирования взаимодействия SFT и RL для лучшего достижения баланса.
## Метод
Мы предлагаем новую модель **Adaptive Meta Fine-Tuning (AMFT)**, которая представляет собой уникальную методологию для улучшения баланса между SFT и RL. Центральная идея заключается в том, чтобы трактовать SFT и RL не как независимые технологии, а как взаимосвязанные регуляторы, зависящие от задачи. AMFT вводит **мета-градиентный адаптивный контроллер**, который анализирует и динамически создает веса для SFT и RL, максимизируя не только производительность, но и стабильность. Особенностью метода является ввод **политии энтропии** для повышения стабильности тренировочного процесса, что позволяет модели автоматически выбирать наиболее подходящую стратегию в зависимости от специфических входных данных. Данная архитектура гарантирует оптимальный режим тренировки и сохраняет достаточную гибкость для решения OOD-задач.
## Результаты
Мы проводим эксперименты на трех основных типах задач: математическом рассуждении, визуальном рассуждении (в том числе General Points) и взаимодействии с визуальными средами (V-IRL). В результате, AMFT демонстрирует значительные улучшения по сравнению с другими существующими методами. Мы исследуем эффективность мета-контроллера и производительность модели в многостадийных ситуациях. Эксперименты показывают, что AMFT не только повышает общую производительность, но и демонстрирует более стабильные результаты в нестандартных ситуациях. Анализ динамики обучения подтверждает, что мета-контроллер не только улучшает скорость обучения, но и помогает модели избегать потерь связанных с катастрофическим забыванием.
## Значимость
AMFT демонстрирует потенциал для использования в широком
Annotation:
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks
through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by
Reinforcement Learning (RL), a process fraught with catastrophic forgetting and
suboptimal trade-offs between imitation and exploration. Recent single-stage
methods attempt to unify SFT and RL using heuristics, but lack a principled
mechanism for dynamically balancing the two paradigms. In this paper, we
reframe this challenge through the theoretical ...
Авторы:
Hiba Najjar, Bushra Alshbib, Andreas Dengel
## Контекст
Область применения геоинформационных технологий, в том числе спутниковой разведки, стремительно развивается, благодаря появлению богатого спектра типов данных, от сегментации и классификации до регрессии. Однако, несмотря на высокую точность современных многомодальных моделей, их транспарентность и интерпретируемость остаются серьезными проблемами. Эти проблемы вносят значительные трудности в проверку моделей и их применение в решении реальных задач. Многозадачное обучение (multitask learning) предлагается как потенциальное решение, позволяя моделям не только выполнять целевую задачу, но также проводить дополнительные задачи, обеспечивая естественный механизм объяснения своего поведения.
## Метод
Методология основывается на использовании дополнительных модалей не только как исходных входов, но и как дополнительных целей для одновременного обучения модели. Например, при многомодальном классификационном задании может быть добавлена задача регрессии, оценивающая определенный аспект данных. Такая модель не только разделяет классы, но и делает прогнозы на основе вторичной модальности, точностью которой можно оценивать производительность. Архитектура заключается в модификации обычных моделей, добавив дополнительные выходы, которые отвечают за подзадачи, чтобы повысить интерпретируемость.
## Результаты
Эксперименты проводились на трех различных датасетах: для сегментации, классификации и регрессии. Многозадачная модель показала сходные или лучшие результаты по сравнению с базовыми многомодальными моделями, не требуя дополнительных входных данных для работы. Более того, ошибки в основной задаче (например, классификации) объяснялись с помощью задач-подмасштабов, что улучшило понимание модели. Например, в сегментации, модель выполняла классическую задачу, при этом проводила прогнозы о размере объектов, способствуя пониманию результатов.
## Значимость
Результаты имеют значительное значение для развития интерпретируемых моделей в задачах, требующих особый акцент на точности и полноте. Многозадачное обучение позволяет не только повысить производительность, но и обеспечивать наглядные объяснения, что важно для принятия решений в сферах, таких как средства сохранения окружающей среды, геодезия и мониторинг патологий на карты. Этот подход также снижает зависимость от дополнительных данных для моделирования, что экономично и удобно в реальных условиях.
## Выводы
Данная работа демонстрирует, что многозадачное обучение может значительно повысить интерпретируемость моделей, оставив производительность на базовом уровне. Будущие исследования будут уделять внимание расширению этого подхода на б
Annotation:
Remote sensing provides satellite data in diverse types and formats. The
usage of multimodal learning networks exploits this diversity to improve model
performance, except that the complexity of such networks comes at the expense
of their interpretability. In this study, we explore how modalities can be
leveraged through multitask learning to intrinsically explain model behavior.
In particular, instead of additional inputs, we use certain modalities as
additional targets to be predicted along wi...
Авторы:
Helbert Paat, Guohao Shen
#### Контекст
Повышение качества классификационных задач через взаимодействие человека и искусственного интеллекта (Human-AI Collaboration) становится все более востребованным в современной технологической среде. Ранее исследования оптимизировали отдельно взаимодействие человека с моделью или с другими экспертами. С другой стороны, в данной работе авторы уделяют внимание выбору эксперта из пула нескольких экспертов, чтобы использовать их выводы в сочетании с набором прогнозных множеств, полученных с помощью классификатора. Эта адаптивная модель взаимодействия позволяет лучше использовать сильные стороны каждого эксперта, учитывая специфику каждой конкретной задачи.
#### Метод
Авторы предлагают метод, основанный на идее "конформальных множеств" (conformal sets) для выбора экспертов из разнообразного пула. Метод использует подход жадного выбора (greedy algorithm), чтобы выбирать подмножество экспертов для каждой конкретной задачи. Конформальные множества позволяют оценивать достоверность прогнозов каждого эксперта и выбирать те, которые дают более точные и надежные выводы. Эта стратегия работает с целью повысить точность и эффективность взаимодействия человека с несколькими экспертами. Данный подход демонстрирует, как можно адаптировать выбор экспертов в зависимости от характера каждой конкретной задачи классификации.
#### Результаты
В экспериментах использовались данные из CIFAR-10H и ImageNet-16H, демонстрирующих реальные прогнозы экспертов. Авторы сравнили свой подход с традиционными методами выбора экспертов. Результаты показали, что использование конформальных множеств для выбора подмножества экспертов приводит к значительному повышению точности классификации. Алгоритм, предложенный в работе, показал значительное повышение качества в сравнении с базовыми методами, в том числе в ситуациях, когда не все эксперты в пуле дают точные прогнозы.
#### Значимость
Предложенный подход имеет широкое применение в системах поддержки решений, где необходима высокая точность в классификации. Он может быть применен в медицине, юриспруденции, технической поддержке и других областях, где взаимодействие человека с несколькими экспертами критически важно. Преимущество этого подхода заключается в том, что он позволяет адаптировать выбор экспертов под специфику каждой конкретной задачи, что увеличивает точность и эффективность взаимодействия.
#### Выводы
Работа доказывает, что выбор подмножества экспертов, основанный на конформальных множествах, может значительно повысить качество классификации в сравнении с базовыми методами. Будущие исследования могут направляться на уточнение алгоритмов вы
Annotation:
Decision support systems are designed to assist human experts in
classification tasks by providing conformal prediction sets derived from a
pre-trained model. This human-AI collaboration has demonstrated enhanced
classification performance compared to using either the model or the expert
independently. In this study, we focus on the selection of instance-specific
experts from a pool of multiple human experts, contrasting it with existing
research that typically focuses on single-expert scenarios...
📄 From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving
2025-08-13Авторы:
Antonio Guillen-Perez
## Контекст
Подвижность городов в настоящее время крайне зависит от инновационных технологий, способных обеспечить безопасность, эффективность и доступность транспортных систем. Одной из ключевых задач в области автономного вождения является создание надежных и устойчивых политик прохождения маршрутов с помощью обучения на основе данных. Однако использование реальных данных для обучения в реальном времени часто оказывается небезопасным и непрактичным. Большинство алгоритмов, основанных на Behavioral Cloning (BC), сталкиваются со сложностями в задаче копирования поведения эксперта, включая неустойчивость и ошибки, ускоряющиеся в замкнутых контрольных циклах. Это выделяет необходимость в разработке более устойчивых и оптимизированных подходов для обучения политик вождения.
## Метод
Для развития эффективных политик вождения предлагается модель, основанная на Behavioral Cloning (BC), которая использует трансформеры для обработки структурированных, сущность-ориентированных представлений состояния. Эта модель достигает низкого уровня имитационной потери, но не справляется с длинными горизонтами симуляций. Для улучшения устойчивости используется алгоритм Conservative Q-Learning (CQL) в качестве метода Offline Reinforcement Learning (Offline RL). CQL применяется к той же структуре представления состояния, что и BC, но добавляет консервативную функцию значений, способную обеспечить более устойчивое поведение в реальных ситуациях. Эта модель также включает в себя настраиваемую функцию награды, которая помогает агенту избегать ошибок и выходов за допустимые состояния.
## Результаты
В ходе экспериментов проводилась сравнительная оценка различных вариантов BC с трансформером и CQL на основе реальных данных. Результаты показали, что CQL не только увеличивает устойчивость политик, но и существенно повышает эффективность. Например, CQL демонстрирует 3.2 раза более высокую стабильность и 7.4 раз меньшую частоту столкновений по сравнению с лучшими результатами BC на 1,000 неизвестных сценах из Waymo Open Motion Dataset. Это демонстрирует, что Offline RL значительно превосходит BC в обучении политик для длинных горизонтов вождения.
## Значимость
Предлагаемый подход может быть применен в различных сценариях автономного вождения, включая дорожные системы, парковки и управление транспортом. Он обеспечивает высокую устойчивость, снижает риск столкновений и повышает эффективность в различных реальных условиях. Это открывает новые возможности для безопасного и эффективного использования автономных систем в транспортных системах.
## Выводы
Результаты показали, что Offline Reinforcement Learning, особенно CQL, является к
Annotation:
Learning robust driving policies from large-scale, real-world datasets is a
central challenge in autonomous driving, as online data collection is often
unsafe and impractical. While Behavioral Cloning (BC) offers a straightforward
approach to imitation learning, policies trained with BC are notoriously
brittle and suffer from compounding errors in closed-loop execution. This work
presents a comprehensive pipeline and a comparative study to address this
limitation. We first develop a series of in...
Показано 2731 -
2740
из 2901 записей