📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Hamed Ayoobi, Nico Potyka, Anna Rapberger, Francesca Toni

## КОНТЕКСТ И ПРОБЛЕМАТИКА С ростом применения искусственного интеллекта (ИИ) в обществе возрастает необходимость решения проблем, связанных с потенциальными смещениями (байес) в данных или моделях. Такие смещения могут приводить к систематическим недостаткам для определенных групп людей, что вызывает проблемы справедливости и социальной ответственности. В литературе было предложено множество понятий несправедливости (unfairness), а также алгоритмические методы для их выявления и смягчения. Однако большинство этих методов игнорируют важный аспект – прозрачность. Прозрачность является ключевым требованием для алгоритмов, оперирующих в области справедливости. Это обусловлено тем, что справедливость является ориентированной на человека понятием, и пользователи должны понимать, как и почему были приняты то или иное решение. Интерпретируемость и объяснимость являются необходимыми компонентами для достижения прозрачности в алгоритмах, особенно в контексте справедливости. Несмотря на это, существующие подходы к обнаружению и смягчению несправедливости часто не обеспечивают достаточного уровня прозрачности. В этой статье авторы предлагают новый метод для обнаружения смещений, основанный на аргументации. Метод использует дебаты (рассуждения) о наличии смещений в отношении отдельных лиц на основе значений защищенных признаков для этих лиц и их соседей. Этот подход использует методы формальной и вычислительной аргументации, где дебаты происходят как внутри, так и между соседними группами. Такой подход позволяет достигнуть более высокого уровня прозрачности и объяснимости решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на техниках формальной и вычислительной аргументации для обнаружения смещений. Он использует концепцию "соседей" (neighbourhoods), где каждый индивид анализируется не только по своим характеристикам, но и по характеристикам других людей в его окружении. Дебаты формируются на основе аргументов о наличии смещений, связанных с защищенными признаками (например, расой, полу, возрастом). Аргументы формируются на основе двух видов дебатов: внутри соседства (intra-neighbourhood) и между соседствами (inter-neighbourhood). Эти дебаты позволяют выявить несогласованности и смещения в распределении ресурсов или решений между различными группами. Метод также использует формальные методы аргументации для квантификации и анализа этих дебатов, что позволяет получить количественные оценки смещений. Ключевым моментом этого метода является его интерпретируемость. Дебаты и аргументы представлены в форме, которая понятна человеку, что позволяет обеспечить высокую прозрачность в процессе обнаружения смещений. Этот подход также позволяет пользователям получить подробные объяснения о том, почему было принято то или иное решение, что является важной частью процесса обеспечения справедливости. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Эксперименты были проведены на различных наборах данных, которые содержали информацию о защищенных признаках и решениях, которые могут быть подвержены смещениям. Для сравнения были использованы базовые методы, которые не используют аргументацию. Результаты экспериментов показали, что предлагаемый метод выявляет смещения с высокой точностью и предлагает более прозрачные объяснения для своих решений по сравнению с базовыми методами. Интерпретируемость метода позволила пользователям лучше понимать причины обнаруженных смещений, что является важной частью процесса обеспечения справедливости. Кроме того, метод показал хорошие результаты в выявлении смещений в различных контекстах, включая различные типы данных и признаков. Это подтверждает его универсальность и применимость в различных областях, где важна справедливость и прозрачность. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в областях, где важна справедливость и прозрачность принятия решений. Он может быть использован в таких областях, как кредитование, найм персонала, медицинская диагностика и другие области, где важно обеспечить равное обращение с различными группами людей. Преимущества этого метода включают высокую прозрачность и объяснимость решений, что позволяет пользователям лучше понимать и контролировать процесс принятия решений. Это может привести к более справедливому и этическому использованию ИИ в обществе, предотвращая дискриминацию и несправедливость. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этой статье был представлен новый метод для обнаружения смещений на основе аргументации, который обеспечивает высокий уровень прозрачности и объяснимости. Метод показал хорошие результаты в экспериментах и имеет широкое применение в различных областях. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая расширение его применимости к более сложным данным и контекстам. Также может быть исследовано влияние этого метода на реальные приложения ИИ и его влияние на социальную справедливость.
Annotation:
As the use of AI systems in society grows, addressing potential biases that emerge from data or are learned by models is essential to prevent systematic disadvantages against specific groups. Several notions of (un)fairness have been proposed in the literature, alongside corresponding algorithmic methods for detecting and mitigating unfairness, but, with very few exceptions, these tend to ignore transparency. Instead, interpretability and explainability are core requirements for algorithmic fair...
ID: 2508.04511v1 cs.AI, cs.LG
Авторы:

Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluigi Forloni, Riaz Hussein, Giovanna Rizzo, Alfonso Mastropietro

## КОНТЕКСТ И ПРОБЛЕМАТИКА Оценка параметров intravoxel incoherent motion (IVIM) из диффузионно-взвешенной МРТ (DW-MRI) представляет собой сложную задачу, затрудненную некорректностью обратной задачи и высокой чувствительностью к шумам, особенно в перфузионном компоненте. Данная область исследования имеет большое значение, поскольку IVIM-параметры играют ключевую роль в оценке микроциркуляции крови и диффузии в тканях. Однако существующие методы характеризуются значительными недостатками, включая недостаточную точность и неустойчивость оценок в условиях реальных клинических данных. Одним из основных вызовов является необходимость учета неопределенности в оценках параметров, включая как алёаторическую (AU), связанную с шумами в данных, так и эпистемическую (EU), вызванную недостаточностью модели или несоответствием между тренировочными и реальными данными. Традиционные непробебилистические нейросетевые модели, а также байесовские подходы, не всегда обеспечивают достаточную точность и калибровку оценок неопределенности. В связи с этим, авторы статьи предлагают новый пробебилистический подход на основе Deep Ensembles (DE) и Mixture Density Networks (MDNs) для комплексной оценки неопределенности в моделях, основанных на DW-MRI. Данный подход направлен на решение проблемы недостоверных оценок и повышения надежности моделей путем декомпозиции неопределенности на её составляющие. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенная модель основывается на комбинации Deep Ensembles (DE) и Mixture Density Networks (MDNs), что позволяет достичь комплексной оценки неопределенности. MDNs используются для моделирования плотности вероятностей выходных параметров, включая диффузионный коэффициент $D$, фракцию $f$ и псевдодиффузионный коэффициент $D*$. DE обеспечивает разнообразие предсказаний за счет обучения нескольких нейросетей с различными инициализациями, что позволяет лучше охватить пространство возможных решений и оценить эпистемическую неопределенность. Процесс обучения проводится на синтезированных данных, сгенерированных на основе физиологически допустимых диапазонов параметров. В процессе обучения учитывается специфика DW-MRI, включая влияние шума и нелинейностей в процессе обработки данных. Для оценки качества модели используются метрики, такие как калибровочные кривые, результаты Continuous Ranked Probability Score (CRPS) и другие индикаторы точности и калибровки. Предложенный метод также включает в себя модуль декомпозиции неопределенности, позволяющий разделить её на алёаторическую и эпистемическую составляющие. Это позволяет идентифицировать недостоверные оценки, вызванные либо шумами в данных, либо несоответствием модели реальным условиям. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились как на синтезированных, так и на реальных in vivo данных. Результаты показывают, что MDNs обеспечивают более калиброванные и острые предсказательные распределения для параметров $D$ и $f$, хотя для $D*$ наблюдается небольшое преуверешенное (overconfident) поведение. Использование CRPS показало, что MDNs обеспечивают более гладкие оценки для $D*$ по сравнению с традиционным гауссовским моделированием. Было также продемонстрировано, что EU имеет высокое значение в реальных in vivo условиях, что свидетельствует о несоответствии между тренировочными данными и реальными условиями сканирования. Это подчеркивает важность учета EU в процессе моделирования, что было успешно реализовано в предложенной рамке. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике и научных исследованиях, где точная оценка IVIM-параметров крайне важна. Он позволяет не только повысить точность оценок, но и идентифицировать недостоверные результаты, что может предотвратить ошибочные клинические решения. Кроме того, данный подход может быть адаптирован для моделирования других физических процессов за счет соответствующих модификаций архитектуры и симуляционных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен комплексный подход к оценке неопределенности в моделях IVIM-MRI, который обеспечивает точные и калиброванные предсказания. Будущие исследования могут фокусироваться на дальнейшей оптимизации модели, включая расширение диапазона тренировочных данных и улучшение модуля декомпозиции неопределенности. Также предлагается исследовать возможности применения этого подхода в других областях медицинского изображений.
Annotation:
Accurate estimation of intravoxel incoherent motion (IVIM) parameters from diffusion-weighted MRI remains challenging due to the ill-posed nature of the inverse problem and high sensitivity to noise, particularly in the perfusion compartment. In this work, we propose a probabilistic deep learning framework based on Deep Ensembles (DE) of Mixture Density Networks (MDNs), enabling estimation of total predictive uncertainty and decomposition into aleatoric (AU) and epistemic (EU) components. The me...
ID: 2508.04588v2 eess.IV, cs.AI, cs.LG
Авторы:

Negar Foroutan, Clara Meister, Debjit Paul, Joel Niklaus, Sina Ahmadi, Antoine Bosselut, Rico Sennrich

## КОНТЕКСТ И ПРОБЛЕМАТИКА Tokenization — это первый и, как часто случается, наименее анализируемый шаг в большинстве конвейеров обработки естественного языка (NLP). Традиционные алгоритмы для обучения токенизаторов основываются на частотном подходе, который предпочитает языки, преобладающие в обучающих данных. Это приводит к неравномерному качеству токенизации для языков с малоресурсными данными, которые часто имеют длинные, морфологически неправильные токены или содержат <UNK> (неизвестные слова). Это неравенство в токенизации усиливает существующие социально-экономические неравенства между пользователями разных языков, создавая недостаток доступности для менее распространенных языков. Например, токенизация для редких языков может быть неэффективной и требовать больше вычислительных ресурсов, что приводит к увеличению финансового бремени для пользователей этих языков. Подходы к улучшению справедливости токенизации являются критически важными, особенно в многоязычных контекстах, где необходимо обеспечить равномерное качество обработки текста на разных языках. Традиционные методы, такие как Byte Pair Encoding (BPE), не учитывают неравенство между языками в процессе обучения, что может приводить к непропорциональным результатам для менее распространенных языков. Для решения этой проблемы необходимо разработать методы, которые могут обеспечить более справедливую токенизацию для всех языков, независимо от их ресурсности. Это подход, ориентированный на справедливость (fairness-aware), становится важной составляющей для создания более инклюзивных и доступных NLP-систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается Parity-aware Byte Pair Encoding (BPE) — модификация широко используемого алгоритма BPE, ориентированная на улучшение справедливости токенизации в многоязычных наборах данных. Основная идея Parity-aware BPE заключается в том, чтобы максимизировать сжатие для языка, который в данный момент имеет наихудшую компрессию. На каждом шаге слияния алгоритм выбирает пару символов, которая приводит к наибольшему улучшению для языка с наименьшим коэффициентом сжатия. Таким образом, алгоритм стремится к более равномерному распределению длин токенов между языками, тем самым уменьшая неравенство в токенизации. Parity-aware BPE не требует значительных изменений в существующей архитектруре BPE, но добавляет дополнительный механизм для мониторинга и коррекции неравенства между языками. Такой подход позволяет сохранить высокую степень глобального сжатия, при этом существенно улучшая равномерность токенизации между языками. Этот метод также позволяет сохранить качество модели языка на задачах обработки естественного языка, не нанося значительных потерь в производительности модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на многоязычных данных, чтобы оценить эффективность Parity-aware BPE по сравнению со стандартным BPE. Использовались наборы данных, представляющие широкий спектр языков, включая как ресурсоемкие, так и малоресурсные языки. Результаты показали, что Parity-aware BPE значительно улучшил справедливость токенизации, сократив неравенство в длине токенов между языками. Это было достигнуто без существенного ухудшения глобального коэффициента сжатия. Кроме того, авторы протестировали модели языкового моделирования, обученные на токенизированных данных, и не обнаружили существенного ухудшения качества модели на задачах, таких как перевод и классификация текста. Это подтверждает, что Parity-aware BPE может быть эффективно использован в приложениях NLP без потери качества. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод Parity-aware BPE имеет значительное практическое применение в многоязычных NLP-системах. Он может быть использован для улучшения доступности и справедливости систем обработки естественного языка для менее распространенных языков. Это особенно важно в контексте развития инклюзивных технологий, где необходимо обеспечить равное качество обработки для всех пользователей, независимо от языка. Parity-aware BPE может быть применен в различных областях, таких как машинный перевод, анализ социальных сетей, обработка клиентских запросов и другие приложения, где необходима поддержка множества языков. Преимущество этого метода заключается в том, что он позволяет сохранить высокое качество модели языка, не увеличивая вычислительные затраты. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Parity-aware BPE является эффективным методом для улучшения справедливости токенизации в многоязычных контекстах. Он позволяет сократить неравенство в длине токенов между языками, не нанося существенных потерь в глобальном сжатии и качестве модели. Будущие исследования могут расширить этот подход, включив дополнительные механизмы для улучшения справедливости и доступности NLP-систем для менее распространенных языков. Также может быть исследовано влияние Parity-aware BPE на другие аспекты моделей языкового обработки, таких как интерпретируемость и эффективность.
Annotation:
Tokenization is the first -- and often least scrutinized -- step of most NLP pipelines. Standard algorithms for learning tokenizers rely on frequency-based objectives, which favor languages dominant in the training data and consequently leave lower-resource languages with tokenizations that are disproportionately longer, morphologically implausible, or even riddled with <UNK> placeholders. This phenomenon ultimately amplifies computational and financial inequalities between users from different ...
ID: 2508.04796v1 cs.CL, cs.AI, cs.LG
Авторы:

Michael R. Wartmann, B. Erik Ydstie

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы машинное обучение и аналитика для управления процессами стали важной составляющей индустрии. Однако существует существенная проблема интеграции новых, данных-ориентированных методов с классическими моделями процессов и системами управления. Традиционные модели обычно основываются на физических законах и консервативных принципах, таких как законы сохранения массы и энергии, которые обеспечивают надежную и интерпретируемую основу для моделирования и управления процессами. Однако новые данные-ориентированные подходы, такие как нейронные сети, часто не имеют встроенных механизмов для соблюдения этих принципов, что может привести к неточным или нефизическим результатам. Проблема состоит в том, как сочетать преимущества данных-ориентированных методов с классическими физическими моделями, обеспечивая согласованность и точность. Кроме того, необходимо разработать методологию, которая позволит эффективно интегрировать эти подходы для улучшения управления распределенными процессами. Мотивация заключается в том, что современные промышленные процессы становятся все более сложными и распределенными, требуя более точных и адаптивных моделей для управления. В данной статье предлагается фреймворк для моделирования процессов, который позволяет интегрировать данные-ориентированные алгоритмы с классическими моделями процессов через согласованные топологические свойства и сохранение экстенсивных величин, таких как масса и энергия. Этот подход направлен на то, чтобы обеспечить согласованность между физическими законами и данными, полученными из реальных процессов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на использовании нейронных обычных дифференциальных уравнений (Neural Ordinary Differential Equations, Neural ODEs) для моделирования процессов. Он включает в себя представление взаимосвязей между единицами процессной сети через матрицы связей и графы сетей. Это позволяет моделировать динамику процессов с учетом топологических свойств и законов сохранения. Основная идея заключается в том, чтобы использовать дифференциальные уравнения для описания динамики системы, где нейронные сети используются для обучения динамических отношений из данных. Алгоритм Neural ODEs позволяет моделировать процессы, где состояния системы описываются дифференциальными уравнениями, а нейронные сети обучаются на основе этих уравнений, используя метод адъюнктного градиента (adjoint method). Это позволяет получить модель в пространстве состояний, которая может быть использована для моделирования и управления процессами. Для реализации этого подхода используются матрицы связей и графы, которые описывают топологию процессной сети. Эти матрицы позволяют моделировать взаимодействия между различными компонентами системы и обеспечивают согласованность между физическими законами и данными. Кроме того, в этом подходе используется метод конических условий (conic sector conditions) для описания условий потоков в системе, что обеспечивает соответствие физическим законам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для демонстрации эффективности предлагаемого метода был проведен эксперимент на примере простой системы управления запасами. В этом эксперименте использовалась синтетическая временная ряд данных, которые были сгенерированы для моделирования динамики системы. Нейронная сеть была обучена на основе этих данных, используя алгоритм Neural ODEs в сочетании с адаптивным решителем дифференциальных уравнений. Результаты эксперимента показали, что нейронная сеть успешно обучилась моделировать динамику системы, формируя модель в пространстве состояний. Эта модель была использована в алгоритме предсказательного управления (Model Predictive Control, MPC) для управления системой. Модель показала высокую точность в предсказании состояний системы и эффективность в управлении процессом. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение этого подхода заключается в том, что он позволяет интегрировать данные-ориентированные методы с классическими физическими моделями процессов. Это может быть использовано в различных областях, таких как производство, логистика, энергетика и другие сферы, где необходимо управление распределенными процессами. Преимущества этого подхода включают в себя улучшенную точность моделей, интеграцию физических законов с данными, а также возможность адаптивного управления процессами. Это может привести к более эффективному и надежному управлению процессами в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной статьи был предложен фреймворк для моделирования процессов, который интегрирует данные-ориентированные методы с классическими физическими моделями. Этот подход показал высокую эффективность на примере управления запасами. Будущие исследования могут быть направлены на дальнейшее улучшение этого метода, включая исследование его применения в более сложных процессах и системах управления. Кроме того, можно исследовать возможности использования этого подхода в реальных промышленных условиях для улучшения эффективности и надежности управления процессами.
Annotation:
Most recent advances in machine learning and analytics for process control pose the question of how to naturally integrate new data-driven methods with classical process models and control. We propose a process modeling framework enabling integration of data-driven algorithms through consistent topological properties and conservation of extensive quantities. Interconnections among process network units are represented through connectivity matrices and network graphs. We derive the system's natur...
ID: 2508.04799v1 cs.NE, cs.AI, cs.LG, cs.SY, eess.SY
Авторы:

Mayra Sofia Ruiz Rodriguez, SayedHassan Khatoonabadi, Emad Shihab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Logging является важной составляющей современного программного обеспечения, позволяющей разработчикам отслеживать поведение системы и упрощающей отладку приложений. Однако создание эффективных лог-сообщений требует времени и опыта, что затрудняет обеспечение согласованности и полноты логирования, особенно в больших проектах. В последнее время исследования в области применения технологий языковых моделей (Large Language Models, LLMs) для автоматического генерирования кода получили широкое распространение. Благодаря способности LLMs к генерации естественного языка и кода, исследователи рассматривают их потенциал в создании лог-сообщений. Тем не менее, существующие исследования в этой области в основном концентрируются на лог-сообщениях, встроенных в функции кода, оставляя недостаточно изученным вопрос генерации логов на уровне файлов. Это особенно актуально для машинного обучения (ML), где комплексное логирование критически важно для обеспечения надежности и отслеживания поведения моделей. Файловое логирование в ML-проектах требует учета специфики данных, алгоритмов и структуры проекта, что делает задачу еще более сложной. Данная работа предлагает исследовать возможности GPT-4o mini, одной из LLMs, в генерации лог-сообщений для ML-проектов на уровне файлов. Изучая эту проблему, исследование помогает выявить текущие трудности и оценить перспективы применения LLMs в реальных условиях разработки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была выбрана модель GPT-4o mini для генерации логов в ML-проектах. Модель была запрошена для создания лог-сообщений на уровне файлов Python, основываясь на содержимом файлов без предварительных логов. Для этого были собраны данные из 171 репозиториев ML-проектов, содержащих 4073 Python-файла с логами. Оригинальные логи были удалены, чтобы создать чистые файлы для генерации. Затем, для каждого файла, модель получала запрос на генерацию логов, основываясь на его содержимом. Генерируемые логи оценивались по нескольким критериям: точность позиционирования логов, выбор уровня логирования, качество переменных и текста лог-сообщений. Для сравнения были использованы логи, написанные человеком, что позволило выявить различия и оценить эффективность генерируемых логов. Дополнительно была проведена ручная аналитика над выборкой логов, чтобы выявить типичные шаблоны и ограничения в генерируемых лог-сообщениях. Этот подход позволил оценить не только точность, но и соответствие логов конвенциям конкретных проектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование показало, что GPT-4o mini способна вставлять логи в точках, совпадающих с рукописными логами, в 63,91% случаев. Однако при этом была зафиксирована высокая степень "overlogging" — 82,66% лог-сообщений были неправильно позиционированы или ненужны. Также было обнаружено, что модель часто генерирует логи в начале или конце функций, что может быть неэффективно в больших блоках кода. Ручной анализ выявил несколько ключевых проблем: - Чрезмерное логирование в некритичных участках кода. - Трудности в логировании внутри крупных и сложных функций. - Несоответствие логов специфичным конвенциям конкретных проектов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Несмотря на выявленные ограничения, данное исследование показывает потенциал LLMs в автоматизации логирования, особенно в ML-проектах. Автоматическое генерирование логов может значительно ускорить процесс разработки, уменьшить человеческий труд и повысить надежность систем. Однако для практического применения необходимо решить проблемы связанные с overlogging и несоответствием конвенциям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что GPT-4o mini может быть полезна для генерации логов на файловом уровне, но существуют значительные проблемы, которые необходимо решить для её практического применения. Будущие исследования могут фокусироваться на улучшении точности позиционирования логов, сокращении overlogging и адаптации моделей к конкретным проектам.
Annotation:
Logging is essential in software development, helping developers monitor system behavior and aiding in debugging applications. Given the ability of large language models (LLMs) to generate natural language and code, researchers are exploring their potential to generate log statements. However, prior work focuses on evaluating logs introduced in code functions, leaving file-level log generation underexplored -- especially in machine learning (ML) applications, where comprehensive logging can enha...
ID: 2508.04820v1 cs.SE, cs.AI, cs.LG
Авторы:

Wafeeq Jaleel, Md Ragib Rownak, Athar Hanif, Sidra Ghayour Bhatti, Qadeer Ahmed

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гибридные электромобили (HEV) становятся важным элементом стратегии декарбонизации грузового транспорта, особенно в сегменте тяжелых грузовиков. Однако эффективное управление энергопотреблением в таких системах представляет собой сложную задачу, требующую одновременного учета множества переменных: текущего состояния батареи, мощностных характеристик двигателя, условий движения и продолжительности маршрута. Традиционные методы управления, основанные на правилах или оптимизации в реальном времени, часто не обеспечивают оптимальный баланс между экономией топлива и сохранением заряда батареи для длительных поездок. Проблема усложняется тем, что в серийной архитектуре HEV двигатель внутреннего сгорания (ДВС) не напрямую приводит колеса, а работает как генератор, заряжая батарею и/или питая электродвигатель. Это создает дополнительные степени свободы в управлении, но также увеличивает пространство возможных стратегий управления. Существующие подходы, включая динамическое программирование (DP), обеспечивают теоретически оптимальные решения, но требуют полного знания будущего цикла вождения и не применимы в реальных условиях. Авторы статьи выделяют ключевую проблему: большинство существующих систем управления не учитывают последовательную природу задачи и временные зависимости между решениями. Текущие методы обучения с подкреплением (RL) часто используют нейронные сети прямого распространения (FFN), которые рассматривают каждое состояние независимо, теряя важную информацию о контексте предыдущих состояний и действий. Это особенно критично для тяжелых грузовиков, где решения о включении ДВС имеют длительные последствия из-за большой инерционности системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы авторы предлагают новую архитектуру RL-агента на базе алгоритма Soft Actor-Critic (SAC), специально адаптированного для учета последовательной природы задачи управления энергопотоками в серийных HEV. Ключевой инновацией является интеграция механизмов памяти в обе сети актора и критика, что позволяет агенту учитывать историю состояний и действий при принятии решений. Архитектура предлагает три варианта реализации: первый использует в акторе Decision Transformer (DT) - трансформерную архитектуру, способную моделировать сложные длинные зависимости в последовательностях, и в критике - Gated Recurrent Units (GRU) для эффективного захвата среднесрочных временных паттернов. Второй вариант применяет GRU в обеих сетях, обеспечивая более компактную модель с сохранением способности к учету временных зависимостей. Третий вариант служит базовым, используя традиционные FFN-сети для сравнения эффективности. Методология включает несколько ключевых компонентов: формальную постановку задачи как процесса принятия последовательных решений в частично наблюдаемой среде, разработку специальной функции вознаграждения, балансирующей между топливной экономичностью и поддержанием заряда батареи, и механизм обучения с учетом различных начальных условий и сценариев вождения. Авторы также вводят концепцию "последовательного планирования", где агент не только реагирует на текущее состояние, но и прогнозирует последствия своих действий в контексте предполагаемого будущего цикла движения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания была направлена на всестороннюю оценку предложенных методов по трем ключевым критериям: эффективность топливной экономии по сравнению с теоретическим оптимумом, способность обобщаться на незнакомых циклах вождения и робастность к изменениям параметров системы. Для этого использовались три различных цикла вождения: стандартный Highway Fuel Economy Test (HFET) для базового сравнения, агрессивный US06 для проверки экстремальных условий и HHDDT cruise segment для моделирования специфических условий тяжелых грузовиков. Обучение проводилось на диверсифицированном наборе данных, включающем 5000 эпизодов с варьированием начального состояния заряда батареи (20-80%), продолжительности цикла (от 200 до 1200 секунд) и профилей мощности. Для каждого варианта архитектуры проводилось обучение с 10 различ
Annotation:
As hybrid electric vehicles (HEVs) gain traction in heavy-duty trucks, adaptive and efficient energy management is critical for reducing fuel consumption while maintaining battery charge for long operation times. We present a new reinforcement learning (RL) framework based on the Soft Actor-Critic (SAC) algorithm to optimize engine control in series HEVs. We reformulate the control task as a sequential decision-making problem and enhance SAC by incorporating Gated Recurrent Units (GRUs) and Deci...
ID: 2508.04874v1 eess.SY, cs.AI, cs.LG, cs.SY
Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Одним из ключевых направлений в области компьютерного зрения является оценка глубины сцены на основе монокулярных изображений (monocular depth estimation). Несмотря на значительные успехи в этой области, большинство существующих методов ориентированы на работу с перспективными изображениями (perspective images), которые имеют стандартные параметры камеры и минимальные искажения. Однако в реальных сценариях, таких как автономные транспортные системы или робототехника, часто используются фишей-объективы (fisheye lenses), которые обеспечивают большое зрение поля, но вводят значительные искажения. Это создает проблему, так как фундаментальные модели оценки глубины (foundational monocular depth estimators, FMDEs), обученные на перспективных данных, не могут эффективно работать с фишей-изображениями из-за ковариативного сдвига (covariate shift), вызванного изменениями параметров калибровки камеры (intrinsic, distortion). Традиционные подходы к решению этой проблемы включают переобучение (retraining) или дообучение (finetuning) моделей на данных фишей-камер, что требует больших вычислительных ресурсов и доступа к большим наборам данных. Также, методы калибровки и преобразования изображений в канонический кадр могут вводить артефакты и потерю точности. Это подчеркивает необходимость в новом подходе, который мог бы адаптировать FMDEs для работы с фишей-изображениями без необходимости переобучения или тяжелых модификаций в пространстве изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, названный **Calibration Tokens**, который позволяет адаптировать FMDEs для фишей-изображений без необходимости в повторном обучении или преобразованиях изображений. Основная идея заключается в использовании Calibration Tokens – легковесных адаптационных механизмов, которые модулируют латентные вложения (latent embeddings) FMDEs для выравнивания их распределения с теми, что были обучены на перспективных изображениях. Calibration Tokens работают в латентном пространстве модели, избегая прямых модификаций в пространстве изображений, что позволяет избежать возникновения артефактов. Этот подход выгоден, поскольку латентное пространство FMDEs уже обладает выразительностью, которая может быть эффективно модифицирована для выравнивания распределений. Метод является self-supervised и не требует доступа к реальным фишей-изображениям для обучения. Вместо этого, он использует публично доступные наборы данных перспективных изображений. Для обучения, перспективные изображения перекалибруются в фишей-изображения, и затем происходит принуждение к согласованности (consistency) между оценками глубины для обоих типов изображений. Это позволяет эффективно переносить знания из перспективных моделей на фишей-камеры. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было продемонстрировано, что метод Calibration Tokens позволяет значительно улучшить точность оценки глубины для фишей-камер по сравнению с состоянием техники. Авторы провели эксперименты на различных FMDEs, включая модели обученные на больших наборах данных перспективных изображений. Результаты показали, что метод не только улучшает точность, но и обеспечивает согласованность оценок глубины между перспективными и фишей-изображениями. Данные для экспериментов были взяты из общедоступных наборов данных, которые включали как внутренние, так и наружные сцены. Метод был протестирован на различных типах сцен, где он показал последовательное улучшение по сравнению с другими подходами. Благодаря единому набору Calibration Tokens, метод демонстрирует высокую эффективность и простоту применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение данного метода заключается в его возможности эффективного использования FMDEs в реальных сценариях, где часто используются фишей-объективы. Это может быть применено в автономных транспортных системах, робототехнике, видеонаблюдении и других областях, где необходима точная оценка глубины с использованием фишей-камер. Преимущества метода включают в себя: - **Быстрая адаптация** без необходимости переобучения модели. - **Снижение затрат вычислительных ресурсов**, так как не требуется фине-тюнинг или создание новых наборов данных. - **Улучшение точности** благодаря эффективной модификации латентных вложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод Calibration Tokens, который позволяет эффективно адаптировать FMDEs для фишей-камер без необходимости в повторном обучении или преобразованиях изображений. Этот метод является self-supervised и использует публично доступные наборы данных перспективных изображений для обучения. В будущем, данный подход может быть расширен для других типов камер или сцен, а также может быть интегрирован в более широкие системы компьютерного зрения. Он также может быть использован для улучшения точности в других задачах, связанных с обработкой изображений и оценкой глубины.
Annotation:
We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...
ID: 2508.04928v1 cs.CV, cs.AI, cs.LG
Авторы:

Sadia Kamal, Tim Oates, Joy Wan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Карцинома кожи является самой распространенной формой рака в мире, вызывая значительные затраты на здравоохранение, превышающие 8 миллиардов долларов в год. Ранняя диагностика, точное определение и своевременное лечение играют ключевую роль в повышении шансов на выживание больных. Однако клиническая документирование, необходимое для эффективного управления пациентами, часто является трудоемким и вызывает выгорание у медицинских работников. Документирование врачей основывается на SOAP-нотации (Subjective, Objective, Assessment, and Plan), которая представляет собой детальный формат для записи клинической информации. Однако ручное создание таких заметок требует значительных усилий и времени, что создает дополнительную нагрузку на медицинский персонал. Кроме того, обучение моделей для автоматизации этого процесса часто требует больших объемов аннотированных данных, что может быть непрактично в реальной клинической практике. В этой работе авторы предлагают Skin-SOAP, инновационный метод для автоматического создания структурированных SOAP-заметок на основе минимальных входных данных, таких как изображения лезий и разреженные клинические тексты. Эта работа направлена на уменьшение зависимости от ручных аннотаций и повышение масштабируемости автоматизации документирования, что может существенно облегчить работу клиницистов и снизить риск выгорания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Skin-SOAP представляет собой мультимодальный фреймворк, который использует слабоконтролируемый подход для генерации SOAP-заметок. Метод объединяет визуальную информацию из изображений лезий и текстовую информацию из клинических заметок для создания структурированных клинических документов. Архитектура Skin-SOAP включает в себя несколько компонентов: модуль обработки изображений, модуль обработки текста и модуль генерации SOAP-нотации. Изображения лезий обрабатываются с помощью нейронных сетей для извлечения визуальных признаков, в то время как текст обрабатывается с помощью моделей естественного языка для извлечения клинических концептов. Затем эти признаки объединяются и передаются в модуль генерации, который использует слабоконтролируемые методы для создания конечных SOAP-заметок. Одним из ключевых преимуществ этого подхода является уменьшение необходимости в больших объемах аннотированных данных. Skin-SOAP использует слабоконтролируемые методы обучения, что позволяет создавать клинически релевантные заметки даже при ограниченном количестве данных. Это делает фреймворк более пригодным для реального клинического применения, где аннотированные данные часто отсутствуют или трудно доступны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Skin-SOAP авторы провели серию экспериментов, используя данные, включающие изображения лезий и клинические тексты. Результаты экспериментов сравнивались с тремя современными моделями: GPT-4o, Claude, и DeepSeek Janus Pro. Для оценки клинической релевантности Skin-SOAP, авторы ввели два новых метрики: MedConceptEval и Clinical Coherence Score (CCS). MedConceptEval измеряет степень соответствия генерируемых заметок клиническим концептом
Annotation:
Skin carcinoma is the most prevalent form of cancer globally, accounting for over $8 billion in annual healthcare expenditures. Early diagnosis, accurate and timely treatment are critical to improving patient survival rates. In clinical settings, physicians document patient visits using detailed SOAP (Subjective, Objective, Assessment, and Plan) notes. However, manually generating these notes is labor-intensive and contributes to clinician burnout. In this work, we propose skin-SOAP, a weakly su...
ID: 2508.05019v1 cs.CV, cs.AI, cs.LG
Авторы:

Ruiyu Li, Changyuan Qiu, Hangrui Cao, Qihan Ren, Yuqing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача автоматической раскраски изображений представляет собой один из наиболее интригующих вызовов в области компьютерного зрения, находящий применение в восстановлении старых фотографий, создании анимации, улучшении медицинской визуализации и кинематографии. Процесс заключается в добавлении реалистичных цветов к черно-белым изображениям, при этом две трети информации о цвете (составляющие U и V в пространстве YUV) безвозвратно утрачены. Это создает принципиальную неоднозначность задачи, поскольку один и тот же объект может иметь множество правдоподобных цветовых вариаций - например, автомобиль может быть красным, синим или зеленым без нарушения реальности. Традиционные подходы воспринимали раскраску как задачу регрессии, где модель предсказывает точные значения цветов. Однако такое формулирование игнорирует мультимодальную природу цветового восприятия - один объект может иметь множество допустимых цветовых решений. Более того, регрессионные методы стремятся к усреднению возможных вариантов, что приводит к тусклым, ненасыщенным результатам. Современные исследования показывают, что семантика сцены и текстурные особенности могут служить мощными подсказками для определения цветов: небо обычно голубое, трава зеленая, а облака белые. Доступность больших массивов обучающих данных (любое цветное изображение может быть использовано для обучения путем его обесцвечивания) создает уникальные возможности для обучения статистических приоров. Авторы работы предлагают переосмыслить задачу раскраски не как регрессию, а как задачу классификации с использованием состязательного обучения, что позволяет учесть мультимодальность цветового пространства и генерировать более реалистичные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод представляет собой гибридную архитектуру, объединяющую сверточные нейронные сети (CNN) и генеративно-состязательные сети (GAN) для решения задачи автоматической раскраски. В основе подхода лежит переход от регрессии к классификации цветового пространства с дискретизацией цветов в 313 бина в пространстве CIE Lab, что позволяет формализовать задачу как многоклассовую классификацию. Генератор представляет собой энкодер-декодер архитектуру на основе CNN, где энкодер использует предобученную сеть ResNet для извлечения высокоуровневых признаков из черно-белого изображения. Декодер представляет собой последовательность транспонированных сверток с пропусками (skip connections) для восстановления пространственного разрешения. Особенностью является использование dilated convolutions для увеличения рецептивного поля без потери разрешения, что критично для захвата глобального контекста изображения. Дискриминатор реализован как PatchGAN - сеть, классифицирующая реальность отдельных патчей изображения размером 70x70 пикселей вместо всего изображения целиком. Это позволяет модели сосредоточиться на локальных текстурах и деталях, что особенно важно для раскраски. Для стабилизации обучения используется WGAN-GP loss с градиентной пенализацией. Ключевой инновацией является внедрение механизма внимания на уровне признаков, который позволяет модели динамически приоритизировать различные части изображения при генерации цветов. Дополнительно используется perceptual loss на основе признаков предобученной сети VGG для сохранения перцептуального сходства между раскрашенным и реальным изображениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на нескольких датасетах различной природы: ImageNet (1.2 миллиона изображений), COCO-stuff (164 тысячи изображений с детальной сегментацией) и специально подготовленном наборе анимационных кадров. Для обучения использовались 90% данных, оставшиеся 10% - для валидации и тестирования. Все изображения были предварительно обработаны: изменены до разрешения 256x256 пикселей, нормализованы и преобразованы в пространство CIE Lab для разделения яркости и цветовой информации. Основными метриками качества служили Fréchet Inception Distance (FID) для оценки реалистичности результатов, Peak Signal-to-Noise Ratio (PSNR) для измерения точности восстановления, а также усредненная пользовательская оценка через A/B тестирование с участием 100 добровольцев. Предложенный метод достиг F
Annotation:
Image colorization, the task of adding colors to grayscale images, has been the focus of significant research efforts in computer vision in recent years for its various application areas such as color restoration and automatic animation colorization [15, 1]. The colorization problem is challenging as it is highly ill-posed with two out of three image dimensions lost, resulting in large degrees of freedom. However, semantics of the scene as well as the surface texture could provide important cues...
ID: 2508.05068v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуально-языковое отслеживание представляет собой быстроразвивающееся направление в компьютерном зрении, которое объединяет визуальную информацию из видеопоследовательностей с текстовыми описаниями целевого объекта. Традиционные методы визуального отслеживания сталкиваются с фундаментальной проблемой: они полагаются исключительно на визуальные признаки, что делает их негибкими и подверженными ошибкам при изменении внешнего вида объекта, появлении препятствий или в условиях сложных сцен. Текстовое описание объекта, содержащее семантическую информацию о его характеристиках, может существенно повысить надежность и точность отслеживания в долгосрочной перспективе. Существующие подходы к визуально-языковому отслеживанию страдают от нескольких ключевых ограничений. Первые работы просто объединяли фиксированные языковые описания с визуальными признаками без адаптивной способности реагировать на изменения внешнего вида объекта. Более современные методы используют механизмы внимания для модификации языковых признаков, но они не способны к глубокому пониманию контекста и семантически осмысленному обновлению описаний. Недавние исследования попытались применить генеративные модели для динамического обновления текстовых описаний, однако эти методы оказались "черными ящиками" - они не предоставляют интерпретируемую информацию о процессе принятия решений и не полностью используют потенциал больших языковых моделей. Критическая проблема заключается в отсутствии крупномасштабных долгосрочных бенчмарков для визуально-языкового отслеживания, что затрудняет объективную оценку методов и сравнение различных подходов. Долгосрочное отслеживание особенно сложно, так как требует устойчивости к полным исчезновениям объекта из кадра, его повторному появлению после длительного отсутствия и устойчивости к значительным изменениям внешнего вида. Эти вызовы требуют разработки новых методов, способных к рассуждениям и адаптивному обновлению текстовых описаний на основе накопленной информации о треке. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningTrack представляет собой инновационную рамку для визуально-языкового отслеживания, которая использует pre-trained мультимодальную модель Qwen2.5-VL в качестве основы. Ключевой концепцией является внедрение цепочки рассуждений (Chain-of-Thought) в процесс генерации и обновления текстовых описаний целевого объекта. В отличие от предыдущих работ, которые использовали статические или поверхностно обновляемые языковые признаки, ReasoningTrack динамически генерирует обоснованные текстовые описания, которые адаптируются к изменениям внешнего вида объекта на протяжении всей видеопоследовательности. Архитектура системы состоит из трех основных компонентов: модуля рассуждений на основе языковой модели, унифицированной трекинговой backbone-сети и предсказывающей головки. Модуль рассуждений использует Qwen2.5-VL для генерации последовательных рассуждений о текущем состоянии объекта на основе исторической информации и текущего визуального наблюдения. Эти рассуждения представлены в виде естественного языка и включают анализ изменений внешнего вида, потенциальных причин сбоев в отслеживании и обновленное описание объекта. Генерация текста оптимизируется через два этапа: сначала используется Supervised Fine-Tuning (SFT) для обучения базовой способности к рассуждениям, затем применяется алгоритм GRPO (Group Relative Policy Optimization) из области reinforcement learning для дальнейшего улучшения качества рассуждений и их полезности для задачи отслеживания. Обновленные языковые описания затем эмбедируются и объединяются с визуальными признаками в унифицированной backbone-сети, которая использует механизмы перекрестного внимания для эффективного взаимодействия между модальностями. Конечная трекинговая голова генерирует предсказания границ объекта на основе объединенных мультимодальных признаков. Уникальность подхода заключается в том, что языковые рассуждения не только предоставляют семантическую информацию, но и служат формой внешней памяти, сохраняя контекстуальную информацию о треке на протяжении времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для всесторонней оценки пред
Annotation:
Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however,...
ID: 2508.05221v1 cs.CV, cs.AI, cs.LG
Показано 1661 - 1670 из 1687 записей