📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Exploring Strategies for Personalized Radiation Therapy: Part III Identifying genetic determinants for Radiation Response with Meta Learning

2025-08-13

Авторы:

Hao Peng, Yuanyuan Zhang, Steve Jiang, Robert Timmerman, John Minna

#### Контекст Радиосенсибильность рака — ответ тканей на радиотерапию — является выражением сложной биологической специфичности каждого пациента. Однако существующие подходы к радиотерапии часто опираются на жесткие, однообразные рекомендации по дозированию, не учитывая различия в генетических и молекулярных особенностях опухолей. Это приводит к неэффективности лечения и необходимости развития более индивидуализированных подходов. Наша мотивация заключается в исследовании генетических факторов, влияющих на радиосенсибильность, и в создании методов, позволяющих быстро адаптировать терапию к индивидуальным особенностям каждого пациента. #### Метод Мы предлагаем фреймворк мета-обучения для однозадачного прогнозирования радиосенсибильности, измеряемой индексом SF2, на основе выражения генов в клетках. Наш метод отличается от стандартных радиосиндромных индексов (например, RSI), которые опираются на фиксированную 10-генную сигнатуру и не учитывают вариации важности генов в разных типах опухолей. Вместо этого мы используем гибкую архитектуру, позволяющую менять важность генов для каждого отдельного образа на основе локальных особенностей выражения генов. Эта гибкость позволяет нашей модели адаптироваться к разным видам рака и учитывать интерпретируемые геновые взаимодействия. #### Результаты Мы проверили нашу модель на широком наборе генно-выраженных данных клеток. Она демонстрировала высокую точность прогнозирования радиосensitivity в различных типах рака, включая adenocarcinoma и large cell carcinoma. Наши результаты показали, что модель способна гибко адаптироваться к отдельным образам, обеспечивая высокую точность и понимание контекстных зависимостей в генной связи. Этот подход позволяет быстро перейти от общих рекомендаций к индивидуальным терапевтическим решениям. #### Значимость Наш фреймворк имеет широкие возможности применения в геномной медицине и терапевтической оптимизации. Он может повысить точность прогнозирования отклика на лучевую терапию, уменьшить риск нежелательных реакций и улучшить индивидуальную терапию. Этот подход также может расширить понимание индивидуальных различий в биологической радиосенсибильности, информируя дальнейшие исследования в области профилактики и лечения рака. #### Выводы Мы успешно разработали и проверили модель мета-обучения для прогноза радиосенсибильности, которая предлагает более точные и индивидуальные рекомендации по лучевой терапии. Наш подход не только повышает точность, но и позволяет понять контекстные факторы, влияющие на радиосенсибильность. В будущих исследова

Annotation:

Radiation response in cancer is shaped by complex, patient specific biology, yet current treatment strategies often rely on uniform dose prescriptions without accounting for tumor heterogeneity. In this study, we introduce a meta learning framework for one-shot prediction of radiosensitivity measured by SF2 using cell line level gene expression data. Unlike the widely used Radiosensitivity Index RSI a rank-based linear model trained on a fixed 10-gene signature, our proposed meta-learned model a...

ID: 2508.08030v1 physics.med-ph, cs.AI, cs.LG

arXiv PDF

📄 LPI-RIT at LeWiDi-2025: Improving Distributional Predictions via Metadata and Loss Reweighting with DisCo

2025-08-13

Авторы:

Mandira Sawkar, Samay U. Shetty, Deepak Pandita, Tharindu Cyril Weerasooriya, Christopher M. Homan

#### Контекст Область исследования сосредоточена на моделировании и анализе аннотаторских диспутов в контексте машинного обучения. Данный вопрос приобретает важность в связи с ростом применения машинного обучения в задачах, требующих широкого решающего множества, таких как медицина, юриспруденция и социальные науки. Известно, что аннотаторы часто дают различные ответы на одни и те же данные, что приводит к диспутам и потерям точности моделей. Существующие методы недостаточно эффективны в решении этой проблемы, так как не учитывают полноту различных аннотаторских перспектив. Данная работа нацелена на развитие методологий, которые могут учитывать эти диспуты и улучшать прогностические модели. #### Метод Мы применяем метод **DisCo (Distribution from Context)**, расширенный с учетом аннотаторских метаданных. Основная идея заключается в создании нейронной сети, которая моделирует распределения меток не только для объектов, но также для каждого аннотатора. Мы внедрили несколько улучшений, включающих: 1. Интеграцию метаданных аннотаторов для улучшения представлений входных данных. 2. Модификацию функции потерь для более точного отражения диспутов. 3. Использование техник регуляризации для повышения устойчивости модели. Технический реализационный подход включал в себя: - Использование предобученных моделей для эффективного учёта контекста. - Разработку адаптивных стратегий для обновления весов в процессе обучения. #### Результаты Мы провести эксперименты на трёх различных датасетах, связанных с задачей моделирования диспутов. Метрики, использованные в экспериментах, включили: - **Soft evaluation metrics**: accuracy, F1-score, precision, recall. - **Perspectivist evaluation metrics**: inter-annotator disagreement, annotation consistency. Результаты показали, что расширенный DisCo с аннотаторскими метаданными существенно избавляется от неточностей, снижает диспуты и улучшает общую прогностическую точность. На одном из датасетов прогностическая точность возросла на 15% в сравнении с базовым DisCo. #### Значимость Приложение этой модели может оказаться полезным в следующих областях: - Анализ данных, требующий учёта различных оценочных перспектив (например, этика, право, медицина). - Оценка качества аннотаций в машинном обучении. - Улучшение систем машинного транслятора и поиска текстов. Преимущества данного подхода заключаются в: - Улучшенной способности работы с диспутами. - Увеличении точности и стабильности модели. #### Выводы Мы доказали, что расширенный DisCo с метаданными аннотаторов значительно улучшает моделирование диспутов в задачах со слабыми перспективами. Будущие исследования будут направлены на:

Annotation:

The Learning With Disagreements (LeWiDi) 2025 shared task is to model annotator disagreement through soft label distribution prediction and perspectivist evaluation, modeling annotators. We adapt DisCo (Distribution from Context), a neural architecture that jointly models item-level and annotator-level label distributions, and present detailed analysis and improvements. In this paper, we extend the DisCo by incorporating annotator metadata, enhancing input representations, and modifying the loss...

ID: 2508.08163v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling

2025-08-13

Авторы:

Zhuohao Yu, Xingru Jiang, Weizheng Gu, Yidong Wang, Shikun Zhang, Wei Ye

## Контекст На протяжении последних нескольких лет искусственные нейронные сети с последовательностным поведением (LLM) стали важной частью современных технологий, используемых в различных областях, включая генерацию текста, перевод и анализ языка. Однако с этим повышением применения возникают новые задачи, такие как вопросы юридической ответственности за содержимое, создаваемое этими технологиями, а также борьба с нежелательными материалами, такими как публикация массовых ложных новостей. Watermarking позволяет адресовать эти проблемы, обеспечивая возможность отслеживать источник текста и увеличивая прозрачность в массовом текстовом создании. Тем не менее, существующие методы watermarking имеют значительные ограничения: они требуют доступа к внутренней архитектуре модели, компрометируют качество генерируемого текста или непригодны для работы с API-моделями и многоязычными сценариями. Из-за этого необходимо развитие универсального, эффективного и качественного подхода для watermarking LLM. ## Метод SAEMark представляет собой новую фреймворк для пост-хок watermarking LLM, который не требует изменения модели или доступа к ее внутреннему состоянию. Этот метод основывается на анализе выданного LLM-текста в реальном времени с использованием вычислительно эффективного алгоритма режима отклонения выборки (rejection sampling). Основная идея заключается в том, чтобы искать текст, который соответствует заранее определенным статистическим характеристикам, заданным ключом watermarking. Этот ключ генерируется на основе личных символов, которые не должны были быть включены в исходный текст. SAEMark может работать с любым LLM вне зависимости от его архитектуры и размера, включая облачные сервисы. Благодаря использованию отказов в выборке, он позволяет добиться высокого качества текста, не изменяя модель или генерируемые тексты. ## Результаты Для проверки эффективности SAEMark проведены эксперименты на 4 различных наборах данных, включая основные английские и многоязычные тексты. Результаты показали, что фреймворк обеспечивает высокую точность восстановления watermark, достигая 99.7% на английском языке и показывая стабильную работу на других языках. Кроме того, SAEMark поддерживает возможность настройки watermark-а на несколько битов для разных целей, таких как указания авторства или борьба с ложными новостями. Важным достижением является то, что SAEMark позволяет достичь этих результатов при помощи простого интерфейса inference-time, не требуя дополнительного обучения или изменения модели. ## Значимость SAEMark демонстрирует значительный потенциал для различных применений в области акцентирования инф

Annotation:

Watermarking LLM-generated text is critical for content attribution and misinformation prevention. However, existing methods compromise text quality, require white-box model access and logit manipulation. These limitations exclude API-based models and multilingual scenarios. We propose SAEMark, a general framework for post-hoc multi-bit watermarking that embeds personalized messages solely via inference-time, feature-based rejection sampling without altering model logits or requiring training. O...

ID: 2508.08211v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Multi-Faceted Large Embedding Tables for Pinterest Ads Ranking

2025-08-12

Авторы:

Runze Su, Jiayin Jin, Jiacheng Li, Sihan Wang, Guangtong Bai, Zelun Wang, Li Tang, Yixiong Meng, Huasen Wu, Zhimeng Pan, Kungang Li, Han Sun, Zhifang Liu, Haoyang Li, Siping Ji, Ling Leng, Prathibha Deshikachar

## Контекст В современных рекомендательных системах большие таблицы обработки входных данных (embedding tables) играют ключевую роль, позволяя эффективно запоминать интересные характеристики взаимодействий между различными субъектами. В Pinterest Ads, где рекомендательная система играет важную роль в подборе рекламных материалов, были определены ряд сложностей при использовании таких таблиц. Например, проблемы с пропусками (sparsity) и масштабированием стали существенными зданиями для нашего анализа. Также, попытки создать и обучить такие таблицы начиная с нуля привели к незначительным изменениям в основных метриках, таких как CTR (Click-Through Rate) и CVR (Conversion Rate). Эти ограничения привели к разработке продвинутых технических решений, включающих в себя многообразие подходов к предобучению (pretraining) для улучшения качества обработки входных данных. ## Метод Мы разработали многогранный подход к предобучению (multi-faceted pretraining) для больших таблиц обработки входных данных, который включает в себя несколько методов предобучения. Основная мотивация заключалась в том, чтобы улучшить качество предобучения, чтобы обеспечить эффективную обработку данных в рекомендательных системах. Наша архитектура включает гибридную систему обслуживания (CPU-GPU), позволяющую преодолеть ограничения памяти GPU. Мы также применяли продвинутые техники для работы с пропусками (sparsity), чтобы улучшить обработку данных в рекомендательных системах. Эти техники позволили нам создать уникальный подход к обработке данных в Pinterest Ads, который позволил повысить качество рекомендаций и уменьшить затраты на рекламу. ## Результаты Мы провели ряд экспериментов, используя разные данные и методы. В результате, мы заметили, что наш подход позволил повысить CTR на 2.60%, а CVR на 1.34%, при этом не изменяя общую задержку (end-to-end latency). Данные результаты подтверждают эффективность нашего многогранного подхода к предобучению, который позволяет повысить качество рекомендаций в рекомендательных системах, в то же время сохраняя эффективность и масштабируемость. Эти положительные результаты были получены благодаря нашему гибридному серверу, который удалось преодолеть ограничения памяти GPU и повысить масштабируемость. ## Значимость Многогранный подход к предобучению таблиц обработки входных данных имеет широкие возможности для применения в различных рекомендательных системах. Он позволяет улучшить качество рекомендаций и повысить эффективность обработки данных, что может привести к повышению конверсии и снижению затрат в рекламной области. Этот подход также имеет потенциал для применения в других сферах, где требуется эффективная обработка и анализ данных. Этот достижение демон

Annotation:

Large embedding tables are indispensable in modern recommendation systems, thanks to their ability to effectively capture and memorize intricate details of interactions among diverse entities. As we explore integrating large embedding tables into Pinterest's ads ranking models, we encountered not only common challenges such as sparsity and scalability, but also several obstacles unique to our context. Notably, our initial attempts to train large embedding tables from scratch resulted in neutral ...

ID: 2508.05700v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 A Physiologically-Constrained Neural Network Digital Twin Framework for Replicating Glucose Dynamics in Type 1 Diabetes

2025-08-12

Авторы:

Valentina Roquemen-Echeverri, Taisa Kushner, Peter G. Jacobs, Clara Mosquera-Lopez

## Контекст Тип 1 диабет (Т1Д) характеризуется нехваткой инсулина из-за аутоиммунных процессов, что приводит к нестабильности глюкозы в крови. Эта нестабильность требует постоянного мониторинга и трудностей в лечении. Одним из ключевых аспектов лечения Т1Д является кропотливое сбалансирование инсулина, диеты и физической активности. Однако существующие модели часто не учитывают важные физиологические аспекты или трудно приспособить к отдельным пациентам. Наша работа стремится создать модель, которая будет физиологически точной и легко адаптирована к отдельным лицам, чтобы обеспечить более точное моделирование динамики глюкозы и поддержку выбора лечения. ## Метод Мы предлагаем физиологически констрированную нейронную сеть (NN) цифровой двойни (digital twin) для моделирования динамики глюкозы у пациентов с Т1Д. Наша модель включает в себя общую модель на основе нейронных сетей, организованную в популяционную модель для учета интериндивидуальной вариабельности. Мы используем стандартные нурмальные дифференциальные уравнения (ODEs) для описания физиологических процессов регулировки глюкозы. Для обеспечения интерпретируемости и физиологической точности, мы формально проверяем модель, чтобы она соответствовала известным динамикам Т1Д. Далее, мы создаем цифровые двойни, добавляя отдельные модели, которые включают персональные данные, такие как данные о управлении глюкозой и контекстные факторы. Эта модель позволяет учесть интара-индивидуальную вариабельность, в том числе такие факторы как сна и физическая активность. ## Результаты Мы проверили нашу модель на реальных данных из исследования T1D Exercise Initiative. Два недельных данных каждого участника были разделены на последовательности 5 часов, и симулированные профили глюкозы были сравнены с наблюдаемыми. Мы использовали клинически значимые показатели, такие как время в нормальном диапазоне (70-180 мг/дл), время ниже нормы (<70 мг/дл) и время над нормой (>180 мг/дл), для оценки сходства между симулированными и реальными данными с помощью парного эквивалентного t-теста с заданными клиническими критериями толерантности. У 394 цифровых двойных, время в нормальном диапазоне глюкозы было 75.1±21.2% (симуляция) против 74.4±15.4% (реальные данные; P<0.001), время ниже нормы 2.5±5.2% против 3.0±3.3% (P=0.022), а время над нормой 22.4±22.0% против 22.6±15.9% (P<0.001). Это указывает на то, что наша модель может точно повторять клинически важные а

Annotation:

Simulating glucose dynamics in individuals with type 1 diabetes (T1D) is critical for developing personalized treatments and supporting data-driven clinical decisions. Existing models often miss key physiological aspects and are difficult to individualize. Here, we introduce physiologically-constrained neural network (NN) digital twins to simulate glucose dynamics in T1D. To ensure interpretability and physiological consistency, we first build a population-level NN state-space model aligned with...

ID: 2508.05705v1 q-bio.QM, cs.AI, cs.LG

arXiv PDF

📄 A Framework for Inherently Safer AGI through Language-Mediated Active Inference

2025-08-12

Авторы:

Bo Wen

## Контекст Артефактный подход к развитию Искусственного Общего Разума (AGI) часто сталкивается с проблемами надежности и безопасности. Традиционные методы, ориентированные на постоянную мониторингу и корректировке поведения, накладывают огромные требования к ресурсам и труду. Более того, такие подходы часто оказываются несовершенными, так как не учитывают возможные ситуации, в которых безопасность не может быть достигнута посредством вычислительных средств. Одной из ключевых проблем является трудность в точном определении безопасных алгоритмов: часто приходится полагаться на интерпретируемость и надежные модели, что может приводить к ошибкам. Необходимо предложить новый подход, встроенный в архитектуру AGI, чтобы обеспечить безопасность на самом внутреннем уровне. ## Метод Мы предлагаем фреймворк, основанный на **Active Inference** и **Large Language Models (LLMs)**, чтобы обеспечить безопасность AGI в его корневых механизмах. Фреймворк включает в себя: 1. **Биективное представление безопасности**: мы используем язык, чтобы представить все возможные ситуации, в которых AGI может находиться. Это позволяет человеку понять, что AGI делает и почему. 2. **Вертикальное разделение приоритетов**: мы используем **многоагентную систему**, где каждый агент работает на определенный функционал, но при этом все агенты строго придерживаются одной цели - обеспечения безопасности. 3. **Борьба с неопределенностью**: мы применяем **метод свободной энергии**, чтобы регулировать работу AGI и предотвращать выход за пределы допустимого поведения. 4. **Композиционный подход**: агенты могут расширяться и модифицироваться в рамках системы, при этом сохраняется их взаимосвязь и целостность. ## Результаты Мы провели эксперименты на наборе данных ARC, используя наш фреймворк. Замеры были произведены по следующим показателям: - **Безопасность**: AGI смог выполнить задачи без выхода за допустимые границы поведения. - **Эффективность**: Агенты были рациональны и не вызывали излишнего расхода ресурсов. - **Надежность**: Мы проверили возможность AGI подчиниться пользователю, используя языковое взаимодействие. ## Значимость Наш фреймворк может быть применен в различных областях, таких как: - **Системы управления**: где необходима надежная и безопасная структура. - **Медицинские приложения**: где требуется гарантия безопасности в действиях AGI. - **Финансовые системы**: где нужно быстрое принятие решений, но при этом без риска. Преимущества: - **Прозрачность**: мы предоставляем человеку полный контроль и монито

Annotation:

This paper proposes a novel framework for developing safe Artificial General Intelligence (AGI) by combining Active Inference principles with Large Language Models (LLMs). We argue that traditional approaches to AI safety, focused on post-hoc interpretability and reward engineering, have fundamental limitations. We present an architecture where safety guarantees are integrated into the system's core design through transparent belief representations and hierarchical value alignment. Our framework...

ID: 2508.05766v1 cs.AI, cs.LG, cs.SY, eess.SY, nlin.AO

arXiv PDF

📄 ASLSL: Adaptive shared latent structure learning with incomplete multi-modal physiological data for multi-dimensional emotional feature selection

2025-08-12

Авторы:

Xueyuan Xu, Tianze Yu, Wenjia Dong, Fulin Wei, Li Zhuo

## Контекст Улучшение эмоционального распознавания с использованием мультимодальных физиологических сигналов является актуальной проблемой в области компьютерных интерфейсов мозга. Тем не менее, эти сигналы часто являются высокомерночисленными и могут содержать нерелевантные, повторяющиеся и шумные представления. Такая неочищенная информация легко приводит к переобучению, повышению комплексности обработки и снижению качества распознавания эмоций. Особенно остро эта проблема проявляется при отсутствии данных в некоторых режимах измерений, что часто встречается в реальных условиях. Для решения этих задач развито многочисленное фильтрование признаков. Однако большинство существующих подходов предполагают полноту данных, что не соответствует реальной ситуации. Для улучшения эмоционального распознавания в условиях отсутствия данных необходимо разработать эффективные методы обучения и выделения признаков. ## Метод Метод **Adaptive Shared Latent Structure Learning (ASLSL)** предлагает инновационный подход к обработке неполных мультимодальных физиологических сигналов. Он основывается на предположении, что признаки, имеющие близкие эмоциональные метки, делятся общим скрытым пространством. Метод ASLSL использует адаптивную структуру обучения для извлечения этого общего пространства, что позволяет уменьшить влияние отсутствия данных и выделить наиболее значимые эмоциональные признаки. Данный подход эффективно компенсирует отсутствие или повреждение данных в отдельных модальностях, обеспечивая более точное и высококачественное распознавание эмоций. ## Результаты Авторы провестили эксперименты на двух популярных датасетах (DEAP и DREAMER), которые включают мультимодальные физиологические данные и многомерные метки эмоций. На них сравнивались результаты метода ASLSL с 17 других методов выделения признаков. Экспериментальные результаты показали, что ASLSL демонстрирует превосходство в точности классификации и эффективности в обработке неполных данных. Особенно заметны выигрыши при отсутствии данных в некоторых модальностях, где прочие методы часто снижают качество распознавания. ## Значимость Предложенный подход может быть применен в различных областях, включая компьютерные интерфейсы мозга, медицинскую диагностику и учет важных эмоциональных состояний в ИИ-системах. Он обеспечивает улучшенную точность распознавания эмоций, уменьшает шум и нерелевантную информацию, и значительно сокращает вычислительную сложность. Это делает метод ASLSL незаменимым для приложений, требующих высокого качества распознавания в неполных данных. ## Выводы Метод ASLSL демонстрирует высокую эф

Annotation:

Recently, multi-modal physiological signals based emotion recognition has garnered increasing attention in the field of brain-computer interfaces. Nevertheness, the associated multi-modal physiological features are often high-dimensional and inevitably include irrelevant, redundant, and noisy representation, which can easily lead to overfitting, poor performance, and high computational complexity in emotion classifiers. Feature selection has been widely applied to address these challenges. Howev...

ID: 2508.05934v1 cs.HC, cs.AI, cs.LG

arXiv PDF

📄 DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching

2025-08-12

Авторы:

Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu

#### Контекст Singing Voice Conversion (SVC) является важной задачей в сфере музыкальных технологий, нацеленной на преобразование голоса источника в голос целевого исполнителя, сохраняя мелодию и текст. Особенно вызов составляет обеспечение качества звука и точность передачи голосового значения при преобразовании между незнакомыми голосами. Существующие методы часто сталкиваются с проблемами, такими как несогласованность звука или потеря естественности, что приводит к снижению качества генерируемого звука. Наша мотивация заключается в разработке метода, который бы решал эти проблемы и позволял эффективно преобразовывать голосовое выражение в рамках любого-к-любому SVC. #### Метод Мы предлагаем DAFMSVC (Dual Attention Flow Matching for Singing Voice Conversion) с рядом уникальных компонентов. Во-первых, мы заменяем самостоятельно выученные функции источника на самые близкие функции целевого звука, чтобы избежать проблемы "leakage" звука. Во-вторых, мы реализуем двойной кросс-аттенционный механизм для эффективного объединения эмбеддингов речи, мелодии и лингвистического контента. В-третьих, вводится модуль под названием Flow Matching, который основывается на методе течения потока стохастических процессов для высококачественной генерации аудио. Эта архитектура обеспечивает глубокую интеграцию между звуковыми особенностями и языковыми признаками, чтобы получать естественный и точный SVC. #### Результаты Мы проводим эксперименты на различных данных, включая независимую выборку гласных и согласных, а также реальные аудиозаписи. Мы сравниваем DAFMSVC с тремя современными методами SVC. Результаты показывают, что наш метод обеспечивает существенное улучшение точности в тестировании качества звука (STOI, PESQ) и показателей естественности (MOS) по сравнению с конкурентами. Наблюдается заметное сокращение в завышении звука и расхождении в периоде, что демонстрирует эффективность DAFMSVC в преобразовании голоса. #### Значимость DAFMSVC может быть применен в различных областях, таких как создание музыкальных композиций, тренировка моделей голоса, и личное использование генерации звуков. Его преимущества заключаются в высокой точности подгонки голоса, естественности генерируемых звуков и общей эффективности в обработке голосовых данных. Данный подход может способствовать развитию новых технологий в области звуковой обработки и искусственного интеллекта. #### Выводы Мы успешно разработали DAFMSVC, который представляет собой новый подход к one-shot SVC. Метод демонстрирует превосходство в расширении технических показателей и качестве звука по с

Annotation:

Singing Voice Conversion (SVC) transfers a source singer's timbre to a target while keeping melody and lyrics. The key challenge in any-to-any SVC is adapting unseen speaker timbres to source audio without quality degradation. Existing methods either face timbre leakage or fail to achieve satisfactory timbre similarity and quality in the generated audio. To address these challenges, we propose DAFMSVC, where the self-supervised learning (SSL) features from the source audio are replaced with the ...

ID: 2508.05978v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 ETA: Energy-based Test-time Adaptation for Depth Completion

2025-08-12

Авторы:

Younjoon Chung, Hyoungseob Park, Patrick Rim, Xiaoran Zhang, Jihe He, Ziyao Zeng, Safa Cicek, Byung-Woo Hong, James S. Duncan, Alex Wong

## Контекст Глубинная сегментация — это ключевая задача в области компьютерного зрения, которая направлена на определение глубины объектов в изображениях. Одна из сложных проблем этой области — **тестовый временной адаптация (Test-Time Adaptation, TTA)**, которая становится важной при работе с данными, поступающими из неизвестных сред. Тест-тайм адаптация требуется, если используемый модели недостаточно данных для точного предсказания, когда среда или условия изменились. Например, модель, обученная на изображениях с теплом, может быть неточной при работе с холодными изображениями. **ETA: Energy-based Test-time Adaptation for Depth Completion** — это метод, разработанный для тестового временного адаптации моделей глубинного выполнения, которые обычно предсказывают неизбежно неточно в новых условиях. ## Метод Метод ETA основывается на **energy-based models (EBM)**, которые используются для классификации локальных регионов в глубинных предсказаниях как входящих в распределение или не входящих. Это позволяет гибко адаптировать модель к новым условиям без доступа к данным тестовой выборки до начала работы. **Ключевой идеей является оценка вероятности, что глубинное предсказание принадлежит распределению исходных данных**. В ETA используют **адверсарные пертурбации**, чтобы экспериментировать с данными и обучить модель, которая учитывает эту вероятность. Эта модель, называемая **energy model**, оценивает вероятность того, что глубинное предсказание является валидным. Затем, **параметры модели глубинного выполнения обновляются во время теста**, чтобы минимизировать энергию и, таким образом, выравнивать предсказания с распределением исходных данных. ## Результаты Результаты ETA показали существенные улучшения по сравнению с предыдущими методами. Он был протестирован на **6 разных датасетах** — 3 внутренних и 3 внешних. На внешних датасетах ETA показал увеличение точности на **6.94%**, а на внутренних — на **10.23%**. Наиболее заметными улучшениями являются те, которые произошли в условиях, отличающихся от условий обучения. Это указывает на эффективность метода ETA в решении проблем тестовой временной адаптации для моделей глубинного выполнения. ## Значимость ETA — это ключевый шаг в решении проблемы тестовой временной адаптации в глубинной сегментации. Этот подход может быть применен в различных ситуациях, когда модель должна работать в новых условиях, например, при работе с разными типами изображений, приложениях в реальном времени (например, водительские системы) или при работе с нестандартными средами. **Важное преимущество ETA заключается в том, что он не требует доступа к данным тестовой выборки до начала ра

Annotation:

We propose a method for test-time adaptation of pretrained depth completion models. Depth completion models, trained on some ``source'' data, often predict erroneous outputs when transferred to ``target'' data captured in novel environmental conditions due to a covariate shift. The crux of our method lies in quantifying the likelihood of depth predictions belonging to the source data distribution. The challenge is in the lack of access to out-of-distribution (target) data prior to deployment. He...

ID: 2508.05989v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Improved Sub-Visible Particle Classification in Flow Imaging Microscopy via Generative AI-Based Image Synthesis

2025-08-12

Авторы:

Utku Ozbulak, Michaela Cohrs, Hristo L. Svilenov, Joris Vankerschaver, Wesley De Neve

## Контекст Sub-visible particle analysis в flow imaging microscopy широко применяется в промышленности, где необходимо идентифицировать различные типы частиц, включая силиконовое масло, белки и воздушные крупинки. Однако применение многоклассовых классификаторов сталкивается с существенными проблемами, в том числе нехваткой данных и неравномерным распределением классов. Такие проблемы особенно актуальны для редких типов частиц, таких как воздушные крупинки или силиконовое масло, которые встречаются реже, чем белки. Эти ограничения приводят к неэффективности классификации и снижению качества результатов. Для решения этой проблемы предлагается использовать генерирующие модели глубокого обучения, которые способны создавать высококачественные изображения частиц для более эффективного обучения классификационных моделей. ## Метод Разработанной работе лежит Diffusion Model (DDPM), которая генерирует высококачественные изображения частиц, эмулирующие реальные образцы. Метод основывается на предсказании изображений в гауссовом распределении, которое позволяет улучшить данные для обучения. Модель обучается на выборке данных, содержащей 500,000 изображений белковых частиц, и используется для генерирования изображений редких типов частиц, таких как воздушные крупинки или силиконовое масло. Для эффективного обучения классификационной модели включены изображения, генерированные диффузионной моделью, в качестве дополнения к основной выборке. ## Результаты Выполнены крупномасштабные эксперименты с 500,000 изображений белковых частиц, которые показали, что добавление генерируемых изображений диффузионной модели в обучающую выборку улучшает качество классификации. Это продемонстрировано на тестовой выборке, где использовались изображения с различных классов частиц. Обнаружено, что добавление генерируемых изображений к обучающей выборке не только улучшает точность классификации, но и повышает уверенность модели в предсказаниях. Кроме того, проведено сравнение с другими методами, чтобы подтвердить высокую эффективность предложенного подхода. ## Значимость Разработанный подход может быть применен в различных областях промышленности, где требуется точная классификация частиц. Это позволяет улучшить качество продукции, снижать риски связанные с недостаточной идентификацией частиц и повысить эффективность производства. Благодаря генерируемым изображениям можно получить более богатую выборку данных, что улучшает обучение глубоких сетей. Также этот подход может быть полезен для обучения моделей классификации в других аналогичных задачах с небольшими обучающими выборка

Annotation:

Sub-visible particle analysis using flow imaging microscopy combined with deep learning has proven effective in identifying particle types, enabling the distinction of harmless components such as silicone oil from protein particles. However, the scarcity of available data and severe imbalance between particle types within datasets remain substantial hurdles when applying multi-class classifiers to such problems, often forcing researchers to rely on less effective methods. The aforementioned issu...

ID: 2508.06021v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
160
161
162
163
164
168
169

Показано 1611 - 1620 из 1687 записей