📚 Саммари научных статей из arXiv

Найдено 125 результатов по запросу 'cs.LG, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

2025-10-01

Авторы:

Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jun Zhu, Jianfei Chen

#### Контекст В Diffusion Transformer (DiT) моделях, особенно при генерации видео, время обработки внимания (attention latency) является критическим ограничением из-за длинных последовательностей и квадратичной сложности. Это приводит к значительным затратам ресурсов на вычисления. Однако наблюдение, что внимание может быть разделено на две части — с характеристикой высокой и низкой ранга, подсказывает возможность применения специальных стратегий ускорения. Это мотивирует разработку эффективных методов, уменьшающих затраты на вычисления без ущерба для качества. #### Метод Мы предлагаем Sparse-Linear Attention (SLA), метод, который сочетает в себе спарсное и линейное внимание. SLA классифицирует веса внимания на три группы: критические, маргинальные и незначительные. Для критических весов применяется полное внимание (O(N^2)), для маргинальных — уменьшенное (O(N)), а незначительные пропускаются. Мы реализовали персистентную классификацию весов в процессе обучения, что позволяет оптимизировать вычисления. Благодаря интеграции всех этих операций в один GPU-ядро и поддержке обратного прохода, SLA достигает высокой эффективности. Этот подход легко поддается оптимизации в уже обученных моделях с минимальным количеством файн-тюнинга. #### Результаты Мы провели эксперименты на видеогенерации с DiT моделями Wan2.1-1.3B. SLA позволила сократить вычислительные затраты на внимание в 95% при сохранении качества генерации. Это дало значительный ускорение — 13.7x в скорости вычисления внимания и 2.2x в общем времени генерации видео. Наши результаты показывают, что SLA дает значительное ускорение, опережая базовые методы в эффективности. #### Значимость Метод SLA может быть применен в различных областях, где используются Diffusion Transformer модели, таких как видеогенерация, трансляция и музыкальное создание. Он обеспечивает значительное ускорение без ущерба качеству и может быть эффективно интегрирован в существующие рабочие процессы. Это решение не только улучшает производительность, но и позволяет обрабатывать более длинные последовательности, расширяя возможности приложений. #### Выводы Мы представили SLA, новый метод ускорения Diffusion Transformer моделей, который эффективно разделяет внимание на критические, маргинальные и незначительные весы, применяя соответствующие ускорения. Этот подход позволяет значительно уменьшить время вычислений, при этом сохраняя качество генерации. Наше исследование открывает новые пути для будущих исследований в направлении эффективности и ускорения глубоких моделей видеогенерации.

Annotation:

In Diffusion Transformer (DiT) models, particularly for video generation, attention latency is a major bottleneck due to the long sequence length and the quadratic complexity. We find that attention weights can be separated into two parts: a small fraction of large weights with high rank and the remaining weights with very low rank. This naturally suggests applying sparse acceleration to the first part and low-rank acceleration to the second. Based on this finding, we propose SLA (Sparse-Linear ...

ID: 2509.24006v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 GPS-MTM: Capturing Pattern of Normalcy in GPS-Trajectories with self-supervised learning

2025-10-01

Авторы:

Umang Garg, Bowen Zhang, Anantanjit Subrahmanya, Chandrakanth Gudavalli, BS Manjunath

#### Контекст Городские транспортные системы и мобильность человека являются ключевыми компонентами современных городов. Однако моделирование и анализ мобильных данных человека, таких как GPS-траектории, остается сложной задачей. Обычно, эти данные требуют ручного меток или подготовки, что ограничивает масштаб и эффективность. В этом контексте возникает потребность в разработке методов, которые могут автоматически учитывать контекстный смысл и структуру данных без ручного вмешательства. Это требуется для развития более точных моделей для прогнозирования движения, выявления аномалий и других задач в области мобильности. #### Метод GPS-MTM (GPSMasked Trajectory Transformer) представляет собой фундаментальную модель для анализа траекторий, основанную на трансформерах. Она разделяет мобильные данные на две модальности: **статы** (категории точек интереса) и **действия** (переходы между точками). Главной особенностью является использование бидирекционального трансформера с самостоятельным обучением (self-supervised learning). Модель обучается через задачу маскирования: она предсказывает пропущенные значения в обоих модальностях, что позволяет устанавливать семантические связи без посредственного меток. Эта архитектура обеспечивает гибкость и эффективность в обработке больших наборов данных. #### Результаты Модель была протестирована на трех популярных датасетах: Numosim-LA, Urban Anomalies и Geolife. Она показала выдающиеся результаты на задачах **реконструкции траекторий**, **предсказания следующей точки перемещения** и **аномалии в движении**. Особенно выдающимися были показатели в **динамических задачах**, таких как **обратное и прямое динамическое моделирование**, где критически важно учитывать контекст. GPS-MTM показала стабильную превосходность по сравнению с существующими методами, такими как LSTMs и CNNs, в частности, при прогнозировании следующей точки перемещения. #### Значимость GPS-MTM может применяться в различных областях, включая **мобильность человека**, **управление городскими транспортными системами**, **выявление аномалий** и **задачи безопасности**. Ее мощь заключается в том, что она не требует ручной подготовки данных и может автоматически выделять значимые корреляции. Благодаря своему универсальному подходу, GPS-MTM открывает пути к новым возможностям в **репрезентационном обучении** и **мобильных системах**. #### Выводы GPS-MTM устанавливает новые стандарты в области моделирования траекторий, используя самостоятельное обучение и бидирекциональную модель трансформера. Это демонстрирует потенциал фундаментальных моделей для мобильных данных и их важност

Annotation:

Foundation models have driven remarkable progress in text, vision, and video understanding, and are now poised to unlock similar breakthroughs in trajectory modeling. We introduce the GPSMasked Trajectory Transformer (GPS-MTM), a foundation model for large-scale mobility data that captures patterns of normalcy in human movement. Unlike prior approaches that flatten trajectories into coordinate streams, GPS-MTM decomposes mobility into two complementary modalities: states (point-of-interest categ...

ID: 2509.24031v1 cs.LG, cs.AI, cs.CV, cs.MA

arXiv PDF

📄 AQUAIR: A High-Resolution Indoor Environmental Quality Dataset for Smart Aquaculture Monitoring

2025-10-01

Авторы:

Youssef Sabiri, Walid Houmaidi, Ouail El Maadi, Yousra Chtouki

## Контекст Область мониторинга внутренней среды в акклемерационных системах рыбного выращивания является ключевой для обеспечения стабильности процессов и минимизации воздействия человека на животных. Несмотря на возможности современных технологий, существуют значительные проблемы, связанные с недостатком открытых данных о внутренней среде, которые необходимы для развития алгоритмов предсказания и обнаружения аномалий. Эти проблемы влияют на развитие систем автоматизированного управления и оптимизации внутренней среды. Для адресации этой проблемы необходимо создание открытого доступа к богатым данным, позволяющим создавать и тестировать различные модели. ## Метод Для заполнения пробела в открытых данных разработана AQUAIR, открытая публичная база данных, содержащая данные о внутренней среде вокруг интерьера рыбного бассейна. Эта база собирается с помощью Awair HOME-монитора, который регистрирует данные каждые пять минут в течение 76 дней. В базу входят 6 параметров внутренней среды: температура, влажность, уровень углекислого газа, общий объем летучих органических веществ, PM2.5 и PM10. Данные проходят геолокационное размещение, калибровку и стандартные проверки, чтобы обеспечить высокую точность. База данных полностью публична и доступна на ресурсе Figshare. ## Результаты База данных AQUAIR содержит более 23 000 записей с регулярным временным интервалом. Анализ показал стабильность уровня показателей, за исключением пиков во время кормления, что обеспечивает широкие возможности для моделирования и предсказания. Данные полностью интегрируются в системы машинного обучения, предоставляя возможность разработки моделей для прогнозирования и обнаружения аномалий в условиях рециркуляции воды в рыбных бассейнах. ## Значимость База данных AQUAIR широко может применяться в области мониторинга и анализа внутренней среды в акклемерационных системах. Она позволяет создавать модели для прогнозирования изменений в условиях воздуха, оптимизации кормления именно во время увеличения загрязнения воздуха. Благодаря открытому доступу, она становится источником для развития новых моделей и инноваций в области интеллектуального управления и прогнозирования внутренней среды в акклемерационных системах. ## Выводы База данных AQUAIR является ключевым ресурсом для развития интеллектуальных систем мониторинга и управления в рыбном выращивании. Она демонстрирует возможности создания богатых данных и их применения в моделях машинного обучения для прогнозирования и анализа. Будущие исследования будут ориентированы на расширение инструмента

Annotation:

Smart aquaculture systems depend on rich environmental data streams to protect fish welfare, optimize feeding, and reduce energy use. Yet public datasets that describe the air surrounding indoor tanks remain scarce, limiting the development of forecasting and anomaly-detection tools that couple head-space conditions with water-quality dynamics. We therefore introduce AQUAIR, an open-access public dataset that logs six Indoor Environmental Quality (IEQ) variables--air temperature, relative humidi...

ID: 2509.24069v1 cs.LG, cs.AI, cs.CV, stat.AP, 62M10, 68T45, 62P35, 92C40, 65C20, 60G35, 92C42, 92C35, 93E10, I.2.6; C.2.4; H.3.4; I.2.4; H.3.5; C.2.4; C.3; I.4.8; I.5.1; J.3; K.6.1; H.2.8

arXiv PDF

📄 A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity

2025-10-01

Авторы:

Giordano Cicchetti, Eleonora Grassucci, Danilo Comminiello

## Контекст Multimodal learning является ключевым инструментом в развитии искусственного интеллекта, позволяя ему объединять данные из различных модальностей (например, текста, звука и видео) для построения более глубокого представления. Несмотря на прогресс в этой области, текущие модели страдают от существенных ограничений, которые не позволяют полностью реализовать потенциал многомодальных систем. Одна из основных проблем заключается в том, что многие методы не обеспечивают достаточной индикации того, что все модальности достаточно эффективно выравнены. Это может привести к несоответствию модальностей и, как следствие, к неэффективности модели в задачах, где необходимо использовать всю доступную информацию. В данной работе мы предлагаем TRIANGLE, новую меру сходства, которая делает возможным более точное выравнивание модальностей за счет вычисления в пространстве выше-мерного соответствия векторов модальностей. ## Метод TRIANGLE (TRI-modAl Neural Geometric LEarning) представляет собой новую метрику, которая вычисляется непосредственно в пространстве выше-мерного соответствия, основанного на векторах модальностей. Метод основывается на квадрате треугольника, который позволяет значительно улучшить выравнивание модальностей без необходимости дополнительных слоёв фузирования или вычисления парных сходств. Одним из ключевых аспектов является то, что TRIANGLE может быть легко интегрирован в контрастные потери, заменяя традиционный подход с использованием косинусного сходства. Это позволило существенно повысить эффективность модели, особенно при многомодальных задачах, таких как видео-текст и аудио-видео классификация. ## Результаты Проведенные эксперименты показали, что TRIANGLE значительно повышает производительность моделей многомодального обучения. Например, в задачах видео-текст и аудио-видео классификации, TRIANGLE показал улучшение показателей Recall@1 до 9 баллов в сравнении с традиционными методами, основанными на косинусной мере сходства. Это достигается благодаря более точному выравниванию модальностей и интерпретируемой природе меры сходства. Использование TRIANGLE показало себя эффективно в различных датасетах, демонстрируя значительный прогресс в области многомодального обучения. ## Значимость Предложенный подход имеет широкие области применения в многомодальном обучении и может быть использован в задачах, где необходимо выравнивание трёх или более модальностей. TRIANGLE предлагает преимущества в том числе большей точности, интерпретируемости результатов и гибкости реализации. Это может иметь значительное влияние на развитие систем, использующих многомодальные данные, таких как системы распоз

Annotation:

Multimodal learning plays a pivotal role in advancing artificial intelligence systems by incorporating information from multiple modalities to build a more comprehensive representation. Despite its importance, current state-of-the-art models still suffer from severe limitations that prevent the successful development of a fully multimodal model. Such methods may not provide indicators that all the involved modalities are effectively aligned. As a result, some modalities may not be aligned, under...

ID: 2509.24734v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 DistillKac: Few-Step Image Generation via Damped Wave Equations

2025-09-30

Авторы:

Weiqiao Han, Chenlin Meng, Christopher D. Manning, Stefano Ermon

#### Контекст Современные технологии генерации изображений становятся все более важной частью развития искусственного интеллекта. Одна из самых популярных областей в этой сфере — генерация изображений с использованием моделей распределений. Однако существуют проблемы, связанные с высокой ресурсоемкостью, неэффективностью и нестабильностью этих моделей. Эти проблемы в свою очередь ограничивают их приложениями в реальном мире. Мотивацией для разработки новых методов генерации изображений является необходимость создания более эффективных, стабильных и скорострельных алгоритмов, которые могут генерировать высококачественные изображения с меньшим потреблением ресурсов. #### Метод Метод, представленный в статье, основан на применении динамики, основанной на уравнении дампенного волнового типа и его стохастической представлении, известной как динамика Кака. Этот подход эмулирует транспорт вероятностного масса с финитной скоростью, что в свою очередь позволяет избежать некоторых проблем, связанных с традиционными моделями распределений. Разработка также включает в себя инновационное применение руководящих принципов в пространстве скорости, которое обеспечивает глобальную балансировку и гарантирует качество генерируемых изображений. Для обучения модели используется модель "учитель-ученик", где ученик стремится приблизиться к замороженной модели учителя. Этот подход позволяет достичь высокого качества с меньшим количеством итераций. #### Результаты В ходе экспериментов, проведенных на различных данных, показано, что DistillKac обеспечивает высокое качество генерируемых изображений с минимальным количеством итераций. Это достигается благодаря уникальному подходу, основанному на уравнениях Кака, который обеспечивает глобальную стабильность и эффективность. В частности, модель была применена к различным изображению в различных условиях, и в результате она продемонстрировала высокую скорость и качество генерации. Также было продемонстрировано, что DistillKac значительно улучшает стабильность процесса генерации изображений. #### Значимость Разработанный подход имеет широкое применение в различных областях, включая компьютерное зрение, генеративные модели и глубокое обучение. Одним из основных преимуществ является улучшение эффективности генерации изображений, что позволяет сократить время обучения и потребление ресурсов. Благодаря стабильности и качеству генерируемых изображений, DistillKac может быть применен в различных сферах, таких как разработка реального времени, игровые технологии и даже в область приложений в медицине. Этот подход

Annotation:

We present DistillKac, a fast image generator that uses the damped wave equation and its stochastic Kac representation to move probability mass at finite speed. In contrast to diffusion models whose reverse time velocities can become stiff and implicitly allow unbounded propagation speed, Kac dynamics enforce finite speed transport and yield globally bounded kinetic energy. Building on this structure, we introduce classifier-free guidance in velocity space that preserves square integrability und...

ID: 2509.21513v1 cs.LG, cs.AI, cs.CV, math.PR, stat.ML

arXiv PDF

📄 Activation Function Design Sustains Plasticity in Continual Learning

2025-09-30

Авторы:

Lute Lillo, Nick Cheney

## Контекст В области нейронных сетей, активационные функции (activation functions) играют ключевую роль в обучении моделей, определяя как их точность, так и их поverьи при обучении. В стандартных сценариях обучения, связанных с идентично распределенными данными (I.I.D), различия между различными активационными функциями часто становятся менее значительными, особенно когда модель имеет достаточную емкость и оптимизационные параметры аккуратно настроены. Однако в сценариях непрерывного обучения (continual learning), ситуация меняется. Здесь модели не только страдают от катастрофического забвения (catastrophic forgetting), но и могут лишиться способности к адаптации (loss of plasticity) при изменении обучающих данных. Такая проблема весьма серьезна: без потенциала к адаптации модели не могут справиться с новыми задачами или динамическими условиями. Несмотря на то, что существуют стратегии, такие как переобучение, эластичные архитектуры и интеллектуальные методы, роль активационных функций в поддержании пластичности (plasticity) при этом остается нереконструированной. В данном исследовании авторы показывают, что выбор активационной функции является главным, архитектурно-независимым фактором, позволяющим поддерживать и улучшать пластичность моделей в сценариях непрерывного обучения. Они предлагают два новых типа нелинейных функций (Smooth-Leaky и Randomized Smooth-Leaky), которые могут быть легко интегрированы в существующие архитектуры без существенных изменений. Эти функции были проверены в двух разных сценариях: супервизированном класс-инкрементальном обучении (supervised class-incremental benchmarks) и обучении с подкреплением (reinforcement learning) с использованием MuJoCo-окружений, имитирующих нестационарные ситуации. ## Метод Исследование основывается на свойственном анализе формы нелинейности (negative-branch shape) и поведения при сглаживании (saturation behavior). Авторы предлагают две новые активационные функции, которые являются расширениями традиционной ReLU-функции: 1. **Smooth-Leaky**: Эта функция представляет собой нелинейную функцию, которая обладает мягкой, гладкой формой, но при этом сохраняет некоторую асимметрию, позволяющую добиться лучшего баланса между сжатием и адаптацией. 2. **Randomized Smooth-Leaky**: Эта версия включает случайные параметры, чтобы дать модели больше степени независимости от конкретных инициализаций и улучшить устойчивость к изменениям. В экспериментах, авторы использовали два типа бенчмарков: - **Class-incremental benchmarks**: где модель должна учиться на новых классах без забвения старых. - **MuJoCo environments**: экосистемы симуляции, где система должна адаптироваться к нестационарным изменениям

Annotation:

In independent, identically distributed (i.i.d.) training regimes, activation functions have been benchmarked extensively, and their differences often shrink once model size and optimization are tuned. In continual learning, however, the picture is different: beyond catastrophic forgetting, models can progressively lose the ability to adapt (referred to as loss of plasticity) and the role of the non-linearity in this failure mode remains underexplored. We show that activation choice is a primary...

ID: 2509.22562v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Bispectral OT: Dataset Comparison using Symmetry-Aware Optimal Transport

2025-09-26

Авторы:

Annabel Ma, Kaiying Hou, David Alvarez-Melis, Melanie Weber

## Контекст Техника оптимального транспорта (Optimal Transport, OT) широко используется в машинном обучении, графике и визуализации для установления однозначных сопоставлений между двумя распределениями или наборами данных. Однако в наборах данных, характеризующихся симметриями (например, визуальные симметрии в изображениях), подходы, основанные только на парных метриках геометрии, могут пропускать важные структуры данных. Такие проблемы часто приводят к потере контекста и неточности в сопоставлениях. Мы предлагаем Bispectral Optimal Transport (Bispectral OT) — расширение классической методологии OT, которое учитывает симметрии и позволяет получить более точные и смысловые сопоставления. ## Метод Bispectral Optimal Transport использует биспектру — групповую Фурье-инварианту — для представления элементов в наборе данных. В отличие от стандартного OT, который оперирует парами координат, Bispectral OT учитывает не только локальные отношения, но и глобальные структуры данных. Эта техника сохраняет все сигнальные свойства, вычитая только симметричные колебания. Мы реализуем Bispectral OT в качестве расширения задачи оптимального транспорта, используя новый класс мер расстояний, основанных на биспектре. Это позволяет произвести более точные сопоставления, которые сохраняют классовую структуру данных, независимо от визуальных симметрий. ## Результаты Мы проверили Bispectral OT на нескольких задачах синтетических и реальных данных, включая изображения, подвергнутые различным визуальным симметриям. Наши эксперименты показали, что метод Bispectral OT превосходит классический OT в задачах классового сохранения и однозначности сопоставлений. Например, при изменении изображений в холсте симметричной преобразовательной группы, Bispectral OT позволяет учитывать основные свойства классов (например, геометрические формы), даже когда они преобразуются симметрически. Эти результаты подтверждают, что Bispectral OT не только улучшает точность, но и позволяет определять более подробные и контекстуально значимые сопоставления. ## Значимость Вычислительный метод Bispectral OT может быть применен в сложных сценариях, где важна сохраняемость классов и удаление ненужных симметричных колебаний. Он применим в графике, где необходимо удалить ненужные визуальные симметрии при анализе изображений. Более того, Bispectral OT может быть использован в обработке естественных языков, где симметрии в семантической структуре могут затруднять понимание. Этот подход открывает новые пути для повышения точности и смысловой нагрузки в задачах машинного обучения, затрагивающих высокомерный анализ распределений. ## Выводы Наше и

Annotation:

Optimal transport (OT) is a widely used technique in machine learning, graphics, and vision that aligns two distributions or datasets using their relative geometry. In symmetry-rich settings, however, OT alignments based solely on pairwise geometric distances between raw features can ignore the intrinsic coherence structure of the data. We introduce Bispectral Optimal Transport, a symmetry-aware extension of discrete OT that compares elements using their representation using the bispectrum, a gr...

ID: 2509.20678v1 cs.LG, cs.AI, cs.CV, stat.ML

arXiv PDF

📄 CaTS-Bench: Can Language Models Describe Numeric Time Series?

2025-09-26

Авторы:

Luca Zhou, Pratham Yashwante, Marshall Fisher, Alessio Sampieri, Zihao Zhou, Fabio Galasso, Rose Yu

## Контекст Задача описания числовых временных рядов в естественном языке, или time series captioning, требует значительных навыков логического и численного рассуждения, интерпретации трендов и контекстуального понимания. Несмотря на растущий интерес к этой области, существующие бенчмарки часто ограничиваются синтетическими данными или очень простыми формулировками, не учитывая метаданные и визуальные представления. Это приводит к ограниченности исследовательских возможностей в этой области. Чтобы закрыть этот gap, мы предлагаем CaTS-Bench — первый большой, настоящий набор данных для контекст-аутентичного time series captioning, который включает в себя метаданные и визуальные представления. ## Метод Бенчмарк CaTS-Bench построен на основе 11 различных настоящих наборов данных, перефрейминг которых в качестве задач captioning и Q&A. Он содержит примерно 465k сэмплов для обучения и 105k для тестирования. Каждый сэмпл включает в себя сегмент числового временного ряда, контекстные метаданные, линейку-график, а также саму лексикальную структуру, полученную с помощью LLMs. Чтобы обеспечить высокое качество ссылочных лексик, мы разработали многоуровневую систему проверки — начиная от проверки фактичности и контроля фактических ошибок, заканчивая анализами отличия от человекоподобного стиля и разнообразия. Для повышения актуальности, мы также предоставили относительно маленький набор 579 тестовых сэмплов, подвергнутых ручной редактированию, чтобы гарантировать точность и натуральность. ## Результаты Мы проводили эксперименты с помощью текущих лучших visual language models (VLMs) и измерили их результаты на разных подмножествах CaTS-Bench. Эксперименты подтвердили важность контекста и визуальных свойств для точного captioning. Мы также проанализировали слабые места моделей, такие как предсказание неточных трендов и несогласованность в контекстной интерпретации. Новые подходы к оценке, такие как метрики различности и точности, позволяют измерить ограничения текущих моделей, что позволяет выявлять ключевые направления для дальнейших разработок. ## Значимость CaTS-Bench предлагает широкое применение в различных областях, таких как финансы, здравоохранение, искусственный интеллект и анализ данных. Он открывает возможности для более точного и контекстуально обоснованного описания временных рядов, что может повысить качество решений в сложных задачах, таких как прогнозирование рыночных движений или раннее выявление патологий. Мы также выделяем потенциал CaTS-Bench в качестве базы для будущих исследований по взаимодействию текстовых и визуальных моделей, что может привести к новым технологи

Annotation:

Time series captioning, the task of describing numeric time series in natural language, requires numerical reasoning, trend interpretation, and contextual understanding. Existing benchmarks, however, often rely on synthetic data or overly simplistic captions, and typically neglect metadata and visual representations. To close this gap, we introduce CaTS-Bench, the first large-scale, real-world benchmark for Context-aware Time Series captioning. CaTS-Bench is derived from 11 diverse datasets refr...

ID: 2509.20823v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Video models are zero-shot learners and reasoners

2025-09-26

Авторы:

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos

## Контекст В статье рассматривается роль видеомоделей в области общего понимания визуального мира. Несмотря на то, что Large Language Models (LLMs) стали синонимом универсального понимания языка, видеомодели оставались ограниченными в своих применениях. В последнее время видеомодели начали предпринимать похожие шаги к универсальному пониманию, воспринимая и моделируя визуальные данные. Однако их потенциал в области целенаправленного моделирования визуальных задач до сих пор остается неясным. Наша модель, Veo 3, демонстрирует замечательные возможности в решении задач, которым не было явной подготовки. Этот поиск показывает, что видеомодели могут стать генеральными моделями для визуального понимания, аналогично тому, как LLMs стали генеральными моделями для языкового понимания. ## Метод Мы использовали модель Veo 3, тренированную на данных видео, чтобы протестировать ее возможности в решении различных задач визуального понимания. Наша методика включала использование тестов, в которых модель должна была решать задачи, для которых она не была явно обучена. Тестов включали визуальное разбиение объектов, определение рельефа, редактирование изображений, понимание физических свойств, распознавание аффордансов объектов, моделирование использования инструментов и визуальную резолюцию. Мы сравнивали результаты с другими моделями и экспериментами, чтобы оценить эффективность Veo 3 в этих задачах. ## Результаты Модель Veo 3 демонстрировала возможности решения широкого спектра задач по визуальному пониманию, которые не были явно заложены в ее обучение. Например, она смогла определить объекты, определить рельеф и физические свойства, а также решать задачи, такие как мазе и симметрия. Особенно заметны явления нулевого запуска (zero-shot learning), когда модель смогла решать задачи, не имея предварительной информации об их решении. Наши результаты также показывают, что Veo 3 имеет потенциал для моделирования визуальных задач в целом, что делает её эффективной в различных визуальных исследованиях. ## Значимость Наши результаты показывают, что видеомодели, использующие глубокое обучение на видеоданных, могут быть применены во многих областях визуального понимания, основываясь на их возможности решать задачи, не будучи явно обученными к ним. Это демонстрирует рост видеомоделей как крепких, генеральных моделей для визуального понимания. Помимо этого, Veo 3 демонстрирует возможность видеомоделей для решения задач, которые требуют визуальной разборки и моделирования. Это может быть применено в различных областях, таких как поиск изображений, анализ медиа,

Annotation:

The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understa...

ID: 2509.20328v1 cs.LG, cs.AI, cs.CV, cs.RO

arXiv PDF

📄 CoUn: Empowering Machine Unlearning via Contrastive Learning

2025-09-24

Авторы:

Yasser H. Khalil, Mehdi Setayesh, Hongliang Li

#### Контекст Современные методы машинного обучения часто основываются на больших объемах данных, которые могут включать конфиденциальные или нежелательные данные. В ситуациях, когда пользователи или организации хотят удалить эти данные из модели без влияния на остальные данные, возникает потребность в методах машинного "учения" (machine unlearning, MU). Несмотря на то что существуют существующие подходы, такие как манипуляции с метками или изменения весов модели, они часто инэффективны или слишком затратны. Наша мотивация заключается в разработке более эффективного и универсального подхода к MU, который мог бы надежно удалять данные без ущерба для остальных. #### Метод Мы предлагаем CoUn, новый подход к MU, который основывается на идее, что модель, обученная с нуля на основе только "сохраняемых" данных, может точно классифицировать "удаляемые" данные. Это достигается благодаря использованию контрастного обучения (contrastive learning, CL) и супервизированного обучения. Метод CoUn (1) использует контрастное обучение, чтобы приближать семантическое подклассификацию объектов "данных для удаления" к тем, которые остаются в модели, и (2) применяет супервизированное обучение, чтобы сохранить структуру данных, которые остаются в модели. Это позволяет CoUn надежно удалять данные без искажения остальных данных. #### Результаты Мы проверили CoUn на нескольких датасетах, включая CIFAR-10 и CIFAR-100, используя модели, такие как ResNet и DenseNet. Наши эксперименты показали, что CoUn превосходит существующие подходы в силу его эффективности в MU. Например, CoUn позволил достичь до 30% улучшения в сравнении с базовым подходом, при этом сохраняя качество классификации для оставшихся данных. Мы также проверили, насколько эффективно можно интегрировать наш CL-модуль в существующие MU-методы, показав, что это может повысить их производительность. #### Значимость Помимо того, что CoUn эффективен, он также обладает широкими потенциальными применениями в областях, где важно соблюдать конфиденциальность данных, таких как здравоохранение, финансы и безопасность. Наш подход обеспечивает более надежный и менее затратный способ удаления данных, чем существующие решения. Кроме того, повышенная эффективность CoUn в MU может повлиять на развитие новых методов шифрования и безопасности в машинном обучении. #### Выводы Мы представили CoUn, новый подход к MU, который основывается на контрастном обучении и супервизированном обучении. Мы показали, что наш подход превосходит существующие методы, при этом сохраняя качество классификации для "удерживаемых" данных. Будущие исследования будут сфокусированы на расширении этого подхода

Annotation:

Machine unlearning (MU) aims to remove the influence of specific "forget" data from a trained model while preserving its knowledge of the remaining "retain" data. Existing MU methods based on label manipulation or model weight perturbations often achieve limited unlearning effectiveness. To address this, we introduce CoUn, a novel MU framework inspired by the observation that a model retrained from scratch using only retain data classifies forget data based on their semantic similarity to the re...

ID: 2509.16391v1 cs.LG, cs.AI, cs.CV

arXiv PDF

1
2
7
8
9
10
11
12
13

Показано 81 - 90 из 125 записей