📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Timo Stoll, Chendi Qian, Ben Finkelshtein, Ali Parviz, Darius Weber, Fabrizio Frasca, Hadar Shavit, Antoine Siraudin, Arman Mielke, Marie Anastacio, Erik Müller, Maya Bechler-Speicher, Michael Bronstein, Mikhail Galkin, Holger Hoos, Mathias Niepert, Bryan Perozzi, Jan Tönshoff, Christopher Morris

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Machine learning on graphs has recently achieved impressive progress in various domains, including molecular property prediction and chip design. However, benchmarking practices remain fragmented, often relying on narrow, task-specific datasets and inconsistent evaluation protocols, which hampers reproducibility and broader progress. To address this, we introduce GraphBench, a comprehensive benchmarking suite that spans diverse domains and prediction tasks, including node-level, edge-level, grap...
ID: 2512.04475v1 cs.LG, cs.AI, cs.NE, stat.ML
Авторы:

Santosh Patapati, Trisanth Srinivasan

## Контекст В многозадачном обучении (multi-task learning) существуют ситуации, когда цели разных задач противоречат друг другу, что приводит к взаимому мешанию градиентов (gradient interference). Такое взаимодействие замедляет сходимость и ухудшает последствия обучения. Несмотря на значительные улучшения в многозадачном обучении, эффективные методы управления такими конфликтами остаются неисследоваными. Это приводит к предложению новых подходов, которые могут улучшить обучение, устранив проблему градиентного мешания. ## Метод Задача раскрашивания графа (graph coloring) представляет поток градиентов в виде взвешенного графа. Затем, метод использует жадный алгоритм раскраски графа, чтобы разделить задачи на группы, где градиенты будут совместимы. Этот алгоритм работает в реальном времени, пересчитывая раскраску при изменении взаимосвязей задач. В ходе обучения задачи в пределах одной группы (цвета) будут обновляться совместимо, чтобы не помешать друг другу. Это позволяет увеличить эффективность оптимизатора многозадачного обучения без дополнительных настроек. ## Результаты Результаты получены на шести разных датасетах, показавшими, что новый подход постоянно превосходит современные оптимизаторы многозадачного обучения. Эксперименты подтвердили, что использование раскраски графа с учетом интерференции градиентов способствует более стабильному и эффективному обучению. Обнаружено, что метод позволяет повысить точность и уменьшить число итераций обучения. ## Значимость Метод может применяться в любых ситуациях многозадачного обучения, где существуют конфликты между задачами. Он привносит выгоду в процессе обучения, уменьшая конфликт градиентов и повышая эффективность. Это делает его полезным для различных приложений, в том числе в области здравоохранения, автоматизации и машинного обучения. ## Выводы Предложенный метод показал свою эффективность в решении конфликтов градиентов в многозадачном обучении. Он открывает путь к дальнейшим исследованиям в области улучшения методов обучения с несколькими задачами, которые могут значительно улучшить результаты в задачах, где задачи конфликтуют. Будущие исследования могут сосредоточиться на улучшении алгоритмов раскраски графа и их применении в различных контекстах.
Annotation:
When different objectives conflict with each other in multi-task learning, gradients begin to interfere and slow convergence, thereby reducing the final model's performance. To address this, we introduce a scheduler that computes gradient interference, constructs an interference graph, and then applies greedy graph-coloring to partition tasks into groups that align well with each other. At each training step, only one group (color class) of tasks are activated. The grouping partition is constant...
ID: 2509.16959v1 cs.LG, cs.AI, cs.NE, stat.ML
Авторы:

Saeed Amizadeh, Sara Abdali, Yinheng Li, Kazuhito Koishida

## Контекст В последние годы трансформеры и их механизм внимания стали одной из фундаментальных составляющих искусственного интеллекта. Оригинально разработанные для обработки текстовых данных, они быстро нашли применение в обработке изображений, видео, графов и других типов сигналов с разными геометриями. Однако широкое применение трансформеров к задачам, где данные представлены на разных уровнях детализации или из разных многомодальных источников, сталкивается с рядом проблем. Наиболее сложным показалось включение в модели естественного иерархического порядка данных и многомодальности. Эти проблемы часто решаются с помощью ад-хук оптимизаций, которые не всегда могут быть легко применены к похожим задачам. В данной работе мы принимаем другой подход, основываясь на формализации и математической модели, чтобы сделать вклад в общее понимание и решения таких проблем. ## Метод Мы предлагаем универсальный математический фреймворк для представления данных с множественными модальностями и уровнями детализации. Этот фреймворк основывается на принципе минимизации энтропии, что позволяет выразить внимание в трансформере с точки зрения оптимального распределения ресурсов. Мы также предложили эффективный алгоритм на основе динамического программирования для вычисления такого внимания. Далее мы интегрируем наш метод с трансформерами, обеспечивая способность обучать модели с многоуровневым вниманием с нуля, а также модифицировать уже готовые модели, добавляя в них иерархические свойства. ## Результаты Мы провели эксперименты на различных задачах, включая обработку текста, изображений и видео. Наши результаты показали, что иерархическое внимание не только демонстрирует высокую точность, но и эффективно работает при работе с многомодальными и многоуровневыми данными. Мы также проверили, как наш метод может быть использован для модификации уже обученных трансформеров, добавляя им новые индикутивные предрассудки, а также улучшая их работу на новых задачах. ## Значимость Наш подход может быть применен в различных областях, таких как обработка естественного языка, анализ изображений, видео и других сигналов. Он обеспечивает более точную обработку многомодальных данных и улучшает производительность трансформеров в сложных задачах. Мы увидели, что наш метод может стать инструментом для улучшения трансформеров в многомодальных и многоуровневых задачах, что может привести к более эффективным решениям в сферах, где данные имеют различные геометрии и сложности. ## Выводы Мы представили новую математическую модель для представления многомо
Annotation:
Transformers and their attention mechanism have been revolutionary in the field of Machine Learning. While originally proposed for the language data, they quickly found their way to the image, video, graph, etc. data modalities with various signal geometries. Despite this versatility, generalizing the attention mechanism to scenarios where data is presented at different scales from potentially different modalities is not straightforward. The attempts to incorporate hierarchy and multi-modality w...
ID: 2509.15448v1 cs.LG, cs.AI, cs.NE, stat.ML