📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reliable verifiable data has become a key driver of capability gains in
modern language models, enabling stable reinforcement learning with verifiable
rewards and effective distillation that transfers competence across math,
coding, and agentic tasks. Yet constructing generalizable synthetic verifiable
data remains difficult due to hallucination-prone generation, and weak or
trivial verification artifacts that fail to separate strong from weak
solutions. Existing approaches often rely on task-sp...
Авторы:
Carlo Bosio, Matteo Guarrera, Alberto Sangiovanni-Vincentelli, Mark W. Mueller
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language models (LLMs) have shown promise as generators of symbolic
control policies, producing interpretable program-like representations through
iterative search. However, these models are not capable of separating the
functional structure of a policy from the numerical values it is parametrized
by, thus making the search process slow and inefficient. We propose a hybrid
approach that decouples structural synthesis from parameter optimization by
introducing an additional optimization lay...
Авторы:
Hossein Enshaei, Pariya Jebreili, Sayed Mahmoud Sakahei
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Electroencephalogram (EEG) artifact detection in real-world settings faces
significant challenges such as computational inefficiency in multi-channel
methods, poor robustness to simultaneous noise, and trade-offs between accuracy
and complexity in deep learning models. We propose a hybrid spectral-temporal
framework for real-time detection and classification of ocular (EOG), muscular
(EMG), and white noise artifacts in single-channel EEG. This method, in
contrast to other approaches, combines ti...
Авторы:
Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen
#### Контекст
Fine-tuning предварительно обученных больших языковых моделей (LLM) для задач предсказания сложности и текста является ключевым элементом в процессе развертывания AI. Методы Машинного Обучения (ML), такие как Реинфорсмент Лёрнинг (RL), играли значительную роль в развитии современных LLMs. Однако, методы Эволюционных Эстиматоров (ES), которые ранее продемонстрировали свою эффективность в тюнинге моделей с миллионами параметров, были забыты в свете сложности их применения к более крупным моделям.
#### Метод
Мы предлагаем подход, основанный на Эволюционных Эстиматорах, для тюнинга полного набора параметров больших языковых моделей. Наша методология включает в себя разработку эффективных стратегий обновления для эвристики генетического алгоритма, а также использование многоуровневого улучшения для точного тюнинга модели. Мы использовали многоцелевую оптимизацию для минимизации потерь и улучшения качества предсказаний в разных сценариях.
#### Результаты
Мы провели эксперименты с двумя LLMs размером 1,3 млрд параметров и показали, что наш подход превосходит RL в нескольких аспектах. Мы использовали огромные данные, включая параллельные вычисления на 128 V100 GPU, и получили результаты, показавшие, что наш подход не только эффективней, но и менее уязвим к проблемам, таким как "reward hacking".
#### Значимость
Наш подход открывает новые возможности в области fine-tuning LLMs, идет дальше RL, и демонстрирует преимущества в области эффективности, устойчивости и применения к более крупным моделям. Помимо этого, этот подход может быть применен в различных областях, включая синтез текста, генерацию кода и трансляцию языков. Мы предоставили наш код для дальнейшего исследования и реализации.
#### Выводы
Мы успешно расширили границы методов тюнинга LLMs, показав, что Эволюционные Эстиматоры могут эффективно работать с моделями на миллиарды параметров. Наше исследование открывает новые инсайты в области AI и может стать основополагающим для будущих исследований в этой области.
Annotation:
Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is
a critical step in the AI deployment pipeline. Reinforcement learning (RL) is
arguably the most prominent fine-tuning method, contributing to the birth of
many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once
showed comparable performance to RL on models with a few million parameters,
was neglected due to the pessimistic perception of its scalability to larger
models. In this work, we report th...
Авторы:
Yingshi Chen
## Контекст
Одна из ключевых задач в области машинного обучения является обучение больших языковых моделей (LLM). Несмотря на их высокую точность и эффективность, эти модели требуют огромных ресурсов для обучения и инференса, что ограничивает их развертывание в устройствах с ограниченными ресурсами. Таким образом, существует необходимость в разработке методов, позволяющих сократить размер моделей без существенного ухудшения их качества. В этой статье предлагается фреймворк, основанный на эволюционной оптимизации, для эффективного обучения таких моделей.
## Метод
Фреймворк предлагает разбить модель на несколько экземпляров (экспертов), которые имеют одинаковую архитектуру, но разные веса. На каждом шаге обучения обучается только один эксперт (sub-network). После классического обучения с помощью AdamW, веса экспертов модифицируются с помощью эволюционных операторов: скрещивания, мутации и оптимизации частичного селектора (PSO). Эти операторы позволяют текущему эксперту "унаследовать" знания лучшего эксперта, что ускоряет уменьшение потерь. Наконец, только веса лучшего эксперта сохраняются, что приводит к значительному сокращению размера модели.
## Результаты
Эксперименты показали, что лучший эксперт показывает почти одинаковую точность, что и полная модель. Это существенно сокращает размер модели для инференса. Благодаря тому, что в каждом шаге обучения обучается только один эксперт, процесс требует меньшего объема памяти и обеспечивает более высокую пропускную способность. Таким образом, пропускная способность может увеличиваться на более чем десять раз по сравнению с необходимым для обучения полной модели.
## Значимость
Предложенный подход может быть применен в области машинного обучения для создания эффективных моделей, подходящих для развертывания на устройствах с ограниченными ресурсами, таких как edge computing или мобильные устройства. Основные преимущества заключаются в сокращении размера моделей, повышении пропускной способности и сохранении высокой точности. Это открывает новые возможности для развития AI-решений в различных секторах, таких как мобильные приложения, IoT и медицина.
## Выводы
Предложенный эволюционный фреймворк для обучения языковых моделей демонстрирует перспективу сокращения размера моделей и увеличения пропускной способности без потери точности. Будущие исследования будут сконцентрированы на улучшении эволюционных операторов, оптимизации процесса скрещивания и динамическому выбору экспертов в процессе обучения.
Annotation:
This paper presents an evolutionary framework for the training of large
language models(LLM). The models are divided into several
experts(sub-networks), which have the same structure but different parameter
values. Only one expert is trained at each step. After the classical AdamW
optimization, some evolutionary operators(crossover, PSO, and mutation) act on
the tensor weights between the current expert and the best expert. So current
expert would learn the experience of best expert. The directi...
Авторы:
Santosh Patapati, Trisanth Srinivasan
## Контекст
В многозадачном обучении (multi-task learning) существуют ситуации, когда цели разных задач противоречат друг другу, что приводит к взаимому мешанию градиентов (gradient interference). Такое взаимодействие замедляет сходимость и ухудшает последствия обучения. Несмотря на значительные улучшения в многозадачном обучении, эффективные методы управления такими конфликтами остаются неисследоваными. Это приводит к предложению новых подходов, которые могут улучшить обучение, устранив проблему градиентного мешания.
## Метод
Задача раскрашивания графа (graph coloring) представляет поток градиентов в виде взвешенного графа. Затем, метод использует жадный алгоритм раскраски графа, чтобы разделить задачи на группы, где градиенты будут совместимы. Этот алгоритм работает в реальном времени, пересчитывая раскраску при изменении взаимосвязей задач. В ходе обучения задачи в пределах одной группы (цвета) будут обновляться совместимо, чтобы не помешать друг другу. Это позволяет увеличить эффективность оптимизатора многозадачного обучения без дополнительных настроек.
## Результаты
Результаты получены на шести разных датасетах, показавшими, что новый подход постоянно превосходит современные оптимизаторы многозадачного обучения. Эксперименты подтвердили, что использование раскраски графа с учетом интерференции градиентов способствует более стабильному и эффективному обучению. Обнаружено, что метод позволяет повысить точность и уменьшить число итераций обучения.
## Значимость
Метод может применяться в любых ситуациях многозадачного обучения, где существуют конфликты между задачами. Он привносит выгоду в процессе обучения, уменьшая конфликт градиентов и повышая эффективность. Это делает его полезным для различных приложений, в том числе в области здравоохранения, автоматизации и машинного обучения.
## Выводы
Предложенный метод показал свою эффективность в решении конфликтов градиентов в многозадачном обучении. Он открывает путь к дальнейшим исследованиям в области улучшения методов обучения с несколькими задачами, которые могут значительно улучшить результаты в задачах, где задачи конфликтуют. Будущие исследования могут сосредоточиться на улучшении алгоритмов раскраски графа и их применении в различных контекстах.
Annotation:
When different objectives conflict with each other in multi-task learning,
gradients begin to interfere and slow convergence, thereby reducing the final
model's performance. To address this, we introduce a scheduler that computes
gradient interference, constructs an interference graph, and then applies
greedy graph-coloring to partition tasks into groups that align well with each
other. At each training step, only one group (color class) of tasks are
activated. The grouping partition is constant...
📄 Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems
2025-09-23Авторы:
Saeed Amizadeh, Sara Abdali, Yinheng Li, Kazuhito Koishida
## Контекст
В последние годы трансформеры и их механизм внимания стали одной из фундаментальных составляющих искусственного интеллекта. Оригинально разработанные для обработки текстовых данных, они быстро нашли применение в обработке изображений, видео, графов и других типов сигналов с разными геометриями. Однако широкое применение трансформеров к задачам, где данные представлены на разных уровнях детализации или из разных многомодальных источников, сталкивается с рядом проблем. Наиболее сложным показалось включение в модели естественного иерархического порядка данных и многомодальности. Эти проблемы часто решаются с помощью ад-хук оптимизаций, которые не всегда могут быть легко применены к похожим задачам. В данной работе мы принимаем другой подход, основываясь на формализации и математической модели, чтобы сделать вклад в общее понимание и решения таких проблем.
## Метод
Мы предлагаем универсальный математический фреймворк для представления данных с множественными модальностями и уровнями детализации. Этот фреймворк основывается на принципе минимизации энтропии, что позволяет выразить внимание в трансформере с точки зрения оптимального распределения ресурсов. Мы также предложили эффективный алгоритм на основе динамического программирования для вычисления такого внимания. Далее мы интегрируем наш метод с трансформерами, обеспечивая способность обучать модели с многоуровневым вниманием с нуля, а также модифицировать уже готовые модели, добавляя в них иерархические свойства.
## Результаты
Мы провели эксперименты на различных задачах, включая обработку текста, изображений и видео. Наши результаты показали, что иерархическое внимание не только демонстрирует высокую точность, но и эффективно работает при работе с многомодальными и многоуровневыми данными. Мы также проверили, как наш метод может быть использован для модификации уже обученных трансформеров, добавляя им новые индикутивные предрассудки, а также улучшая их работу на новых задачах.
## Значимость
Наш подход может быть применен в различных областях, таких как обработка естественного языка, анализ изображений, видео и других сигналов. Он обеспечивает более точную обработку многомодальных данных и улучшает производительность трансформеров в сложных задачах. Мы увидели, что наш метод может стать инструментом для улучшения трансформеров в многомодальных и многоуровневых задачах, что может привести к более эффективным решениям в сферах, где данные имеют различные геометрии и сложности.
## Выводы
Мы представили новую математическую модель для представления многомо
Annotation:
Transformers and their attention mechanism have been revolutionary in the
field of Machine Learning. While originally proposed for the language data,
they quickly found their way to the image, video, graph, etc. data modalities
with various signal geometries. Despite this versatility, generalizing the
attention mechanism to scenarios where data is presented at different scales
from potentially different modalities is not straightforward. The attempts to
incorporate hierarchy and multi-modality w...
📄 Instance Generation for Meta-Black-Box Optimization through Latent Space Reverse Engineering
2025-09-23Авторы:
Chen Wang, Zeyuan Ma, Zhiguang Cao, Yue-Jiao Gong
## Контекст
Meta-Black-Box Optimization (MetaBBO) является перспективным подходом к автоматизации проектирования оптимизационных алгоритмов. Он использует силу общего применения мета-обучения для конструирования политик алгоритмов, которые могут адаптироваться к неизвестным задачам оптимизации без ручного вмешательства. Однако существующие MetaBBO-системы обучаются на ограниченных и недостаточно разнообразных наборах задач, что может привести к переобучению и низкой общей способности. Это ограничение становится критичным в ситуациях, когда MetaBBO применяется к реальным-мировым проблемам, где задачи часто отличаются в размерности, структуре и особенностях. Главная мотивация этой работы заключается в создании метода для сгенерирования разнообразных и представительных задач для обучения MetaBBO.
## Метод
Метод, предложенный в данной работе, называется **Latent Space Reverse Engineering (LSRE)**. Он состоит из двух основных этапов: автокодирования и обратного инженеринга. В первой фазе автокодирователь, основанный на автоэнкодере, создает нейронную сеть, которая преобразует высокомерные признаки задачи в двумерное пространство латентного представления. Это пространство латентного представления структурируется с помощью универсальных шаблонов, чтобы обеспечить сгенерированные задачи представительность и разнообразие. Во второй фазе, генетический алгоритм используется для поиска формул, которые минимизируют расстояние L2 между латентными представлениями и функциями задач. Этот процесс создает новую выборку задач, которая называется **Diverse-BBO**, и предназначена для обучения MetaBBO.
## Результаты
Для оценки эффективности **Diverse-BBO**, созданного при помощи LSRE, проводились ряд экспериментов. Метрики производительности опирались на метрики обобщающей способности MetaBBO на синтетических и реальных задачах оптимизации. Результаты показали, что MetaBBO, обученные на Diverse-BBO, превосходят по обобщающей способности точность и устойчивость в сравнении с MetaBBO, обученными на стандартных наборах задач (например, CoCo-BBOB). Эти результаты подтверждают, что Diverse-BBO дает MetaBBO более сильное понимание различных черт задач оптимизации. Дополнительные аблационные исследования показали, что разнообразие в задачах и их представительность являются ключевыми факторами для улучшения производительности MetaBBO.
## Значимость
**Diverse-BBO**, созданный через LSRE, может применяться в различных областях, где необходимо адаптироваться к разнообразным задачам оптимизации, такие как робототехника, системы рекомендаций, инженерное проектирование. Он предлагает значительные преимущества по сравнению с существующими методами: расши
Annotation:
To relieve intensive human-expertise required to design optimization
algorithms, recent Meta-Black-Box Optimization (MetaBBO) researches leverage
generalization strength of meta-learning to train neural network-based
algorithm design policies over a predefined training problem set, which
automates the adaptability of the low-level optimizers on unseen problem
instances. Currently, a common training problem set choice in existing MetaBBOs
is well-known benchmark suites CoCo-BBOB. Although such ch...
Авторы:
Jialin Wu, Shreya Saha, Yiqing Bo, Meenakshi Khosla
## Контекст
Репрезентационные сходством метрики являются основными инструментами в науке о разуме и искусственном интеллекте. Они позволяют оценивать схожесть представлений внутри и между моделями, обнаруживая структуры и отношения между данными. Однако не существует систематических сравнений их дискриминативной силы по отношению к разным семействам моделей. Это сделало необходимым развитие методологии, позволяющей оценивать, насколько эффективно разные метрики отличают модели по их внутренним представлениям. Такой подход не только будет способствовать пониманию особенностей моделей, но и поможет выбору правильной метрики для конкретной задачи, когда сравниваются модели разных архитектур или обученные разными способами.
## Метод
Мы предложили фреймворк, основанный на мере дискриминативности, которая измеряется с помощью трех разных критериев. В качестве базовых метрик использовались RSA (Representational Similarity Analysis), линейная прогностичность, метод Прокурстеса и мягкое сравнение. Мы применили эти метрики для сравнения моделей с различными архитектурами, такими как CNN (Convolutional Neural Networks), Vision Transformers, Swin Transformers и ConvNeXt. Также мы рассмотрели различные режимы обучения, включая супервизированное и самостоятельное обучение. Для оценки дискриминативности мы использовали три методы: d-prime (из сигнальной детекции), коэффициенты шейлов и ROC-AUC. Это позволило нам проанализировать, насколько эффективно разные метрики отличают модели в зависимости от их архитектуры и обучения.
## Результаты
Мы провели подробные эксперименты, сравнив дискриминативность различных метрик на выборке данных, представляющей собой представления моделей с разными архитектурами и режимами обучения. Мы отметили, что дискриминативность растет с увеличением строгости внутренних ограничений, которые накладываются метриками. Например, метод "мягкое сравнение" показал самую высокую дискриминативность среди маппинг-метрик, а за ним следовали Procrustes и линейная прогностичность. Также мы отметили, что некоторые метрики, не использующие явное сравнение внутренних представлений (например, RSA), также демонстрировали высокую дискриминативность, хотя с точки зрения структуры они работают по-другому.
## Значимость
Наши результаты имеют практическое значение для нескольких областей. В первую очередь, они помогают выбирать наиболее подходящую метрику для сравнения моделей и мозга, что важно для исследований в области глубокого обучения и мозговой динамики. Также, наш фреймворк позволяет выявлять слабые места в метриках, что может привести к развитию более эффективных методов. Э
Annotation:
Representational similarity metrics are fundamental tools in neuroscience and
AI, yet we lack systematic comparisons of their discriminative power across
model families. We introduce a quantitative framework to evaluate
representational similarity measures based on their ability to separate model
families-across architectures (CNNs, Vision Transformers, Swin Transformers,
ConvNeXt) and training regimes (supervised vs. self-supervised). Using three
complementary separability measures-dprime from ...
Авторы:
Rio Akizuki, Yuya Kudo, Nozomu Yoshinari, Yoichi Hirose, Toshiyuki Nishimoto, Kento Uchida, Shinichi Shirakawa
## Контекст
Моделирование интеллектуальных систем является ключевым направлением в развитии искусственного интеллекта. Одна из актуальных задач — объединение способностей нескольких моделей в единую мощную модель. Несмотря на потенциальные выгоды, этот процесс затрудняется двумя основными проблемами. Во-первых, многие существующие техники объединения моделей включают в себя гиперпараметры, которые оказывают существенное влияние на качество результатов. Во-вторых, оптимизация этих гиперпараметров требует больших вычислительных ресурсов, особенно при работе с тяжёлыми языковыми моделями (LLM). Для решения этих проблем необходимо разработать эффективные методы оптимизации гиперпараметров, чтобы повысить эффективность и снизить стоимость исследований в этой области.
## Метод
Мы предлагаем систему суррогатных бенчмарков для оптимизации гиперпараметров объединения моделей. Методология основывается на сборе данных и разработке моделей предсказания. Два определённых пространства поиска (search spaces) содержат различные комбинации гиперпараметров, а данные для них собираются на основе результатов испытаний моделей. Эти данные используются для обучения суррогатной модели, которая может предсказывать качество результатов объединения моделей на основе выбранных гиперпараметров. Это позволяет эмулировать работу оптимизационных алгоритмов с минимальными вычислительными затратами.
## Результаты
Наши суррогатные бенчмарки продемонстрировали высокую точность в предсказании качества результатов объединения моделей. Мы провели эксперименты с разными оптимизационными алгоритмами, используя наши модели для эмуляции их работы. Эксперименты показали, что суррогатные модели эффективно описывают зависимость между гиперпараметрами и качеством объединения. Кроме того, наши результаты позволяют сравнивать различные алгоритмы по их эффективности и экономичности, не требуя исполнения настоящих оптимизационных процессов.
## Значимость
Наш подход открывает новые возможности для развития технологий объединения моделей. Он позволяет экономить вычислительные ресурсы и сократить время разработки над новыми оптимизационными методами. Бенчмарки могут применяться в разработке новых моделей, в анализе выполнения оптимизационных алгоритмов и в сравнительных исследованиях. Этот подход также имеет потенциал для распространения на другие задачи в области машинного обучения, где требуется эффективное оптимизационное решение.
## Выводы
Мы разработали эффективные суррогатные бенчмарки для оптимизации гиперпараметров моделей объединения. Наши результаты подтверж
Annotation:
Model merging techniques aim to integrate the abilities of multiple models
into a single model. Most model merging techniques have hyperparameters, and
their setting affects the performance of the merged model. Because several
existing works show that tuning hyperparameters in model merging can enhance
the merging outcome, developing hyperparameter optimization algorithms for
model merging is a promising direction. However, its optimization process is
computationally expensive, particularly in m...
Показано 11 -
20
из 25 записей