📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

2025-10-23

Авторы:

He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reliable verifiable data has become a key driver of capability gains in modern language models, enabling stable reinforcement learning with verifiable rewards and effective distillation that transfers competence across math, coding, and agentic tasks. Yet constructing generalizable synthetic verifiable data remains difficult due to hallucination-prone generation, and weak or trivial verification artifacts that fail to separate strong from weak solutions. Existing approaches often rely on task-sp...

ID: 2510.17928v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 Combining Large Language Models and Gradient-Free Optimization for Automatic Control Policy Synthesis

2025-10-04

Авторы:

Carlo Bosio, Matteo Guarrera, Alberto Sangiovanni-Vincentelli, Mark W. Mueller

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language models (LLMs) have shown promise as generators of symbolic control policies, producing interpretable program-like representations through iterative search. However, these models are not capable of separating the functional structure of a policy from the numerical values it is parametrized by, thus making the search process slow and inefficient. We propose a hybrid approach that decouples structural synthesis from parameter optimization by introducing an additional optimization lay...

ID: 2510.00373v1 cs.LG, cs.AI, cs.NE, cs.SY, eess.SY

arXiv PDF

📄 Real-time Noise Detection and Classification in Single-Channel EEG: A Lightweight Machine Learning Approach for EMG, White Noise, and EOG Artifacts

2025-10-02

Авторы:

Hossein Enshaei, Pariya Jebreili, Sayed Mahmoud Sakahei

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Electroencephalogram (EEG) artifact detection in real-world settings faces significant challenges such as computational inefficiency in multi-channel methods, poor robustness to simultaneous noise, and trade-offs between accuracy and complexity in deep learning models. We propose a hybrid spectral-temporal framework for real-time detection and classification of ocular (EOG), muscular (EMG), and white noise artifacts in single-channel EEG. This method, in contrast to other approaches, combines ti...

ID: 2509.26058v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

2025-10-01

Авторы:

Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen

#### Контекст Fine-tuning предварительно обученных больших языковых моделей (LLM) для задач предсказания сложности и текста является ключевым элементом в процессе развертывания AI. Методы Машинного Обучения (ML), такие как Реинфорсмент Лёрнинг (RL), играли значительную роль в развитии современных LLMs. Однако, методы Эволюционных Эстиматоров (ES), которые ранее продемонстрировали свою эффективность в тюнинге моделей с миллионами параметров, были забыты в свете сложности их применения к более крупным моделям. #### Метод Мы предлагаем подход, основанный на Эволюционных Эстиматорах, для тюнинга полного набора параметров больших языковых моделей. Наша методология включает в себя разработку эффективных стратегий обновления для эвристики генетического алгоритма, а также использование многоуровневого улучшения для точного тюнинга модели. Мы использовали многоцелевую оптимизацию для минимизации потерь и улучшения качества предсказаний в разных сценариях. #### Результаты Мы провели эксперименты с двумя LLMs размером 1,3 млрд параметров и показали, что наш подход превосходит RL в нескольких аспектах. Мы использовали огромные данные, включая параллельные вычисления на 128 V100 GPU, и получили результаты, показавшие, что наш подход не только эффективней, но и менее уязвим к проблемам, таким как "reward hacking". #### Значимость Наш подход открывает новые возможности в области fine-tuning LLMs, идет дальше RL, и демонстрирует преимущества в области эффективности, устойчивости и применения к более крупным моделям. Помимо этого, этот подход может быть применен в различных областях, включая синтез текста, генерацию кода и трансляцию языков. Мы предоставили наш код для дальнейшего исследования и реализации. #### Выводы Мы успешно расширили границы методов тюнинга LLMs, показав, что Эволюционные Эстиматоры могут эффективно работать с моделями на миллиарды параметров. Наше исследование открывает новые инсайты в области AI и может стать основополагающим для будущих исследований в этой области.

Annotation:

Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is a critical step in the AI deployment pipeline. Reinforcement learning (RL) is arguably the most prominent fine-tuning method, contributing to the birth of many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once showed comparable performance to RL on models with a few million parameters, was neglected due to the pessimistic perception of its scalability to larger models. In this work, we report th...

ID: 2509.24372v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 EOE: Evolutionary Optimization of Experts for Training Language Models

2025-10-01

Авторы:

Yingshi Chen

## Контекст Одна из ключевых задач в области машинного обучения является обучение больших языковых моделей (LLM). Несмотря на их высокую точность и эффективность, эти модели требуют огромных ресурсов для обучения и инференса, что ограничивает их развертывание в устройствах с ограниченными ресурсами. Таким образом, существует необходимость в разработке методов, позволяющих сократить размер моделей без существенного ухудшения их качества. В этой статье предлагается фреймворк, основанный на эволюционной оптимизации, для эффективного обучения таких моделей. ## Метод Фреймворк предлагает разбить модель на несколько экземпляров (экспертов), которые имеют одинаковую архитектуру, но разные веса. На каждом шаге обучения обучается только один эксперт (sub-network). После классического обучения с помощью AdamW, веса экспертов модифицируются с помощью эволюционных операторов: скрещивания, мутации и оптимизации частичного селектора (PSO). Эти операторы позволяют текущему эксперту "унаследовать" знания лучшего эксперта, что ускоряет уменьшение потерь. Наконец, только веса лучшего эксперта сохраняются, что приводит к значительному сокращению размера модели. ## Результаты Эксперименты показали, что лучший эксперт показывает почти одинаковую точность, что и полная модель. Это существенно сокращает размер модели для инференса. Благодаря тому, что в каждом шаге обучения обучается только один эксперт, процесс требует меньшего объема памяти и обеспечивает более высокую пропускную способность. Таким образом, пропускная способность может увеличиваться на более чем десять раз по сравнению с необходимым для обучения полной модели. ## Значимость Предложенный подход может быть применен в области машинного обучения для создания эффективных моделей, подходящих для развертывания на устройствах с ограниченными ресурсами, таких как edge computing или мобильные устройства. Основные преимущества заключаются в сокращении размера моделей, повышении пропускной способности и сохранении высокой точности. Это открывает новые возможности для развития AI-решений в различных секторах, таких как мобильные приложения, IoT и медицина. ## Выводы Предложенный эволюционный фреймворк для обучения языковых моделей демонстрирует перспективу сокращения размера моделей и увеличения пропускной способности без потери точности. Будущие исследования будут сконцентрированы на улучшении эволюционных операторов, оптимизации процесса скрещивания и динамическому выбору экспертов в процессе обучения.

Annotation:

This paper presents an evolutionary framework for the training of large language models(LLM). The models are divided into several experts(sub-networks), which have the same structure but different parameter values. Only one expert is trained at each step. After the classical AdamW optimization, some evolutionary operators(crossover, PSO, and mutation) act on the tensor weights between the current expert and the best expert. So current expert would learn the experience of best expert. The directi...

ID: 2509.24436v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 Gradient Interference-Aware Graph Coloring for Multitask Learning

2025-09-24

Авторы:

Santosh Patapati, Trisanth Srinivasan

## Контекст В многозадачном обучении (multi-task learning) существуют ситуации, когда цели разных задач противоречат друг другу, что приводит к взаимому мешанию градиентов (gradient interference). Такое взаимодействие замедляет сходимость и ухудшает последствия обучения. Несмотря на значительные улучшения в многозадачном обучении, эффективные методы управления такими конфликтами остаются неисследоваными. Это приводит к предложению новых подходов, которые могут улучшить обучение, устранив проблему градиентного мешания. ## Метод Задача раскрашивания графа (graph coloring) представляет поток градиентов в виде взвешенного графа. Затем, метод использует жадный алгоритм раскраски графа, чтобы разделить задачи на группы, где градиенты будут совместимы. Этот алгоритм работает в реальном времени, пересчитывая раскраску при изменении взаимосвязей задач. В ходе обучения задачи в пределах одной группы (цвета) будут обновляться совместимо, чтобы не помешать друг другу. Это позволяет увеличить эффективность оптимизатора многозадачного обучения без дополнительных настроек. ## Результаты Результаты получены на шести разных датасетах, показавшими, что новый подход постоянно превосходит современные оптимизаторы многозадачного обучения. Эксперименты подтвердили, что использование раскраски графа с учетом интерференции градиентов способствует более стабильному и эффективному обучению. Обнаружено, что метод позволяет повысить точность и уменьшить число итераций обучения. ## Значимость Метод может применяться в любых ситуациях многозадачного обучения, где существуют конфликты между задачами. Он привносит выгоду в процессе обучения, уменьшая конфликт градиентов и повышая эффективность. Это делает его полезным для различных приложений, в том числе в области здравоохранения, автоматизации и машинного обучения. ## Выводы Предложенный метод показал свою эффективность в решении конфликтов градиентов в многозадачном обучении. Он открывает путь к дальнейшим исследованиям в области улучшения методов обучения с несколькими задачами, которые могут значительно улучшить результаты в задачах, где задачи конфликтуют. Будущие исследования могут сосредоточиться на улучшении алгоритмов раскраски графа и их применении в различных контекстах.

Annotation:

When different objectives conflict with each other in multi-task learning, gradients begin to interfere and slow convergence, thereby reducing the final model's performance. To address this, we introduce a scheduler that computes gradient interference, constructs an interference graph, and then applies greedy graph-coloring to partition tasks into groups that align well with each other. At each training step, only one group (color class) of tasks are activated. The grouping partition is constant...

ID: 2509.16959v1 cs.LG, cs.AI, cs.NE, stat.ML

arXiv PDF

📄 Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems

2025-09-23

Авторы:

Saeed Amizadeh, Sara Abdali, Yinheng Li, Kazuhito Koishida

## Контекст В последние годы трансформеры и их механизм внимания стали одной из фундаментальных составляющих искусственного интеллекта. Оригинально разработанные для обработки текстовых данных, они быстро нашли применение в обработке изображений, видео, графов и других типов сигналов с разными геометриями. Однако широкое применение трансформеров к задачам, где данные представлены на разных уровнях детализации или из разных многомодальных источников, сталкивается с рядом проблем. Наиболее сложным показалось включение в модели естественного иерархического порядка данных и многомодальности. Эти проблемы часто решаются с помощью ад-хук оптимизаций, которые не всегда могут быть легко применены к похожим задачам. В данной работе мы принимаем другой подход, основываясь на формализации и математической модели, чтобы сделать вклад в общее понимание и решения таких проблем. ## Метод Мы предлагаем универсальный математический фреймворк для представления данных с множественными модальностями и уровнями детализации. Этот фреймворк основывается на принципе минимизации энтропии, что позволяет выразить внимание в трансформере с точки зрения оптимального распределения ресурсов. Мы также предложили эффективный алгоритм на основе динамического программирования для вычисления такого внимания. Далее мы интегрируем наш метод с трансформерами, обеспечивая способность обучать модели с многоуровневым вниманием с нуля, а также модифицировать уже готовые модели, добавляя в них иерархические свойства. ## Результаты Мы провели эксперименты на различных задачах, включая обработку текста, изображений и видео. Наши результаты показали, что иерархическое внимание не только демонстрирует высокую точность, но и эффективно работает при работе с многомодальными и многоуровневыми данными. Мы также проверили, как наш метод может быть использован для модификации уже обученных трансформеров, добавляя им новые индикутивные предрассудки, а также улучшая их работу на новых задачах. ## Значимость Наш подход может быть применен в различных областях, таких как обработка естественного языка, анализ изображений, видео и других сигналов. Он обеспечивает более точную обработку многомодальных данных и улучшает производительность трансформеров в сложных задачах. Мы увидели, что наш метод может стать инструментом для улучшения трансформеров в многомодальных и многоуровневых задачах, что может привести к более эффективным решениям в сферах, где данные имеют различные геометрии и сложности. ## Выводы Мы представили новую математическую модель для представления многомо

Annotation:

Transformers and their attention mechanism have been revolutionary in the field of Machine Learning. While originally proposed for the language data, they quickly found their way to the image, video, graph, etc. data modalities with various signal geometries. Despite this versatility, generalizing the attention mechanism to scenarios where data is presented at different scales from potentially different modalities is not straightforward. The attempts to incorporate hierarchy and multi-modality w...

ID: 2509.15448v1 cs.LG, cs.AI, cs.NE, stat.ML

arXiv PDF

📄 Instance Generation for Meta-Black-Box Optimization through Latent Space Reverse Engineering

2025-09-23

Авторы:

Chen Wang, Zeyuan Ma, Zhiguang Cao, Yue-Jiao Gong

## Контекст Meta-Black-Box Optimization (MetaBBO) является перспективным подходом к автоматизации проектирования оптимизационных алгоритмов. Он использует силу общего применения мета-обучения для конструирования политик алгоритмов, которые могут адаптироваться к неизвестным задачам оптимизации без ручного вмешательства. Однако существующие MetaBBO-системы обучаются на ограниченных и недостаточно разнообразных наборах задач, что может привести к переобучению и низкой общей способности. Это ограничение становится критичным в ситуациях, когда MetaBBO применяется к реальным-мировым проблемам, где задачи часто отличаются в размерности, структуре и особенностях. Главная мотивация этой работы заключается в создании метода для сгенерирования разнообразных и представительных задач для обучения MetaBBO. ## Метод Метод, предложенный в данной работе, называется **Latent Space Reverse Engineering (LSRE)**. Он состоит из двух основных этапов: автокодирования и обратного инженеринга. В первой фазе автокодирователь, основанный на автоэнкодере, создает нейронную сеть, которая преобразует высокомерные признаки задачи в двумерное пространство латентного представления. Это пространство латентного представления структурируется с помощью универсальных шаблонов, чтобы обеспечить сгенерированные задачи представительность и разнообразие. Во второй фазе, генетический алгоритм используется для поиска формул, которые минимизируют расстояние L2 между латентными представлениями и функциями задач. Этот процесс создает новую выборку задач, которая называется **Diverse-BBO**, и предназначена для обучения MetaBBO. ## Результаты Для оценки эффективности **Diverse-BBO**, созданного при помощи LSRE, проводились ряд экспериментов. Метрики производительности опирались на метрики обобщающей способности MetaBBO на синтетических и реальных задачах оптимизации. Результаты показали, что MetaBBO, обученные на Diverse-BBO, превосходят по обобщающей способности точность и устойчивость в сравнении с MetaBBO, обученными на стандартных наборах задач (например, CoCo-BBOB). Эти результаты подтверждают, что Diverse-BBO дает MetaBBO более сильное понимание различных черт задач оптимизации. Дополнительные аблационные исследования показали, что разнообразие в задачах и их представительность являются ключевыми факторами для улучшения производительности MetaBBO. ## Значимость **Diverse-BBO**, созданный через LSRE, может применяться в различных областях, где необходимо адаптироваться к разнообразным задачам оптимизации, такие как робототехника, системы рекомендаций, инженерное проектирование. Он предлагает значительные преимущества по сравнению с существующими методами: расши

Annotation:

To relieve intensive human-expertise required to design optimization algorithms, recent Meta-Black-Box Optimization (MetaBBO) researches leverage generalization strength of meta-learning to train neural network-based algorithm design policies over a predefined training problem set, which automates the adaptability of the low-level optimizers on unseen problem instances. Currently, a common training problem set choice in existing MetaBBOs is well-known benchmark suites CoCo-BBOB. Although such ch...

ID: 2509.15810v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 Measuring the Measures: Discriminative Capacity of Representational Similarity Metrics Across Model Families

2025-09-09

Авторы:

Jialin Wu, Shreya Saha, Yiqing Bo, Meenakshi Khosla

## Контекст Репрезентационные сходством метрики являются основными инструментами в науке о разуме и искусственном интеллекте. Они позволяют оценивать схожесть представлений внутри и между моделями, обнаруживая структуры и отношения между данными. Однако не существует систематических сравнений их дискриминативной силы по отношению к разным семействам моделей. Это сделало необходимым развитие методологии, позволяющей оценивать, насколько эффективно разные метрики отличают модели по их внутренним представлениям. Такой подход не только будет способствовать пониманию особенностей моделей, но и поможет выбору правильной метрики для конкретной задачи, когда сравниваются модели разных архитектур или обученные разными способами. ## Метод Мы предложили фреймворк, основанный на мере дискриминативности, которая измеряется с помощью трех разных критериев. В качестве базовых метрик использовались RSA (Representational Similarity Analysis), линейная прогностичность, метод Прокурстеса и мягкое сравнение. Мы применили эти метрики для сравнения моделей с различными архитектурами, такими как CNN (Convolutional Neural Networks), Vision Transformers, Swin Transformers и ConvNeXt. Также мы рассмотрели различные режимы обучения, включая супервизированное и самостоятельное обучение. Для оценки дискриминативности мы использовали три методы: d-prime (из сигнальной детекции), коэффициенты шейлов и ROC-AUC. Это позволило нам проанализировать, насколько эффективно разные метрики отличают модели в зависимости от их архитектуры и обучения. ## Результаты Мы провели подробные эксперименты, сравнив дискриминативность различных метрик на выборке данных, представляющей собой представления моделей с разными архитектурами и режимами обучения. Мы отметили, что дискриминативность растет с увеличением строгости внутренних ограничений, которые накладываются метриками. Например, метод "мягкое сравнение" показал самую высокую дискриминативность среди маппинг-метрик, а за ним следовали Procrustes и линейная прогностичность. Также мы отметили, что некоторые метрики, не использующие явное сравнение внутренних представлений (например, RSA), также демонстрировали высокую дискриминативность, хотя с точки зрения структуры они работают по-другому. ## Значимость Наши результаты имеют практическое значение для нескольких областей. В первую очередь, они помогают выбирать наиболее подходящую метрику для сравнения моделей и мозга, что важно для исследований в области глубокого обучения и мозговой динамики. Также, наш фреймворк позволяет выявлять слабые места в метриках, что может привести к развитию более эффективных методов. Э

Annotation:

Representational similarity metrics are fundamental tools in neuroscience and AI, yet we lack systematic comparisons of their discriminative power across model families. We introduce a quantitative framework to evaluate representational similarity measures based on their ability to separate model families-across architectures (CNNs, Vision Transformers, Swin Transformers, ConvNeXt) and training regimes (supervised vs. self-supervised). Using three complementary separability measures-dprime from ...

ID: 2509.04622v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 Surrogate Benchmarks for Model Merging Optimization

2025-09-05

Авторы:

Rio Akizuki, Yuya Kudo, Nozomu Yoshinari, Yoichi Hirose, Toshiyuki Nishimoto, Kento Uchida, Shinichi Shirakawa

## Контекст Моделирование интеллектуальных систем является ключевым направлением в развитии искусственного интеллекта. Одна из актуальных задач — объединение способностей нескольких моделей в единую мощную модель. Несмотря на потенциальные выгоды, этот процесс затрудняется двумя основными проблемами. Во-первых, многие существующие техники объединения моделей включают в себя гиперпараметры, которые оказывают существенное влияние на качество результатов. Во-вторых, оптимизация этих гиперпараметров требует больших вычислительных ресурсов, особенно при работе с тяжёлыми языковыми моделями (LLM). Для решения этих проблем необходимо разработать эффективные методы оптимизации гиперпараметров, чтобы повысить эффективность и снизить стоимость исследований в этой области. ## Метод Мы предлагаем систему суррогатных бенчмарков для оптимизации гиперпараметров объединения моделей. Методология основывается на сборе данных и разработке моделей предсказания. Два определённых пространства поиска (search spaces) содержат различные комбинации гиперпараметров, а данные для них собираются на основе результатов испытаний моделей. Эти данные используются для обучения суррогатной модели, которая может предсказывать качество результатов объединения моделей на основе выбранных гиперпараметров. Это позволяет эмулировать работу оптимизационных алгоритмов с минимальными вычислительными затратами. ## Результаты Наши суррогатные бенчмарки продемонстрировали высокую точность в предсказании качества результатов объединения моделей. Мы провели эксперименты с разными оптимизационными алгоритмами, используя наши модели для эмуляции их работы. Эксперименты показали, что суррогатные модели эффективно описывают зависимость между гиперпараметрами и качеством объединения. Кроме того, наши результаты позволяют сравнивать различные алгоритмы по их эффективности и экономичности, не требуя исполнения настоящих оптимизационных процессов. ## Значимость Наш подход открывает новые возможности для развития технологий объединения моделей. Он позволяет экономить вычислительные ресурсы и сократить время разработки над новыми оптимизационными методами. Бенчмарки могут применяться в разработке новых моделей, в анализе выполнения оптимизационных алгоритмов и в сравнительных исследованиях. Этот подход также имеет потенциал для распространения на другие задачи в области машинного обучения, где требуется эффективное оптимизационное решение. ## Выводы Мы разработали эффективные суррогатные бенчмарки для оптимизации гиперпараметров моделей объединения. Наши результаты подтверж

Annotation:

Model merging techniques aim to integrate the abilities of multiple models into a single model. Most model merging techniques have hyperparameters, and their setting affects the performance of the merged model. Because several existing works show that tuning hyperparameters in model merging can enhance the merging outcome, developing hyperparameter optimization algorithms for model merging is a promising direction. However, its optimization process is computationally expensive, particularly in m...

ID: 2509.02555v1 cs.LG, cs.AI, cs.NE

arXiv PDF

Показано 11 - 20 из 25 записей