📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MuaLLM: A Multimodal Large Language Model Agent for Circuit Design Assistance with Hybrid Contextual Retrieval-Augmented Generation

2025-08-13

Авторы:

Pravallika Abbineni, Saoud Aldowaish, Colin Liechty, Soroosh Noorzad, Ali Ghazizadeh, Morteza Fayazi

## Контекст Информационный поток в области конструирования электронных схем в последние годы наблюдает быстрое ускорение. Из-за этого новые технологии и методы появляются почти ежедневно, что сделало сложным даже для опытных инженеров и научных работников. Развитие машинного обучения дало новые возможности для помощи в этом процессе, но существуют проблемы с обработкой больших данных и неоднородностью источников. Одним из ключевых задач в этой области является создание систем, которые могут эффективно обрабатывать и анализировать текстовую и визуальную информацию, чтобы облегчить работу проектировщиков и ускорить развитие новых технологий в сфере конструирования электронных схем. ## Метод MuaLLM — это открытая многомодальная большая языковая модель (LLM), разработанная для помощи в конструировании электронных схем. Она основывается на гибридном фреймворве Retrieval-Augmented Generation (RAG), объединяющем в себе доступ к большому объему литературы и систему раскрытия вопросов с использованием векторных баз данных. Более того, MuaLLM использует специальный подход Reason + Act (ReAct), что позволяет выполнять многоэтапную итеративную обработку информации. Этот подход позволяет не только отвечать на вопросы, но и рассчитывать решения, основываясь на текстовых и визуальных данных. Модель поддерживает работу с разными типами данных, включая текст, изображения и другие мультимедийные форматы. Она также применяет интеллектуальные инструменты для динамического поиска и автоматического документооборота, что делает ее эффективной в современных условиях. ## Результаты Для оценки эффективности MuaLLM были разработаны две пользовательские базы данных: RAG-250 для оценки возможностей модели в целях выбора и цитирования, и Reasoning-100 (Reas-100) для оценки многошаговой логики в решении задач конструирования схем. MuaLLM достигла высоких результатов: 90,1% реколл на RAG-250 и 86,8% точности на Reas-100. Особенно заметное преимущество модели заключается в своей способности оперировать большими объемами информации без необходимости постоянного участия человека в процессе. Это позволяет эффективно управлять большими данными и быстро создавать решения в сфере конструирования электронных схем. ## Значимость MuaLLM имеет широкое применение в области конструирования электронных схем. Ее основные преимущества заключаются в способности быстро анализировать и обрабатывать информацию, в том числе текстовую и визуальную, что позволяет эффективно управлять проектными задачами. Более того, этот подход может быть применен в широком круге других

Annotation:

Conducting a comprehensive literature review is crucial for advancing circuit design methodologies. However, the rapid influx of state-of-the-art research, inconsistent data representation, and the complexity of optimizing circuit design objectives make this task significantly challenging. In this paper, we propose MuaLLM, an open-source multimodal Large Language Model (LLM) agent for circuit design assistance that integrates a hybrid Retrieval-Augmented Generation (RAG) framework with an adapti...

ID: 2508.08137v1 cs.LG, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 Neural Logic Networks for Interpretable Classification

2025-08-13

Авторы:

Vincent Perreault, Katsumi Inoue, Richard Labib, Alain Hertz

## Контекст Нейронные сети широко применяются для решения задач классификации, но их высокая точность сочувствует непрозрачности. Часто невозможно разобраться в том, каким образом сеть приходит к своим выводам, что ограничивает их применение в областях, где требуется понятность и ответственность (например, в медицине или юриспруденции). Однако в некоторых ситуациях необходимо не только точно классифицировать данные, но и понять, по каким причинам сеть пришла к определенному решению. Нейронные логические сети предлагают решение этой проблемы, так как их структура позволяет выделять логические правила, которые могут быть проверены и выведены. ## Метод Мы предлагаем модифицированную модель Neural Logic Networks, которая включает в себя новые операции и биазы. Наша модель основывается на логическом представлении данных, используя комбинации понятий (concepts) для формирования правил в формате IF-THEN. Мы также внедрили факторизованную структуру правил, чтобы упростить их интерпретацию. Чтобы обучать модель, мы разработали усовершенствованный алгоритм, который учитывает не только наблюдаемые данные, но и недостающие (unobserved), используя биазы в процессе обучения. ## Результаты Мы проверили нашу модель на нескольких задачах классификации, включая медицинские данные. Наши эксперименты показали, что модель не только выдает точные классификационные результаты, но и формирует интерпретируемые правила, которые могут быть легко проверены и поняты человеком. Например, мы использовали данные о больных с определенной медицинской патологией, и модель сформировала правила, которые помогают понять причины конкретных классификационных решений. ## Значимость Наша модель Neural Logic Networks может быть применена в тех областях, где необходима точность классификации и понятность решений. Например, в медицине, где важно понимать, по каким причинам было принято решение о лечении. Выгоды модели в том, что она обеспечивает интерпретируемые решения без ущерба точности, что делает её привлекательной для решения задач, где требуется ответственность и прозрачность. ## Выводы Мы усовершенствовали технологию Neural Logic Networks, добавив в неё новые операции и биазы, что улучшило их способность выделять логические правила. Наши результаты показали, что модель обеспечивает как точность, так и интерпретируемость в задачах классификации. В будущем мы планируем расширить модель, чтобы она могла работать с более сложными задачами и примерами.

Annotation:

Traditional neural networks have an impressive classification performance, but what they learn cannot be inspected, verified or extracted. Neural Logic Networks on the other hand have an interpretable structure that enables them to learn a logical mechanism relating the inputs and outputs with AND and OR operations. We generalize these networks with NOT operations and biases that take into account unobserved data and develop a rigorous logical and probabilistic modeling in terms of concept combi...

ID: 2508.08172v1 cs.LG, cs.AI, cs.LO

arXiv PDF

📄 Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent

2025-08-13

Авторы:

Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi

## Контекст Статья рассматривает многошаговый символический рассуждений и их реализацию в контексте трансформеров. Она выделяет проблему недостаточного понимания механизмов, позволяющих трансформерам решать такие задачи. Известно, что трансформеры эффективно работают в авторегрессионных моделях, но теоретическая поддержка их успеха в задачах многошагового рассуждения остается недостаточно изучена. Особое внимание уделяется проблемам путеискания в деревьях, в том числе логике решения задач в формате "путь от цели к корню" и "путь от корня к цели". ## Метод Авторы используют многошаговые трансформеры с авторегрессией для решения задач путеискания в деревьях. Основной акцент ставится на двухфазном подходе: вывод пути от цели к корню и его обратное преобразование в путь от корня к цели. Анализ основывается на динамике градиентного оптимизационного процесса. Моделирование проводится в условиях заданного количества слоёв и аттенционных голов. Изучаются взаимодействия между аттенционными головами и их способность решать задачи структурированными подходами. ## Результаты Выполнены эксперименты с различными моделями в задачах путеискания. Для однослойных трансформеров получены теоретические гарантии на успех решения задач символического рассуждения с обучением и общедоступностью решений для неизвестных деревьев. Особое внимание уделено процессу специализации аттенционных голов в различных этапах задачи. Проведены исследования обучения одношаговых и двухшаговых процедур, показавших, что даже глубокие трансформеры могут решать задачи с помощью простых шагов. ## Значимость Результаты статьи имеют значимость для области машинного обучения, а именно для изучения способов решения сложных задач с помощью трансформеров. Они открывают пути для использования многошаговых моделей в задачах автоматического решения задач, включая путеискание в деревьях и поиск алгоритмических решений. Это демонстрирует возможность трансформеров решать задачи, которые традиционно требуют более глубоких архитектур. ## Выводы Основные достижения статьи заключаются в доказательстве возможности решения многошаговых задач символического рассуждения с помощью трансформеров. Доказана специализация аттенционных голов в различных фазах решения задач. Будущие исследования будут сконцентрированы на углублении теоретических анализов и расширении моделей для решения более сложных задач многошагового рассуждения.

Annotation:

Transformers have demonstrated remarkable capabilities in multi-step reasoning tasks. However, understandings of the underlying mechanisms by which they acquire these abilities through training remain limited, particularly from a theoretical standpoint. This work investigates how transformers learn to solve symbolic multi-step reasoning problems through chain-of-thought processes, focusing on path-finding in trees. We analyze two intertwined tasks: a backward reasoning task, where the model outp...

ID: 2508.08222v1 cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML

arXiv PDF

📄 Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

2025-08-12

Авторы:

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

#### Контекст Modern RL-based post-training for large language models (LLMs) подразумевает совмещение траекторий семплирования и политики оптимизации на одном GPU кластере. Это приводит к периодической переключению между работами на основе программы и работами на основе данных, что нарушает SPMD-принцип (Single-Program-Multiple-Data), основной для современных систем распределенного обучения. Эта проблема становится значительной в связи с ростом масштаба LLMs и требования к высокой производительности. Echo предлагает решение этой проблемы, разделяя два главных этапа — инференс и обучение — по разным "внедряемым" и "обучаемым" кластерам, сохраняя статистическую эффективность. Такой подход позволяет увеличить масштабируемость и эффективно использовать разнородные ресурсы. #### Метод Echo представляет собой RL-систему, которая разделяет фазу инференса и тренировки на две различные сети — "внедряемый" и "обучаемый". Для этого используются два упрощенных синхронизационных протокола: последовательный pull-режим (поддерживает минимальный биас использования API) и асинхронный push-pull-режим (распространяет версионно отмеченные тренировочные траектории по реплей-буферу, чтобы оптимально использовать железо). Данные для тренировки поступают из географически распределенного кластера, что позволяет гарантировать высокую стабильность и эффективность. Такой подход позволяет сохранить высокую производительность при использовании разнородных ресурсов в центре обработки данных. #### Результаты Использовав Echo, были проведены эксперименты с тремя различными RL-рабочими нагрузками, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B на распределенном кластере. Результаты показали, что Echo совпадает с методом Verl по скорости конвергенции и оценке вознаграждения, при этом инференсный процесс выполняется на "внедряемых" устройствах, а тренировочный процесс — на "обучаемых". Это позволяет эффективно снизить нагрузку на главные ресурсы центра обработки данных и масштабировать систему без потери качества. Таким образом, Echo доказывает, что можно достичь высокой производительности в системах RL для LLMs с использованием распределенных, разнородных ресурсов. #### Значимость Результаты Echo открывают новые возможности для использования географически распределенных ресурсов в обучении LLMs. Такой подход позволяет эффективно использовать инфраструктуру, включая "внедряемые" устройства, для траекторий семплирования, а главные ресурсы — для политики оптимизации. В результате, Echo позволяет повысить масштабируемость, снизить затраты на инфраструктуру и обеспечить высокую производительность в сложных задачах RL для

Annotation:

Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving stati...

ID: 2508.05387v2 cs.LG, cs.AI

arXiv PDF

📄 From Imperfect Signals to Trustworthy Structure: Confidence-Aware Inference from Heterogeneous and Reliability-Varying Utility Data

2025-08-12

Авторы:

Haoran Li, Lihao Mai, Muhao Guo, Jiaqi Wu, Yang Weng, Yannan Sun, Ce Jimmy Liu

## Контекст Оперативная эффективность и надежность современных электросетей зависят от точного понимания их топологии. Тем не менее, реальные значимые данные, полученные из различных источников, часто отображают существенные различия в качестве и надежности. Это создает трудности для построения достоверной модели сети. Одним из ключевых аспектов является восстановление топологии силовых сетей, которое должно учитывать различные источники данных, их неоднородность и необходимость соблюдения физических ограничений. В данном исследовании, проведенном в партнерстве с Oncor Electric Delivery, предлагается метод, который позволяет воссоздать достоверную топологию сети, учитывая разнообразие этих характеристик. ## Метод Предложенный подход является структурно-ориентированным и использует данные из двух главных направлений: физической структуры сети (например, GIS, метаданные оборудования) и динамического поведения системы в сигнальном домене (например, временные ряды вольтажа). Эти два направления вместе обеспечивают достоверную и физически корректную модель сети. Чтобы сделать этот подход более устойчивым к несогласованности данных, предлагается меchanism понимания достоверности, который позволяет использовать и недостоверные, но структурно значимые данные. Более того, в рамках метода внедрены физические ограничения, такие как лимиты мощности трансформаторов и требования к радиальной топологии сети. Это позволяет гарантировать, что восстановленная модель будет не только надежной, но и физически применимой. ## Результаты Исследования проводились на данных, полученных из более чем 8000 счетчиков, распределенных по трем жилным зонам в сети Oncor. Метод показал высокую точность топологического восстановления, составившую более 95%. Результаты также показали, что фреймворк значительно улучшил калибровку уверенности и эффективность вычислений в сравнении с другими подходами. Эти результаты указывают на удачную комбинацию точности, гибкости и устойчивости, необходимых для реальных сценариев. ## Значимость Предложенный подход может быть использован в различных областях, таких как мониторинг электроэнергетических сетей, оптимизация распределения ресурсов и анализ данных для улучшения надежности энергоснабжения. Он обеспечивает более надежное представление сети, уменьшает риск ошибок, имеет прямое применение в ситуациях, когда данные неоднородны и имеют разной надежности. Это может привести к значительным улучшениям в системах мониторинга и управления энергосетями. ## Выводы Предложенный подход значительно повышает точность и надежность восстано

Annotation:

Accurate distribution grid topology is essential for reliable modern grid operations. However, real-world utility data originates from multiple sources with varying characteristics and levels of quality. In this work, developed in collaboration with Oncor Electric Delivery, we propose a scalable framework that reconstructs a trustworthy grid topology by systematically integrating heterogeneous data. We observe that distribution topology is fundamentally governed by two complementary dimensions: ...

ID: 2508.05791v1 cs.LG, cs.AI

arXiv PDF

📄 Multi-Armed Bandits-Based Optimization of Decision Trees

2025-08-12

Авторы:

Hasibul Karim Shanto, Umme Ayman Koana, Shadikur Rahman

## Контекст Одним из ключевых вопросов в машинном обучении является оптимизация моделей деревьев решений. Их природа склонна к переобучению, так как они могут хранить ненужные фичи или шум в данных. Оптимизация моделей деревьев решений включает в себя процесс поиска оптимального баланса между объяснимостью и производительностью. Одним из ключевых этапов этой оптимизации является приведение модели к менее сложной форме, чтобы уменьшить вероятность переобучения и повысить устойчивость модели к новым данным. Несмотря на то, что существуют методы, такие как Cost-Complexity Pruning (CCP) и Reduced Error Pruning (REP), они основываются на локальных принципах, которые могут привести к неоптимальным решениям в долгосрочной перспективе. Мы предлагаем использовать Multi-Armed Bandits (MAB)-методы, чтобы решить эту проблему, так как они предлагают динамический подход к принятию решений в процессе обучения модели. ## Метод Мы предлагаем использовать разумный подход к приведению модели к оптимальному состоянию, используя MAB для принятия решений о приближении к целевой форме. MAB – это тип алгоритма, основанный на принципе exploration-exploitation, который позволяет подобрать оптимальные решения в процессе исследования. Мы используем данный подход для принятия решений о том, какие ветви дерева решений следует удалить для достижения оптимального соотношения производительности и объяснимости. Мы применяем экспериментальное исследование, чтобы оценить эффективность этого подхода в сравнении с традиционными методами. Модель MAB-based pruning будет использоваться вместе с различными деревьями решений для оптимизации модели и повышения ее общей производительности. ## Результаты Мы проводили эксперименты на нескольких датасетах, включая датасеты стандартных бенчмарков, чтобы оценить эффективность нашего подхода. Мы сравнивали эффективность нашей реализации с традиционными методами, такими как CCP и REP. Наши результаты показали, что наш подход позволяет достичь более высокой оптимальности модели дерева решений, снизившей вероятность переобучения и улучшившей прогностическую модель. Это улучшение производительности во многом обусловлено динамическим принятием решений о приближении к оптимальной модели. Мы также проводили анализ времени работы, чтобы оценить эффективность нашего подхода в сравнении с традиционными. ## Значимость Наш подход имеет потенциал для применения в отраслях, где требуется улучшение моделей на основе деревьев решений, таких как финансы, медицина и индустрия. Этот подход может повысить точность прогноза и уменьшить ошибки, связанные с переобучением. Помимо этого, мы показали, что наша реализация является более эффективной

Annotation:

Decision trees, without appropriate constraints, can easily become overly complex and prone to overfit, capturing noise rather than generalizable patterns. To resolve this problem,pruning operation is a crucial part in optimizing decision trees, as it not only reduces the complexity of trees but also decreases the probability of generating overfit models. The conventional pruning techniques like Cost-Complexity Pruning (CCP) and Reduced Error Pruning (REP) are mostly based on greedy approaches t...

ID: 2508.05957v1 cs.LG, cs.AI

arXiv PDF

📄 Mildly Conservative Regularized Evaluation for Offline Reinforcement Learning

2025-08-12

Авторы:

Haohui Chen, Zhiyong Chen

## Контекст Offline reinforcement learning (RL) является ключевым подходом в обучении агентов с помощью статических наборов данных, при этом без дополнительного взаимодействия с окружением. Однако, существуют значительные вызовы, связанные с расхождением между распределением изучаемой и используемой политик. Это расхождение приводит к выходу за рамки распределения (out-of-distribution, OOD) и к накоплению ошибок в оценке, что в свою очередь может привести к нежелательным поведениям и неэффективности. Таким образом, важно создать методы, которые будут сбалансироваными в отношении консерватизма и эффективности. ## Метод Мы предлагаем фреймворм, названный mildly conservative regularized evaluation (MCRE), который использует темпоральные разности (TD) в качестве основы, при этом добавляя бихевиор-клонинг из статического набора данных в ядро рекларджа. Этот подход позволяет контролировать консерватизм, исключая жесткие ограничения, но при этом позволяя агенту использовать более эффективные стратегии. Выделенная архитектура алгоритма MCRQ включает в себя интеграцию MCRE с актор-критическим подходом, который допускает использование офф-полици, что дает гибкость в условиях генерации данных. ## Результаты Мы провели эксперименты на нескольких престижных бенчмарк-датасетах для оффлайн RL, включая D4RL и Atari. Результаты показали, что MCRQ превосходит существующие методы, включая conservative Q-learning (CQL) и IQL, по ключевым метрикам качества и стабильности. Дополнительно, мы продемонстрировали, что наш подход значительно снижает ошибки в оценке и выходы за пределы распределения, что способствует устойчивому и эффективному обучению. ## Значимость Предлагаемый подход может быть применен в различных областях, где требуется эффективное обучение с помощью статических данных, включая искусственный интеллект, моделирование систем, а также научные и промышленные приложения. Главное преимущество заключается в его балансе между консерватизмом и эффективностью, что позволяет получить более стабильные и высококачественные результаты. Будущие работы будут направлены на улучшение методов контроля консерватизма и расширение применений MCRQ в более сложных и реальных средах. ## Выводы Мы представили новый подход в области оффлайн RL, который удачно сбалансировал консерватизм и эффективность. Эксперименты показали, что наш метод превосходит существующие решения на текущих датасетах. Мы доказали, что сочетание темпоральных данных с бихевиор-клонингом может значительно улучшить точность и стабильность обучения. Открытые вопросы включают расширение MCRQ для динамических систем и дальнейшее экспер

Annotation:

Offline reinforcement learning (RL) seeks to learn optimal policies from static datasets without further environment interaction. A key challenge is the distribution shift between the learned and behavior policies, leading to out-of-distribution (OOD) actions and overestimation. To prevent gross overestimation, the value function must remain conservative; however, excessive conservatism may hinder performance improvement. To address this, we propose the mildly conservative regularized evaluation...

ID: 2508.05960v1 cs.LG, cs.AI

arXiv PDF

📄 Adaptive Heterogeneous Graph Neural Networks: Bridging Heterophily and Heterogeneity

2025-08-12

Авторы:

Qin Chen, Guojie Song

## Контекст Графы неоднородные (Heterogeneous Graphs, HGs) широко распространены в реальных сценариях, поскольку они могут представлять себя в виде множественных типов узлов и ребер. Несмотря на это, многие исследования фокусируются либо на хетерофили, либо на неоднородности, не учитывая их совместное возникновение, которое характерно для реальных приложений. Это значительно снижает эффективность таких моделей. В настоящей работе рассматриваются два основных задачи в моделировании неоднородных графов: (1) разные распределения хетерофили на разных уровнях и мета-путях, и (2) хетерофили-движущаяся разнообразность семантической информации между мета-путями. Чтобы устранить эти проблемы, предлагается новая архитектура Adaptive Heterogeneous Graph Neural Network (AHGNN). ## Метод AHGNN использует современные техники нейронных сетей для адаптивного моделирования графов неоднородных структур. Основная идея заключается в создании модели, которая учитывает различные распределения хетерофили на разных уровнях (hops) и мета-путях. Для этого вводятся узлы с весовыми матрицами, которые могут адаптироваться к различным мета-путям. Для обработки разнообразия семантической информации вводится coarse-to-fine attention mechanism, позволяющий фильтровать шум и повышать важность информативных сигналов. Эта архитектура позволяет AHGNN эффективно работать в ситуациях с высокой хетерофили. ## Результаты Для оценки AHGNN проводились эксперименты на семи реальных графах, включая сценарии с высокой хетерофили. Были сравнены результаты AHGNN с 20 различными базовыми моделями. Эксперименты показали, что AHGNN не только превосходит существующие модели, но и демонстрирует выдающиеся результаты в случаях с высокой хетерофили. Эти результаты подтверждают то, что AHGNN может адаптироваться к различным условиям и хетерофили-движущейся семантической разнообразности. ## Значимость AHGNN может быть применено в различных областях, где неоднородные графы играют ключевую роль, таких как рекомендательные системы, моделирование социальных сетей и другие приложения. Его основной преимущество заключается в том, что он может адаптироваться к различным распределениям хетерофили и разнообразию семантических мета-путей. Это может привести к повышению точности моделей в реальных приложениях, где хетерофили и неоднородность являются значимыми факторами. ## Выводы В результате работы была предложена новая архитектура AHGNN, которая успешно решает проблемы, связанные с хетерофили и неоднородностью в неоднородных графах. Эксперименты показали

Annotation:

Heterogeneous graphs (HGs) are common in real-world scenarios and often exhibit heterophily. However, most existing studies focus on either heterogeneity or heterophily in isolation, overlooking the prevalence of heterophilic HGs in practical applications. Such ignorance leads to their performance degradation. In this work, we first identify two main challenges in modeling heterophily HGs: (1) varying heterophily distributions across hops and meta-paths; (2) the intricate and often heterophily-d...

ID: 2508.06034v1 cs.LG, cs.AI

arXiv PDF

📄 DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment

2025-08-12

Авторы:

Sangwoo Kwon, Seong Hoon Seo, Jae W. Lee, Yeonhong Park

## Контекст Текущие большие языковые модели (LLMs) требуют высокой производительности и эффективности при реализации на устройствах с ограниченными ресурсами. Несмотря на развитие многомасштабной квантования, остается недостаточно гибкости для адаптации моделей к разным требованиям получателей, таким как задержка и точность. Это ограничение влияет на практическое применение LLMs в реальных условиях. Для улучшения эффективности использования ресурсов необходимо создать метод, который бы адаптировал модель в реальном времени на основе требований задачи или пользователя. Такой подход может повысить производительность и энергоэффективность систем, работающих на ограниченных ресурсах. ## Метод DP-LLM предлагает инновационный подход к адаптации моделей в реальном времени, основанный на динамическом назначении точности для каждого слоя. Каждый слой модели оборудован слоем селектора точности, который анализирует входные данные и выбирает наиболее подходящую точность в ходе выполнения. Это достигается при помощи легковесной модели ошибки и уровней точности, изученных в процессе оптимизации. Такой механизм позволяет гибко адаптировать ресурсы, сохраняя высокую точность и снижая задержку. Этот подход можно расширить для различных типов моделей и приложений, где требуется быстрая адаптация. ## Результаты Исследования проводились на нескольких моделях и наборах данных для оценки эффективности DP-LLM. Метод показал высокую эффективность в снижении задержки и повышении точности в различных сценариях. Например, на наборе данных TNEWS иerson-test DP-LLM достиг точности 77,6%, что значительно превосходит базовую модель. Также были измерены ресурсы, используемые во время работы: DP-LLM потреблял меньше ресурсов, чем многомасштабные модели, при этом сохранял высокую производительность. Эти результаты доказывают эффективность и универсальность DP-LLM в различных условиях. ## Значимость DP-LLM может быть применен в различных областях, где требуется быстрая и эффективная обработка языковых задач. Например, в мобильных приложениях, системах реального времени и смарт-устройствах. Его преимущества заключаются в увеличенной эффективности, повышенной точности и гибкости в настройке. Это может привести к перспективным решениям в области устройств с ограниченными ресурсами, таких как IoT-устройства и мобильные телефоны. Такой подход может также влиять на развитие новых технологий для улучшения произведения анализа языка на устройствах. ## Выводы DP-LLM доказал свою эффективность в динамической адаптации моделей в реальном времени. На основе проводив

Annotation:

How can we effectively handle queries for on-device large language models (LLMs) with varying runtime constraints, such as latency and accuracy? Multi-scale quantization addresses this challenge by enabling memory-efficient runtime model adaptation of LLMs through the overlaying of multiple model variants quantized to different bitwidths. Meanwhile, an important question still remains open-ended: how can models be properly configured to match a target precision or latency? While mixed-precision ...

ID: 2508.06041v1 cs.LG, cs.AI

arXiv PDF

📄 Architecture-Aware Generalization Bounds for Temporal Networks: Theory and Fair Comparison Methodology

2025-08-12

Авторы:

Barak Gahtan, Alex M. Bronstein

## Контекст Современные глубокие нейронные сети, такие как Temporal Convolutional Networks (TCNs), достигают высокой точности в прогнозировании последовательных данных. Однако теоретическое понимание их общей способности и ограничений остается недостаточно развитым. Это недостаток становится заметнее при сравнении различных моделей, где зачастую используются несогласованные эффективные обучающие выборки. Это приводит к несоответствию в результатах и снижению доверия к теоретическим анализам. Наша мотивация заключается в развитии теоретических общих ограничений для глубоких временных моделей и в создании нормализованного метода сравнения их эффективности. ## Метод Мы разработали метод оценки общей способности TCN, учитывающий специфику их архитектуры. Базовым элементом является механизм "задержанной обратной связи", который преобразует зависимости в выборке в эффективно независимые с помощью отсечения мелких объемов данных. Для ситуаций, когда выборки последовательно зависимы, мы оптимизируем выборку с использованием метода Блума, чтобы сузить расстояние между теорией и практикой. Для подтверждения метода, мы используем теорему о максимальной эффективности и закрепленные свойства выборки. ## Результаты Мы проводили эксперименты на упрощенных последовательных данных с разными степенями зависимости. Наши результаты показали, что модели TCN могут извлекать пользу из зависимостей в данных, включая ситуации с сильными зависимостями. Неожиданно, сильные зависимости могут привести к более эффективному обучению по сравнению с слабыми, что напротив ожиданий традиционной теории. Мы также показали, что наш метод дает более точные оценки общей способности TCN по сравнению с другими приемами. ## Значимость Наша работа может быть применена в системах, требующих точного прогнозирования на основе последовательных данных, таких как системы мониторинга, моделирования процессов времени и робототехника. Она позволяет оценить и сравнить модели с учетом их внутренней структуры, что улучшает предсказательную точность и уменьшает вероятность ложных срабатываний. Наш результат также открывает путь к более глубокому пониманию связи между теорией и практикой в обучении с учителем на последовательных данных. ## Выводы Мы предложили первые архитектурно ориентированные теоретические ограничения для общей способности TCN и разработали метод сравнения моделей, учитывающий эффективный размер выборки. Эксперименты показали, что зависимости в данных могут быть полезными для обучения, если они управляются правильно. Наша работа мотивирует будущие ис

Annotation:

Deep temporal architectures such as Temporal Convolutional Networks (TCNs) achieve strong predictive performance on sequential data, yet theoretical understanding of their generalization remains limited. We address this gap by providing both the first non-vacuous, architecture-aware generalization bounds for deep temporal models and a principled evaluation methodology. For exponentially $\beta$-mixing sequences, we derive bounds scaling as $ O\!\Bigl(R\,\sqrt{\tfrac{D\,p\,n\,\log N}{N}}\Bigr),...

ID: 2508.06066v1 cs.LG, cs.AI

arXiv PDF

1
2
277
278
279
280
281
290
291

Показано 2781 - 2790 из 2901 записей