📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

2025-08-14

Авторы:

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

## Контекст В последние годы широко используются бо LLM (Large Language Models), которые показывают выдающиеся результаты в общих задачах. Однако известно, что эти модели могут снизить качество выполнения задач в специализированных областях, если не будет предоставлен достаточный объем специализированных данных. Это подчеркивает необходимость в разработке эффективных и эффективных методов для построения бенчмарков, которые способны тестировать достоверно способности более широкого спектра задач для конкретных областей. Несмотря на то, что существуют многочисленные бенчмарки, они часто ориентированы на масштабирование, основываясь на огромных объемах супервизированных данных или подготовке обширных наборов вопросов для обеспечения большого покрытия в области. Однако недостаточное внимание уделяется влиянию выбора корпуса и вопрос-ответ (QA)-наборов на точность и полноту результатов. В данной работе мы исследуем эту проблему и предлагаем новую модель Comp-Comp, ориентированную на достижение оптимального баланса между полнотой и компактностью. ## Метод Мы предлагаем Comp-Comp, уникальный фреймворк построения бенчмарков, который основывается на новом принципе — comprehensiveness-compactness. Этот подход имеет два основных аспекта: (1) **comprehensiveness** — гарантировать, что бенчмарк охватывает все существующие семантические структуры в области, и (2) **compactness** — уменьшить значительно объем данных бенчмарка, оставив только самые важные и сигнализирующие моменты. Мы используем итеративный подход: вначале — сборка и редукция корпуса, затем — построение и оптимизацию QA-набора. Методом прототипной разработки построена модель, нацеленная на достижение критериев качества в специализированной области. Для этого в качестве случайного кейса мы использовали академическую область, научно-исследовательскую деятельность в знаменитом университете. ## Результаты Мы провели эксперименты на основе данных от XUBench, который мы построили с помощью Comp-Comp. Мы сравнили эффективность нашего подхода с использованием нескольких метрик, включая точность, полноту, F1-меру и покрытие. Результаты показали, что Comp-Comp не только улучшил точность и полноту, но и уменьшил объем данных, необходимых для достижения оптимальных результатов в сравнении с традиционными подходами. Например, наша модель показала значительное улучшение в точности в 15% и полноту в 20% в сравнении с бенчмарком, построенным на основе масштабирования. ## Значимость Мы утверждаем, что наш подход может быть применен к различным сферам, включая медицину, юриспруденцию и другие области, где специализированные модели являются критичными. Особенно

Annotation:

Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexp...

ID: 2508.07353v2 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Maximizing GPU Efficiency via Optimal Adapter Caching: An Analytical Approach for Multi-Tenant LLM Serving

2025-08-14

Авторы:

Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral

## Контекст Последние годы сервисный языковых моделей (LLM) в развитии, во многом благодаря их универсальности. Однако, применение общих моделей к конкретным задачам часто требует развития адаптеров. Эти адаптеры значительно увеличивают нагрузку на системы, особенно в многоклиентских средах. Накладные расходы оказывают негативное влияние на производительность и повышают риск задержек и сбоев сервиса. Этот факт представляет вызов для эффективного управления ресурсами, особенно в средах с небольшим количеством ресурсов. Мы предлагаем первый аналитический подход, оптимизирующий размещение адаптеров на GPU в многоклиентских средах, в том числе применением цифровых двойников. Целью является улучшение производительности и эффективности ресурсного использования. ## Метод Мы предлагаем аналитическую модель, которая определяет оптимальное размещение адаптеров для GPU в системах LLM-серверов. Модель основывается на комплексном анализе накладных расходов, таких как память, время выполнения и переносимость запросов. Мы также разработали цифровую двойниковую модель, которая моделирует систему LLM-сервера в реальном времени, сохраняя ключевые метрики производительности. Эта модель позволяет провести эксперименты в имитационной среде, оценивая различные сценарии размещения. Мы упростили процесс оптимизации с помощью алгоритмов, которые автоматически определяют оптимальные параметры размещения, в том числе нагрузку на GPU, учет запросов и требований к памяти. ## Результаты Мы проверили нашу модель и цифровую двойниковую среду на реальных данных, собранных из работы с LLM-адаптерами. Мы сравнили результаты с реальной системой, получив сближение с ней, что подтвердило точность. Цифровая двойника оказалась точной в предсказании максимального числа запросов в секунду (QPS) и снижения соотношения ошибок, достигнув 94,5% точности в оценке производительности. В результате, мы установили, что наш подход эффективно уменьшает задержки и улучшает использование ресурсов, в том числе GPU, для серверов LLM. ## Значимость Мы предлагаем подход, который может быть применен в различных областях, включая облачные вычисления, серверное приложение и машинное обучение. Наш метод может предотвратить задержки, оптимизировать использование ресурсов и повысить производительность серверов LLM. Он имеет потенциал для улучшения ресурсов в окружениях с многоклиентской моделью, где эффективность ресурсов критична. Будущие исследования будут решать проблемы с масштабированием на несколько узлов и расширение модели для учета других факторов, таких как тре

Annotation:

Serving LLM adapters has gained significant attention as an effective approach to adapt general-purpose language models to diverse, task-specific use cases. However, serving a wide range of adapters introduces several and substantial overheads, leading to performance degradation and challenges in optimal placement. To address these challenges, we present an analytical, AI-driven pipeline that accurately determines the optimal allocation of adapters in single-node setups. This allocation maximize...

ID: 2508.08343v1 cs.PF, cs.AI, cs.CL

arXiv PDF

📄 Bilevel MCTS for Amortized O(1) Node Selection in Classical Planning

2025-08-14

Авторы:

Masataro Asai

## Контекст Многоarmed-bandit (MAB)-основанный Monte-Carlo Tree Search (MCTS) широко применяется в классическом планировании, поскольку позволяет эффективно исследовать дерево возможных действий. Однако одним из ограничений MCTS является высокая стоимость выбора узла в списке OPEN. Обычно этот процесс реализуется с помощью очереди с приоритетом, что обеспечивает работу в $O(1)$ временных характеристиках, однако в условиях классического планирования, когда дерево значительно расширяется, эффективность выбора узла снижается до $O(\log N)$ при использовании tree-based OPEN list, что может стать значительной задержкой. Одним из примеров таких сценариев является задача Tower-of-Hanoi с $k$-дисками, где $d \leq 2^k - 1$. Более того, в классическом планировании эта проблема вытесняет важность оценки узлов (rollouts), которая в игровых деревьях является основной затратой. Данная работа направлена на решение этой проблемы, оптимизируя выбор узла в tree-based OPEN list. ## Метод Для улучшения производительности выбора узла в tree-based OPEN list, мы предлагаем билвлютный подход в MCTS. Основной идеей является запуск best-first search для каждого узла, который выбирается на вершине дерева, с ограничением на вычисления, пропорциональным $d$. Это позволяет достичь амортизационного времени $O(1)$ для выбора узла, подобно традиционной очереди с приоритетом. Для дальнейшего улучшения, мы вводим механизм Tree Collapsing, который уменьшает количество шагов выбора действий. Эта методика позволяет эффективно компенсировать затраты на вывод узла, обеспечивая улучшенную скорость работы с tree-based OPEN list. ## Результаты Мы проводим эксперименты с различными классическими задачами планирования, включая Tower-of-Hanoi с различным количеством дисков $k$, и сравниваем результаты с существующими алгоритмами. Результаты показывают, что наши изменения MCTS позволяют достичь средней скорости выбора узла $O(1)$, что значительно сокращает время поиска в сравнении с традиционными методами. Более того, Tree Collapsing уменьшает количество шагов выбора действий, что приводит к дополнительному повышению производительности. Эти результаты показывают эффективность предлагаемого подхода в решении проблемы сложности выбора узла в tree-based OPEN list. ## Значимость Предложенный подход может быть применен в различных классических задачах планирования, где размер дерева исходных действий большой. Особенно применим он в задачах, где дерево расширяется арифметически, например, в Tower-of-Hanoi. Этот метод позволяет значительно уменьшить время, затрачиваемое на выбор узла, что позволяет увеличить эффективность MCTS в классическом планировании. Кроме того, этот подход может быть применен в других задачах, требующих быстро

Annotation:

We study an efficient implementation of Multi-Armed Bandit (MAB)-based Monte-Carlo Tree Search (MCTS) for classical planning. One weakness of MCTS is that it spends a significant time deciding which node to expand next. While selecting a node from an OPEN list with $N$ nodes has $O(1)$ runtime complexity with traditional array-based priority-queues for dense integer keys, the tree-based OPEN list used by MCTS requires $O(\log N)$, which roughly corresponds to the search depth $d$. In classical p...

ID: 2508.08385v1 cs.AI, cs.CL

arXiv PDF

📄 MiGrATe: Mixed-Policy GRPO for Adaptation at Test-Time

2025-08-14

Авторы:

Peter Phan, Dhruv Agarwal, Kavitha Srinivas, Horst Samulowitz, Pavan Kapanipathi, Andrew McCallum

#### Контекст Много платформенных языковых моделей (LLMs) становятся важной частью решения задач смешанного типа, таких как программная синтезирование, оптимизация молекул и поиск абстрактных решений. Однако применение этих моделей к задачам поиска многоугольников часто сталкивается с проблемами баланса между исследованием новых решений и использованием высокооплачиваемых решений. Традиционные подходы, такие как in-context learning, либо неэффективны в этих задачах, либо требуют большого количества ресурсов для поиска индивидуально настроенных решений. Дополнительно, некоторые методы, такие как test-time training (TTT), широко используются для улучшения решений, но часто требуют ручной подготовки специальной данных, что снижает их выгоду в процессе интеграции. Наша мотивация заключается в создании метода, который использует LLMs для решения сложных задач без необходимости подготовки данных заранее. #### Метод Мы предлагаем метод **MiGrATe** (Mixed-Policy GRPO for Adaptation at Test-Time), который работает как гибкий поисковый алгоритм, используя LLMs в качестве ядра поиска. Метод MiGrATe оперирует с помощью процедуры сборки групп микшированной политики (mixed-policy group construction procedure), которая сочетает в себе два типа сбора данных: greedy sampling (выбор лучших решений из прошлых итераций) и neighborhood sampling (поиск решений, структурно похожих на высокооплачиваемые). Эти две техники дают возможность применить больше внимания к высокооплачиваемым решениям и поддерживать эксплорaцию новых решений при использовании LLMs. Метод MiGrATe также включает в себя применение GRPO (Group Policy Optimization) для оптимизации групповой политики в реальном времени. #### Результаты Мы провели эксперименты на трех реальных задачах: поиск слов, оптимизация молекул и индукция программ+абстракций на датасетом ARC. Метод MiGrATe показал значительное улучшение качества решений в сравнении с традиционными TTT-методами и методами, не использовавшими тестируемую данную. Благодаря использованию смешанных политик в поиске, MiGrATe удалось эффективно оптимизировать решения без необходимости дополнительной подготовки данных, что демонстрирует мощь TTT-подходов для решения задач поиска без внешнего наблюдения. #### Значимость Метод MiGrATe может быть применен в сложных сетевых задачах, таких как оптимизация программ, поиск решений в лабораториях и молекул, а также в области моделирования абстрактных решений. Он предлагает значительные преимущества, включая более эффективное применение LLMs для решения задач без ручной подготовки данных, а также гибкость применения к разнообразным задачам. Метод MiGrATe может иметь будущее в широком спектре приложений, включая лаборатории, где требуется эффективное

Annotation:

Large language models (LLMs) are increasingly being applied to black-box optimization tasks, from program synthesis to molecule design. Prior work typically leverages in-context learning to iteratively guide the model towards better solutions. Such methods, however, often struggle to balance exploration of new solution spaces with exploitation of high-reward ones. Recently, test-time training (TTT) with synthetic data has shown promise in improving solution quality. However, the need for hand-cr...

ID: 2508.08641v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models

2025-08-14

Авторы:

Jiaxin Ju, Yizhen Zheng, Huan Yee Koh, Can Wang, Shirui Pan

#### Контекст Аккуратная предсказание свойств молекул является ключевой проблемой в области химии, материаловедения и наук о лекарствах. Существующие методы, такие как фингерпринты и графовые нейронные сети (GNN), достигли выдающихся результатов, оперируя функциональными признаками молекул. Однако они часто игнорируют значительные объемы семантической и контекстуальной информации, накопленной в течение десятков лет исследований. Недавние достижения в области больших языковых моделей (LLM) показали, что они обладают выдающимися рассудочными способностями и могут применяться к различным задачам в научных дисциплинах. Идея: LLMs могут генерировать богатые представления молекул, если будут способны обобщаться в разных сферах. #### Метод Мы предлагаем $\text{M}^{2}$LLM — продолжение продолжение идеи "многоперспективного" узнавания, которая интегрирует три основных перспективы молекул: 1) микроскопическая — структурная модель, 2) макроскопическая — задачи, с которыми связана молекула, 3) абстрактная — правила, определяющие свойства молекул. Данные представления соединены динамически, чтобы можно было приспособится к разным задачам. Благодаря тому, что LLM генерирует молекулярные представления, характеризующиеся векторами, и применяет расширенные методы рассуждения, $\text{M}^{2}$LLM показывает новый уровень качества в задачах классификации и регрессии. #### Результаты Мы провели эксперименты на нескольких бенчмарках, проверяя $\text{M}^{2}$LLM на задачах классификации и регрессии. Результаты показали, что модель достигла лидирующих показателей, превосходя существующие методы. Особенно выдающимся оказался показатель качества представлений, которые были получены благодаря возможностям LLM в генерации и анализе молекулярных данных. Это демонстрирует, что LLMs могут значительно улучшить обработку и предсказание молекулярных свойств. #### Значимость $\text{M}^{2}$LLM может применяться во многих областях — от науки о лекарствах до материаловедения. Особым преимуществом является ее универсальность и адаптивность к различным задачам. Функциональность, связанная с генерацией и обобщением молекулярных представлений, позволяет получать точные результаты. Это может способствовать развитию новых лекарств, ускорению циклов исследований и повышению эффективности технологий в материаловедении. #### Выводы $\text{M}^{2}$LLM достигает новых высот в предсказании свойств молекул, используя три перспективы и новые возможности LLMs. Будущие исследования будут сфокусированы на повышении точности и о

Annotation:

Accurate molecular property prediction is a critical challenge with wide-ranging applications in chemistry, materials science, and drug discovery. Molecular representation methods, including fingerprints and graph neural networks (GNNs), achieve state-of-the-art results by effectively deriving features from molecular structures. However, these methods often overlook decades of accumulated semantic and contextual knowledge. Recent advancements in large language models (LLMs) demonstrate remarkabl...

ID: 2508.08657v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 MultiAiTutor: Child-Friendly Educational Multilingual Speech Generation Tutor with LLMs

2025-08-14

Авторы:

Xiaoxue Gao, Huayun Zhang, Nancy F. Chen

## Контекст Обучение языкам для детей является важным аспектом развития, но существуют существенные сложности в создании эффективных систем обучения, особенно для малоресурсных языков. Эти языки часто не имеют достаточных ресурсов и ресурсов для создания качественных методик обучения. Более того, существующие технологии генерирования речи часто не приспособлены для решения конкретных потребностей в обучении детей. Недостаточность культурной и языковой релевантности в существующих решениях приводит к неэффективности некоторых подходов. MultiAiTutor предлагает решение этих проблем, предлагая многоязычную систему генерирования речи, ориентированную на обучение детей, с использованием новых технологий LLMs. ## Метод MultiAiTutor основывается на архитектуре ведущих LLMs, которая масштабируется для многоязычной обработки речи. Система применяет культурно-релевантные задачи, такие как описание изображений на младших уровнях возраста, чтобы обеспечить интерактивность и актуальность для детей. Использование нескольких языков позволяет легко адаптировать систему к разным региональным особенностям. Архитектура LLM обеспечивает высокую точность генерирования и гранулярную способность адаптироваться к разным стилям речи и говорения. Технологии моделирования голоса используются для создания детских голосов, которые звучат привлекательными и дружелюбными. ## Результаты Для оценки MultiAiTutor были проведены ряд экспериментов на данных, содержащих голосовые данные в трех малоресурсных языках: сингапурский мандарин, малайский и тамилский. Оценка производилась как по использованию объективных метрик, так и с помощью тестирования субъективных оценок. Результаты показали, что MultiAiTutor превосходит соответствующие базовые методы по метрикам качества речи, точности генерирования и поддержке языков. Особенно выделяется эффективность системы в создании речи, привлекательной для детей, и в предоставлении культурно и языковой релевантности. ## Значимость MultiAiTutor может быть использовано в сфере образования, оказания поддержки детям в обучении малоресурсных языков, а также в решении проблем культурной и языковой релевантности в системах обучения. Он предоставляет доступ к качественной генерированной речи, которая может быть использована для создания интерактивных и эффективных методик обучения. Помимо этого, MultiAiTutor может иметь положительное влияние на развитие технологий AI в области обучения языков, особенно в малоресурсных регионах. ## Выводы MultiAiTutor доказал свою эффективность в обеспеч

Annotation:

Generative speech models have demonstrated significant potential in personalizing teacher-student interactions, offering valuable real-world applications for language learning in children's education. However, achieving high-quality, child-friendly speech generation remains challenging, particularly for low-resource languages across diverse languages and cultural contexts. In this paper, we propose MultiAiTutor, an educational multilingual generative AI tutor with child-friendly designs, leverag...

ID: 2508.08715v1 eess.AS, cs.AI, cs.CL, eess.SP

arXiv PDF

📄 Designing Memory-Augmented AR Agents for Spatiotemporal Reasoning in Personalized Task Assistance

2025-08-14

Авторы:

Dongwook Choi, Taeyoon Kwon, Dongil Yang, Hyojun Kim, Jinyoung Yeo

## Контекст Augmented Reality (AR) системы в последнее время востребованы благодаря их возможности обеспечивать более контекстуально подходящие и адаптивные пользовательские опыты. Развитие интеллектуальных AR-агентов, которые могут помогать пользователям в решении задач в реальном мире, определяется тем, что они могут использовать свои возможности не только для решения простых задач, но и для решения сложных задач, требующих учета предыдущих опытов пользователя. Однако существуют проблемы с хранением и рациональным использованием данных, связанных с прошлым опытом пользователей. Недостаточное умение агентов воспринимать, сохранять и анализировать этот опыт приводит к ограниченному пониманию требований и предпочтений пользователя. Наша работа направлена на адресацию этой проблемы, предлагая фундаментальные решения, позволяющие AR-агентам эффективно учитывать историю пользовательских опытов и предоставлять улучшенные услуги по поддержке пользователей в различных задачах. ## Метод Мы предлагаем развитие интеллектуальной AR-системы, в которой используется подход, основанный на мультимодальном хранении и анализе данных. Наша AR-система включает в себя четыре модуля: (1) модуль обработки сенсорных данных, (2) модуль хранения памяти для долгосрочного хранения информации о прошлых опытах пользователя, (3) модуль спициотременного анализа, который способен анализировать связь между прошлым и настоящим контекстом, и (4) модуль актуатора, который отвечает за предоставление пользователю корректных инструкций через AR. Мы используем методы машинного обучения, чтобы обеспечить точный анализ и учет пользовательских данных. Данный подход позволяет системе воспринимать данные в реальном времени, используя свои предыдущие опыты для обеспечения более точной и персонализированной поддержки пользователю. ## Результаты Мы провели эксперименты с нашим подходом в различных сценариях, включая ситуации, требующие умения агента адаптироваться под конкретного пользователя и требующих рационального планирования. Наши результаты показали, что AR-система, использующая нашу модель, превосходит другие системы в способности к точному учету предыдущих пользовательских данных. В частности, наши модели показали значительное улучшение в способности понять и предсказать пользовательские предпочтения в среднесрочной и долгосрочной перспективе. Эти результаты подтверждают мощность нашей AR-системы в обеспечении улучшенного пользовательского опыта в сложных задачах, требующих надежной персонализации. ## Значимость Мы видим широкие возможности применения нашей AR-сист

Annotation:

Augmented Reality (AR) systems are increasingly integrating foundation models, such as Multimodal Large Language Models (MLLMs), to provide more context-aware and adaptive user experiences. This integration has led to the development of AR agents to support intelligent, goal-directed interactions in real-world environments. While current AR agents effectively support immediate tasks, they struggle with complex multi-step scenarios that require understanding and leveraging user's long-term experi...

ID: 2508.08774v1 cs.AI, cs.CL

arXiv PDF

📄 A Dual-Axis Taxonomy of Knowledge Editing for LLMs: From Mechanisms to Functions

2025-08-14

Авторы:

Amir Mohammad Salehoof, Ali Ramezani, Yadollah Yaghoobzadeh, Majid Nili Ahmadabadi

## Контекст Large language models (LLMs) получают большой объем знаний из больших текстовых корпусов. Однако эти знания могут стать устаревшими или неточными со временем. Ретренировка модели для исправления таких ошибок является компьютерно-затратным процессом. Кроме того, ретренировка может привести к потере существующих знаний или изменению общей модели. Для этих причин, модификация внутренних знаний моделей без полной ретренировки является эффективным альтернативным подходом. Такие методы называются "knowledge editing". Они предназначены для точного обновления фактических данных, сохранив все остальные качества модели. Пока что существуют существующие исследования, которые описывают механизмы модификации знаний, например, изменение параметров модели или использование внешней памяти. Однако, они не учитывают функцию, которую выполняет информация, которую необходимо изменить. В нашей работе мы предлагаем дополнительный подход, основывающийся на функциональной категоризации знаний, чтобы предложить более широкое представление. ## Метод Мы предлагаем двухосновную систему типологии для знаний, которые могут быть изменены в LLM. Одна ось определяется методом модификации (например, изменение параметров, внешняя память), а другая — функцией, которую выполняет соответствующая информация. Например, можно изменять фактические знания (такие как данные об истории или физике), временные знания (как события или сроки), концептуальные знания (как понятия или термины), коммуникативные знания (как синонимы или простые вопросы) и социальные знания (такие как социальные или культурные связи). Наша типология позволяет понять, какие методы лучше подходят для каждого типа знаний, и почему. ## Результаты Мы применили нашу систему типологии к различным моделям LLM и данным, проводя эксперименты для оценки того, насколько эффективны различные методы для каждого типа знаний. Наши результаты показали, что некоторые методы лучше подходят для определенных типов знаний, в то время как другие лучше подходят для других. Например, для фактических знаний вызывается более высокая точность при использовании методов, которые изменяют параметры модели. Тем не менее, для временных знаний, такие как сроки или даты, более эффективны методы, которые используют внешнюю память. ## Значимость Наша система типологии может быть применена в различных областях, включая образование, искусственный интеллект, робототехнику и др. Это позволяет моделям LLM быть более точными и реагировать более оперативно на изменения в своих з

Annotation:

Large language models (LLMs) acquire vast knowledge from large text corpora, but this information can become outdated or inaccurate. Since retraining is computationally expensive, knowledge editing offers an efficient alternative -- modifying internal knowledge without full retraining. These methods aim to update facts precisely while preserving the model's overall capabilities. While existing surveys focus on the mechanism of editing (e.g., parameter changes vs. external memory), they often ove...

ID: 2508.08795v1 cs.AI, cs.CL

arXiv PDF

📄 Revealing the Role of Audio Channels in ASR Performance Degradation

2025-08-14

Авторы:

Kuan-Tang Huang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang

## Контекст Аудиосъемка через различные технические устройства оказывает существенное влияние на качество распознавания речи систем автоматического распознавания речи (ASR). Несмотря на то что предварительно обученные ASR-модели достигли впечатляющих результатов в различных языковых задачах, их работа может значительно ухудшиться при использовании аудиозаписей, полученных на разных технических устройствах. Это проблема становится особенно актуальной в условиях многоязыкового распознавания, когда звуковые файлы могут быть записаны на разных устройствах. Общепринятое мнение заключается в том, что это связано с несоответствием между аудиоданными, использованными во время обучения, и тестовыми данными. Однако, по мнению авторов, коллективный эффект различных технических устройств может затруднять распознавание речи даже в условиях соответствия типа тестовые данные — тестовые данные. Это взаимодействие требует дополнительного изучения, поскольку оно может привести к материальным потерям в работе ASR-систем, особенно в критически важных областях, таких как транскрибирование медицинских лекций или юридических документов. ## Метод Для изучения влияния технических устройств на работу ASR-системы авторы применяют методику "переобучения" (fine-tuning) — дополнительное обучение модели на аудиозаписях разных устройств. Основная идея заключается в использовании уже обученной ASR-модели, адаптированной к одному типу звуковых устройств, для повышения качества работы на других типах. Для этого используется третий набор данных, который не был использован ни при обучении, ни при тестировании. Также авторы применяют новую технику, называемую "нормализации внутренних представлений", которая предназначена для уменьшения влияния технических различий на работу ASR-системы. Эта нормализация основывается на том, чтобы выравнивать внутренние представления модели с признаками, полученными от чистого аудиоканала (например, синтетического звука, нарезанного на слова). ## Результаты Проведенные эксперименты показали, что применение нормализации внутренних представлений приводит к значительному повышению качества работы ASR-системы при распознавании речи на неизвестных устройствах. Авторы демонстрируют, что их подход может улучшить работу ASR-систем не только в различных типах техники, но и в различных языках. Например, применение нормализации внутренних представлений улучшает точность распознавания в английском, китайском и японском языках на разных устройствах. Эти результаты подтверждают то, что не только несоответствие типов технических устройств, но и внутренние погре

Annotation:

Pre-trained automatic speech recognition (ASR) models have demonstrated strong performance on a variety of tasks. However, their performance can degrade substantially when the input audio comes from different recording channels. While previous studies have demonstrated this phenomenon, it is often attributed to the mismatch between training and testing corpora. This study argues that variations in speech characteristics caused by different recording channels can fundamentally harm ASR performanc...

ID: 2508.08967v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 E3-Rewrite: Learning to Rewrite SQL for Executability, Equivalence,and Efficiency

2025-08-14

Авторы:

Dongjie Xu, Yue Cui, Weijie Shi, Qingzhi Ma, Hanghui Guo, Jiaming Li, Yao Zhao, Ruiyuan Zhang, Shimin Di, Jia Zhu, Kai Zheng, Jiajie Xu

## Контекст Одна из основных задач в обработке запросов к базам данных (SQL) является SQL query rewriting. Эта задача состоит в том, чтобы переписать запрос в более эффективную форму, сохраняя при этом его корректность и семантику. Данная проблема важна для оптимизации выполнения запросов, уменьшения использования ресурсов и повышения производительности. Несмотря на прогрессы в этой области, существующие подходы, основанные на предварительно определенных правилах, сталкиваются с рядом ограничений: они не могут генерировать нестандартные решения для неожиданных запросов и часто не справляются с сложными конструкциями. Исследовательская группа предлагает использовать **BERT** для SQL query rewriting, так как этот подход может улучшить применимость и универсальность решений. ## Метод Предложенная модель **E3-Rewrite** — это рамка для SQL query rewriting, основанная на глубоком обучении и работающая в трех ключевых аспектах: executability, equivalence и efficiency. Основные компоненты этой модели: 1. **Context Construction Module**: Этот модуль построение контекста для rewriting с использованием исполнения планов запросов и демонстраций. Он формирует "bottleneck-aware prompts", которые указывают модели на основную сложность запроса, помогая генерировать более эффективные решения. 2. **Reinforcement Learning Framework**: Здесь применяется улучшенный рейтинг-функционал, который включает в себя: - **Executability**: Убеждение в том, что результат корректно выполняется. - **Equivalence**: Удостоверение о том, что результат эквивалентен исходному запросу. - **Efficiency**: Оптимизация времени выполнения. 3. **Staged Curriculum Learning**: Эта стратегия позволяет модели сосредоточиться вначале на executability и equivalence, а затем, постепенно, включать в процесс оптимизацию efficiency. ## Результаты В ходе экспериментов, проведенных на нескольких SQL-бенчмарках, **E3-Rewrite** показала следующие результаты: - **Execution Time**: Уменьшение времени выполнения на 25.6% по сравнению с текущими лучшими методами. - **Rewriting Success Rate**: Увеличение успешных результатов до 24.4%, что обеспечило обработку более сложных запросов, недоступных для предыдущих методов. - **Equivalence and Execução**: Эти показатели также повысились в сравнении с современными подходами. ## Значимость **E3-Rewrite** может использоваться в различных областях, таких как data engineering, business intelligence, и другие сферы, где SQL-запросы являются ключевым инструментом. Основные преимущества: - Улучшение производительности запросов за счет лучшей эффективности и корректности. - Расширение возможностей для обработки сложных запросов, которые ранее не удавалось решить. - Влияние на рынок, позволяя разработчикам использовать более профессиональные инструменты для работы с базами данных. ## Выводы **E3-Rewrite** доказала свою эффективность в области SQL query rewriting

Annotation:

SQL query rewriting aims to reformulate a query into a more efficient form while preserving equivalence. Most existing methods rely on predefined rewrite rules. However, such rule-based approaches face fundamental limitations: (1) fixed rule sets generalize poorly to novel query patterns and struggle with complex queries; (2) a wide range of effective rewriting strategies cannot be fully captured by declarative rules. To overcome these issues, we propose using large language models (LLMs) to gen...

ID: 2508.09023v1 cs.DB, cs.AI, cs.CL

arXiv PDF

1
2
118
119
120
121
122
129
130

Показано 1191 - 1200 из 1292 записей