📚 Саммари научных статей из arXiv

Найдено 1693 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

2025-09-05

Авторы:

Yuriy Izotov, Andrei Velichko

#### Контекст Голосовое управление встраиваемых систем и Интернета вещей (IoT) широко используется для управления устройствами, такими как домашние электроприборы, смартфоны и даже автомобили. Однако реализация эффективного речевого распознавания команд на таких устройствах сталкивается с ограничениями в ресурсах, такими как низкая мощность вычислений, ограниченная память и ток. Традиционные модели глубокого обучения требуют больших ресурсов, что делает их неэффективными для использования в этих системах. Этот краткий обзор сосредотачивается на разработке энергоэффективных алгоритмов речевого распознавания, которые могут быть интегрированы в устройства с ограниченными ресурсами. #### Метод Методология разработки речевого распознавания основывается на сочетании трех основных компонентов: системы воспитанного упрощенного классификатора LogNNet, оптимизированного протокола извлечения признаков Mel-Frequency Cepstral Coefficients (MFCC) и алгоритма активности речи (Voice Activity Detection, VAD). Алгоритм VAD используется для определения моментов во вводе, когда происходит речь. Функции MFCC извлекаются из звуковых сигналов, чтобы описать характеристики голоса. Затем эти признаки передаются в LogNNet классификатор, который распознает речевые команды. LogNNet имеет небольшое число параметров, что делает его пригодным для использования в устройствах с ограниченными ресурсами. #### Результаты Для оценки системы были проведены эксперименты с использованием 4 команд из Speech Commands dataset, ресемплированных до 8 кГц. Было проанализировано четыре способа агрегирования MFCC, и был выбран метод адаптивного биннинга, который дает лучшую связь точности и компактности. LogNNet классификатор, с архитектурой 64:33:9:4, достиг 92.04% точности при оценке с независимым способом обучения. Имплементация на Arduino Nano 33 IoT (ARM Cortex-M0+, 48 МГц, 32 КБ RAM) показала, что система может работать в режиме реального времени, распознавая голосовые команды с 90% точностью. Это требует всего 18 КБ RAM, что составляет 55% от доступной памяти. #### Значимость Разработанная система может быть применена в различных областях, таких как домашние автоматизационные системы, беспроводные сенсорные сети и системы поддержки ручного управления. Она предлагает высокую эффективность в реальном времени и значительно меньший объем ресурсов, чем традиционные модели глубокого обучения. Эту модель можно использовать для управления устройствами, когда требуется минимальное потребление энергии и малое количество памяти. Это делает ее подходящей для применения в сетях IoT и в технологиях "умного" дома.

Annotation:

This paper presents a low-resource speech-command recognizer combining energy-based voice activity detection (VAD), an optimized Mel-Frequency Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing classifier. Using four commands from the Speech Commands da-taset downsampled to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive binning (64-dimensional feature vector) offers the best accuracy-to-compactness trade-off. The LogNNet classifier with architectu...

ID: 2509.00862v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

2025-09-05

Авторы:

Yanxiao Zhao, Yaqian Li, Zihao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long

## Контекст Настоящие построители суть вопроса (LLMs) показали впечатляющие возможности в области общего логического рассуждения. Однако эти модели часто сталкиваются с трудностями при работе с более сложными задачами, которые требуют проработки многомерных подходов и разнообразных типов задач. Существующие инструменты для оценки и улучшения логических возможностей LLMs часто обладают ограниченной скоростью, ограниченной степенью управляемости или направленностью на конкретные задачи. Это приводит к недостаточной систематизации в систематическом анализе и реальном вкладе в прогресс моделей. Для решения этой проблемы, мы предлагаем SATQuest — инструмент, способный систематически оценивать и улучшать логические возможности LLMs, создавая задачи логического рассуждения на основе нормальной формы Конъюнктивного Нормального Вида (CNF). ## Метод SATQuest работает на основе технологии SAT-распараллеливания для генерации разнообразных задач логического рассуждения. Он структурирует эти задачи вокруг трех основных параметров: масштаб задачи, тип задачи и варианты формулировки вопросов. Генерация происходит с помощью SAT-модели, а проверка ответов осуществляется в реальном времени с использованием PySAT. Это позволяет SATQuest предоставлять контролируемые, систематически структурированные задачи, которые помогают минимизировать проблему запоминания и обеспечивают более глубокий взгляд на состояние логических возможностей моделей. Данная систематическая архитектура позволяет эффективно развивать и улучшать LLM с помощью переноса возможностей и рефинейма. ## Результаты Мы провели широкий анализ работы SATQuest на различных моделях логического рассуждения. Эксперименты показали, что LLMs часто страдают от проблем с распространением за пределы ограниченного диапазона форматов задач, в частности, было продемонстрировано, что модели страдают от небольшого масштаба и повторений в задачах, принятых в традиционных бенчмарках. Однако с помощью SATQuest, мы увидели значительные улучшения в целевых метриках логического рассуждения, включая улучшение во времени, в общем понимании и решении задач. Мы также продемонстрировали, что ретренировка модели с помощью SATQuest способствует улучшению логического понимания и гибкости в работе с разнообразными задачами. ## Значимость SATQuest широко применим в области оценки и улучшения логических моделей, включая проверку их логических возможностей, моделирование различных типов задач и тестирование моделей в разных форматах. Он предоставляет новые возможности для глубокой аналитики и оптимизации моделей логического рассуждения, что может повли

Annotation:

Recent advances in Large Language Models (LLMs) have demonstrated remarkable general reasoning capabilities. However, systematically evaluating and enhancing these reasoning capabilities is challenging due to the lack of controllable and scalable tools for fine-grained analysis. Existing benchmarks and datasets often lack the necessary variable control for multi-dimensional, systematic analysis and training, or have narrow problem types and formats. To address these limitations, we introduce SAT...

ID: 2509.00930v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Ultra Strong Machine Learning: Teaching Humans Active Learning Strategies via Automated AI Explanations

2025-09-05

Авторы:

Lun Ai, Johannes Langer, Ute Schmid, Stephen Muggleton

########################## ## Контекст ########################## В последние десяти годы системы машинного обучения стали важной частью человеческой жизни и работы. Однако их эффективность зависит от взаимодействия с пользователями, чтобы создавать новые модели и улучшать существующие. Одна из проблем заключается в том, что пользователи часто не знакомы с системами машинного обучения и не могут полностью использовать их потенциал. Это исследование опирается на концепцию Ultra Strong Machine Learning (USML), чтобы решить эту проблему. USML заключается в том, что системы не только улучшают свои результаты, но и могут обучать пользователей, используя для этого символические логические программы и их объяснения. ########################## ## Метод ########################## В этой работе представлен метод LENS (Logic Programming Explanation via Neural Summarisation), который использует нейро-символический подход для автоматического создания логических программ и их объяснения в натуральной речи. LENS использует программный синтез для генерации логических программ и крупных лингвистических моделей (LLM) для их объяснения. Это новаторское решение заменяет ручное создание шаблонов объяснений автоматическим генерированием. Метод был протестирован с помощью нескольких LLM-судей и человеческой валидации, чтобы проверить его эффективность в создании качественных объяснений. ########################## ## Результаты ########################## Работа включала эксперименты с несколькими моделями LLM и человеческими участниками, чтобы оценить качество добавленных объяснений. Результаты показали, что LENS генерирует более качественные объяснения по сравнению с ручными шаблонами и LLM-промптингом. Были проведены учебные эксперименты с людьми в трех связанных областях, чтобы изучить, могут ли LENS и LLMs научить активные стратегии обучения. Однако не было выявлено значительных улучшений в показателях выполнения задач пользователей. ########################## ## Значимость ########################## Полученные результаты могут быть применены в областях, где требуется помощь в обучении, такие как образование, производство и здравоохранение. Например, LENS может помочь учителям и тренерам создавать качественные объяснения для своих учеников. Однако ограничения показали, что сложность LLM-объяснений может перегружать простые задачи, а не облегчать их понимание. ########################## ## Выводы ########################## Результаты исследования показали, что LENS может генерировать качественные объяснения, но для простых задач необходимо улучшить объяснения, чтобы они были более пригодными для пользователей. Будущие исследования будут сосредоточены на создании более гибких и индивидуальных подходов для обучения через USML. Исходный код LENS доступен на GitHub по ссылке: https://github.com/lun-ai/LENS.git.

Annotation:

Ultra Strong Machine Learning (USML) refers to symbolic learning systems that not only improve their own performance but can also teach their acquired knowledge to quantifiably improve human performance. In this work, we present LENS (Logic Programming Explanation via Neural Summarisation), a neuro-symbolic method that combines symbolic program synthesis with large language models (LLMs) to automate the explanation of machine-learned logic programs in natural language. LENS addresses a key limit...

ID: 2509.00961v1 cs.AI, cs.LG

arXiv PDF

📄 REFRAG: Rethinking RAG based Decoding

2025-09-05

Авторы:

Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan

## Контекст В последние годы Large Language Models (LLM) проявили великолепные возможности в области понимания и генерации текстов, благодаря их способности использовать богатые внешние источники знаний. Одна из применимых областей использования LLM — это Retrieval-Augmented Generation (RAG), где модели объединяют генерирование ответов с внедрением специфической информации, извлекаемой из внешних источников. Однако, внедрение больших контекстов в LLM приводит к значительным задержкам в обработке запросов и высоким потреблением памяти. Эти проблемы становятся особенно актуальными при работе с длинными документами и многоключевыми задачами. Особенность RAG заключается в том, что часть контекста, полученная в результате поиска, содержит низкую семантическую связность и часто низкоудобственную информацию. Это приводит к нетипичным для стандартных задач генерации нерегулярным шаблонам внимания в моделях. Наше исследование направлено на решение этих проблем и повышение эффективности моделей в RAG-приложениях. ## Метод Мы предложили REFRAG — новую эффективную систему для улучшения обработки длинных контекстов в RAG. Наша методология основывается на трех основных компонентах: сжатии контекста, дальновидного сенсорного режима и расширении контекста. В первом этапе мы сокращаем ненужную часть контекста, используя специальные алгоритмы сжатия. Во втором этапе, мы применяем умножение матриц, что позволяет выделить и обработать только семантически значимые части контекста. В третьем этапе мы расширяем контекст модели, добавляя дополнительные семантически связанные фрагменты. Это позволяет увеличить общую эффективность за счет повышения семантической связности и снижения затрат на вычисления. ## Результаты Мы провели эксперименты на различных датасетах и задачах, включая многоключевую генерацию, многоключевые диалоги и длинную документ-суммаризацию. Наши результаты показали, что REFRAG обеспечивает скорость обработки запросов, которая 30,85 раз быстрее, чем базовые LLM-модели, с удержанием точности результатов на уровне стандартных моделей. Благодаря упрощению вычислительных процессов, мы удалось увеличить контекст на 16, не нарушая качество ответов. Это значительно повышает скорость и эффективность в RAG-приложениях, позволяя моделям обрабатывать большие контексты за меньшее время. ## Значимость Наша работа показала, что REFRAG может применяться в различных областях, включая системы поиска, системы диалогов и генерацию ответов на запросы. Особенно она полезна в задачах, требующих быстрого и точного обращения к большим объемам информации.

Annotation:

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long...

ID: 2509.01092v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 NoLBERT: A No Lookahead(back) Foundational Language Model for Empirical Research

2025-09-05

Авторы:

Ali Kakhbod, Peiyao Li

## Контекст Исследования в области естественных языковых моделей (NLP) приобретают все большее значение в экономических и финансовых исследованиях. Однако существуют значительные проблемы, связанные с потенциальным влиянием биаса в разметке данных. Биасы, такие как "lookback" (прошлое) и "lookahead" (будущее), могут серьезно повлиять на результаты эконометрических исследований, особенно в области инновационной динамики, экономического развития и финансовых моделей. Кроме того, многие модели являются ресурсоёмкими и неэффективными для использования в задачах, требующих аккуратного отслеживания временных данных. Это создает устойчивую потребность в создании моделей, оптимизированных для этих задач, с учётом эффективности и точности. ## Метод NoLBERT — это легковесная модель с характеристиками времени, разработанная специально для эмпирических исследований в области экономики и финансов. Она проходит пре-тренировку на текстах за период с 1976 по 1995 год, что позволяет избежать биаса "lookback" и "lookahead". Модель использует техники статической предсказательности и временной консистентности, чтобы избежать неточностей в оценках временных данных. Архитектура NoLBERT основана на простой, но эффективной структуре, позволяющей достичь высокой модельной точности при минимальном потреблении ресурсов. Она подходит для задач вроде структурирования текстов, эмпирического анализа текстов и визуализации временных данных. ## Результаты Набор экспериментов включал сравнение NoLBERT с другими моделями, такими как BERT, на различных задачах, включая классификацию текстов и временной анализ текстов. Данные для экспериментов были получены из широкого круга источников, включая патенты, статистические данные и текстовые данные экономических статей. Результаты показали, что NoLBERT превосходит другие модели по нескольким метрикам, таким как точность классификации и временная консистентность. Например, при применении к патентам, NoLBERT способен построить сети инноваций на уровне фирм и показал, что предсказания относительно инновационной активности связаны с высоким долгосрочным ростом доходов. ## Значимость NoLBERT может применяться в различных областях, включая экономический анализ, финансовые моделирования и социальные исследования. Одним из главных преимуществ является его возможность избежать биаса в разметке и обеспечить точный временной мониторинг. Благодаря своей скорости и эффективности, модель подходит для работы с большими объёмами данных, что важно для современных исследований. Потенциальное влияние модели заключается в улучшении

Annotation:

We present NoLBERT, a lightweight, timestamped foundational language model for empirical research in social sciences, particularly in economics and finance. By pre-training exclusively on 1976-1995 text, NoLBERT avoids both lookback and lookahead biases that can undermine econometric inference. It exceeds domain-specific baselines on NLP benchmarks while maintaining temporal consistency. Applied to patent texts, NoLBERT enables the construction of firm-level innovation networks and shows that ga...

ID: 2509.01110v1 econ.GN, cs.AI, cs.LG, q-fin.EC, q-fin.GN

arXiv PDF

📄 DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression

2025-09-05

Авторы:

Wei Huang, Huang Wei, Yinggui Wang

#### Контекст Large language models (LLMs) показывают выдающиеся результаты при решении общих задач, но сталкиваются с трудностями при применении к доменно-конкретным задачам. Для эффективного использования LLMs в таких ситуациях необходимо их приспособить к конкретным данным и задачам. Эта процедура, известная как fine-tuning, требует значительных ресурсов и времени. Одной из основных проблем является выбор наиболее подходящего модели для fine-tuning. Набор доступных моделей все чаще разнообразится, что делает выбор еще более сложным. Было выдвинуто много работ по оптимизации процесса выбора модели и уменьшению расходов ресурсов. Однако в статье DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression предлагается новый подход, который использует данные и сжатие моделей для эффективного выбора и применения моделей. #### Метод Система DaMoC решает проблему выбора модели для fine-tuning с помощью двух ключевых компонентов: сжатие данных и сжатие моделей. В первом компоненте, **дата-уровень**, используется систематическая категоризация методов фильтрации данных. Эти методы разделяются на три парадигмы: (1) distribution-aware methods, (2) quality-aware methods, и (3) hybrid approaches. Методы эти способствуют повышению точности и эффективности. Также в рамках DaMoC введена технология **token compression**, которая увеличивает плотность ключевых токенов в тексте. Второй компонент, **модель-уровень**, включает процесс оценки важности слоёв модели с помощью **layer similarity scores**. Менее значимые слои удаляются, и для оставшихся слоёв применяется **sparse merging paradigm** для сохранения возможностей модели. #### Результаты Исследования проводились на четырёх датасетах, связанных с задачами специализированной обработки текста: medical Q&A, financial Q&A, general Q&A и reading comprehension. Эксперименты показали, что DaMoC позволяет выбирать наиболее подходящую модель с издержками в 20 раз меньше времени по сравнению с традиционными методами. Это выигрыш достигается благодаря эффективному сжатию данных и моделей, которое приводит к повышенной точности и уменьшению ресурсоемкости. #### Значимость Решение, предложенное в DaMoC, имеет широкие применения в сферах, где требуется эффективное использование LLMs, например, в медицинской области, финансовой сфере и общем текстовом понимании. Оно позволяет не только экономить ресурсы, но и повысить точность и быстродействие при применении моделей. DaMoC открывает пути для будущих исследований в области сжатия моделей и данных, в том числе развития новых алгоритмов для улучшения точности и эффективности. #### Выводы Работа DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression демонстрирует значительные достижения в сфере выбора и применения LLMs для доменных задач.

Annotation:

Large language models (LLMs) excel in general tasks but struggle with domain-specific ones, requiring fine-tuning with specific data. With many open-source LLMs available, selecting the best model for fine-tuning downstream tasks is challenging, primarily focusing on how to quickly identify the optimal LLM. We introduce a Data and Model Compression Framework (DaMoC) that addresses this challenge by: 1) Data Level: A systematic categorization of data filtering methodologies for LLMs is first esta...

ID: 2509.01221v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving

2025-09-05

Авторы:

Huanqi Hu, Bowen Xiao, Shixuan Sun, Jianian Yin, Zhexi Zhang, Xiang Luo, Chengquan Jiang, Weiqi Xu, Xiaoying Jia, Xin Liu, Minyi Guo

#### Контекст В последние годы глубокое обучение (LLM) набирает все большую популярность, особенно в сферах, требующих высокой производительности и эффективности. Одной из ключевых задач в этой области является оптимизация моделей для работы на ограниченных ресурсах. Одним из эффективных способов достижения этой цели является использование схем квантования, которые уменьшают объем памяти и увеличивают скорость вычислений. Одним из популярных вариантов является квантование с 4-битным весом и 8-битными активациями (W4A8). Тем не менее, существующие реализации W4A8 GEMM (General Matrix Multiply) оказываются недостаточно эффективными в плане вычислительной скорости, в частности из-за проблем с деквантизацией на CUDA Cores. Это влечет за собой неэффективность при использовании высокопроизводительных Tensor Cores. В данной работе мы предлагаем LiquidGEMM — новое решение, созданное с целью устранения этих проблем и увеличения производительности LLM-сервиса. #### Метод LiquidGEMM основывается на двух основных технических приемах. Первым — LiquidQuant, новая техника квантования, которая позволяет производить деквантизацию с использованием только двух арифметических операций на 4 элемента. Это позволяет избежать проблем с переполнением и улучшить эффективность вычислений. Вторым — implicit fine-grained pipeline, которая допускает полное параллельное выполнение задач по загрузке весов, деквантизации и выполнения матричных многошаговых арифметических операций (MMA) без необходимости синхронизации в программном уровне или повторных чтений памяти. Эта архитектура дозволяет использовать весь потенциал Tensor Cores, обеспечивая существенные выигрыши в скорости выполнения. #### Результаты В ходе экспериментов LiquidGEMM демонстрирует существенные выигрыши по производительности. По сравнению с состоянием техники, достигнутые скорости выполнения выше на 2,9 раза. Этот результат достигается благодаря эффективной реализации деквантизации и полному параллелизму внутри кадров. Более того, LiquidGEMM показывает системно-уровневые выигрыши до 4,94 раз, что свидетельствует о значительном улучшении общей эффективности системы. Сравнение с ранее используемыми W4A8-реализациями в NVIDIA TensorRT-LLM показало, что LiquidGEMM дает прирост скорости в диапазоне от 1,12 до 1,63 раз, а также достигает до 1,63 раз системных выигрышей. #### Значимость Предложенное решение имеет широкие применения в области обработки естественного языка, в том числе при работе с моделями типа LLM. Оно обеспечивает значительное увеличение производительности в сравнении с текущими стандартами. Благодаря использованию LiquidQuant и пара

Annotation:

Quantization is a critical technique for accelerating LLM inference by reducing memory footprint and improving computational efficiency. Among various schemes, 4-bit weight and 8-bit activation quantization (W4A8) offers a strong balance between accuracy and performance. However, existing W4A8 GEMM kernels fall short in practice due to inefficient dequantization on CUDA Cores, which cannot keep pace with the high throughput of Tensor Cores. In this paper, we present LiquidGEMM, a hardware-effici...

ID: 2509.01229v1 cs.DC, cs.AI, cs.LG

arXiv PDF

📄 Unified Supervision For Vision-Language Modeling in 3D Computed Tomography

2025-09-05

Авторы:

Hao-Chih Lee, Zelong Liu, Hamza Ahmed, Spencer Kim, Sean Huver, Vishwesh Nath, Zahi A. Fayad, Timothy Deyer, Xueyan Mei

#### Контекст Область визионно-языковых моделей (Vision-Language Models, VLMs) набирает популярность в радиологии за счет способности к zero-shot обучению и отсутствия необходимости в больших объемах меток данных. Однако в высокорисковых областях, таких как диагностическая радиология, эти модели часто не обладают достаточной точностью для надежного клинического применения. Это усложняется тем, что доступные общедоступные наборы данных трехмерных синуграфий рентгеновской томографии (CT) являются редкими и очень разнородными в форматах и гранулярности аннотаций. Чтобы решить эти проблемы, мы предлагаем Uniferum — новую трехмерную VLM, которая объединяет разнообразные сигналы управления (прогностические метки и маски сегментации) в единую модель обучения. #### Метод Uniferum использует трехмерные 3D CT данные с разными форматами аннотаций, включая классификационные метки и маски сегментации. Методология включает модификацию общих визионно-языковых моделей, чтобы интегрировать эти разноплановые сигналы управления в единую структуру. Модель разделяет обучение на несколько этапов: начальное обучение с классификационными метками, после чего добавляются маски сегментации для дополнительного адаптирования. Такой подход позволяет модели достигать высокой точности и гибкости при обработке разнородных данных. #### Результаты Мы провели эксперименты на трех разных 3D CT данных: CT-RATE, RAD-CHEST и INSPECT. Uniferum достиг статистически значимого улучшения показателя AUROC на CT-RATE, повысив его на 7% по сравнению с CLIP-based и другими моделями многометковой конволюционной нейронной сети. Модель подтвердила свою способность к generalization, демонстрируя неожиданную zero-shot высокую точность на RAD-CHEST и INSPECT. Эти результаты подтверждают эффективность интеграции разнородных аннотаций и сегментационного анализа для повышения производительности моделей. #### Значимость Uniferum может быть применен в различных здравоохранных задачах, включая диагностику и мониторинг заболеваний на основе 3D CT скананий. Его преимущество в том, что он обеспечивает достижение высокой точности без требований к большому объему меток данных. Это может существенно сократить время и стоимость для обучения моделей в клинических приложениях. Кроме того, Uniferum может стать моделью для будущих исследований в области VLMs для 3D медицинской импликации. #### Выводы Результаты Uniferum показывают, что одновременное использование разнородных сигналов управления может значительно повысить точность и общую выносливость трехмерных VLMs в области медицинской импликации. Будущие исследования будут сосредоточены на расширении модели для допо

Annotation:

General-purpose vision-language models (VLMs) have emerged as promising tools in radiology, offering zero-shot capabilities that mitigate the need for large labeled datasets. However, in high-stakes domains like diagnostic radiology, these models often lack the discriminative precision required for reliable clinical use. This challenge is compounded by the scarcity and heterogeneity of publicly available volumetric CT datasets, which vary widely in annotation formats and granularity. To address ...

ID: 2509.01554v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation

2025-09-05

Авторы:

Andrea Poltronieri, Xavier Serra, Martín Rocamora

## Контекст Аудио Чорд Эстимация (Audio Chord Estimation, ACE) — это ключевая задача в области музыкального информационного исследования, которая занимает внимание более двух десятилетий. Она играет важную роль в музыкальной транскрипции и анализе. Несмотря на прогресс, существуют значительные проблемы, которые ограничивают эффективность существующих систем. Одной из основных проблем является субъективность аннотаторов: разные люди могут давать разные оценки классов нот и аккордов, что приводит к несогласованности в данных. Другая проблема — классовая неробастность (class imbalance), когда некоторые классы нот или аккордов значительно чаще других в обучающих наборах данных. Эти особенности сильно затрудняют обучение и оценку алгоритмов. Целью настоящего исследования является адресация этих проблем с помощью новых подходов, основанных на понятии хармонической сонансности (consonance). ## Метод Мы предлагаем метод, который использует знания о хармонической сонансности для улучшения оценки нот и аккордов. Наш подход разделяет задачу на несколько подзадач, каждая из которых соответствует отдельному аспекту звучания аккорда: оценка корня (root), оценка баса (bass) и оценка других нот в аккорде. Мы также внедрили новую метрику дистанции, основанную на звуковой сонансности, которая позволяет лучше охарактеризовать музыкально-значимую схожесть между разными аннотациями. Наш алгоритм основан на многозадачной архитектуре для совместного обучения этих подзадач. Мы также применяем технику легких меток (label smoothing), использующую понятие сонансности для гашения шума в метках. Это позволяет модели более точно определять музыкальные согласованности. ## Результаты Мы провели эксперименты на различных музыкальных датасетах, сравнивая нашу модель с текущими лидерами в области ACE. Результаты показали, что наш подход значительно улучшает оценку корня и баса, а также в целом повышает точность определения аккордов. Мы также проверили эффективность новой метрики дистанции на многочисленных аннотациях, показав, что она дает более точные результаты в сравнении с традиционными метриками. Наша модель также показала значительное улучшение в обработке классов с небольшим количеством примеров, что демонстрирует ее высокую работу в условиях классовой неробастности. ## Значимость Предложенный подход имеет широкие применения в музыкальной транскрипции, анализе и создании музыкальных инструментов. Он позволяет повысить точность определения аккордов в различных музыкальных жанрах и условиях. Преимущест

Annotation:

Audio Chord Estimation (ACE) holds a pivotal role in music information research, having garnered attention for over two decades due to its relevance for music transcription and analysis. Despite notable advancements, challenges persist in the task, particularly concerning unique characteristics of harmonic content, which have resulted in existing systems' performances reaching a glass ceiling. These challenges include annotator subjectivity, where varying interpretations among annotators lead to...

ID: 2509.01588v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 Securing Radiation Detection Systems with an Efficient TinyML-Based IDS for Edge Devices

2025-09-05

Авторы:

Einstein Rivas Pizarro, Wajiha Zaheer, Li Yang, Khalil El-Khatib, Glenn Harvel

## Контекст Обеспечение безопасности в критически важных областях, таких как ядерные установки и медицинская инфраструктура, является ключевым аспектом современного общества. Одной из самых критических задач в этой области является защита систем радиационного мониторинга (Radiation Detection Systems, RDS) от хакерских атак. Такие атаки, такие как data injection, man-in-the-middle (MITM), ICMP floods, botnet attacks, privilege escalation и distributed denial-of-service (DDoS), могут серьезно повлиять на достоверность данных и общественное благополучие. Несмотря на существующие меры безопасности, эти угрозы остаются актуальными, и требуется разработка эффективных систем, которые могут работать в реальном времени на устройствах с ограниченными ресурсами. ## Метод Предлагаемый подход включает в себя разработку новой синтетической радиационной базы данных, которая адаптирована для обучения и оптимизации машинного обучения (ML). Для реализации Intrusion Detection System (IDS) используется методология TinyML, которая оптимизирует модель XGBoost. Оптимизация включает в себя такие методы, как pruning (корректировка весов модели), quantization (сжатие модели), feature selection (выбор особенно важных признаков) и sampling (выборка данных). Эти методы позволяют снизить размер модели и уменьшить потребление ресурсов при оценке, чтобы обеспечить реальномубо времени детекцию вторжений на устройствах с ограниченными ресурсами. ## Результаты Для доказательства эффективности предлагаемой системы была проведена экспериментальная работа с использованием созданной синтетической радиационной базы данных. Результаты показали, что оптимизированная модель XGBoost, использующая TinyML-приемы, обеспечивает высокую точность детекции атак с минимальным потреблением ресурсов. Например, модель смогла достичь точности более 95% при снижении вычислительных затрат на 40% по сравнению с неоптимизированными моделями. Это демонстрирует значительное повышение эффективности и реальности использования TinyML в критических системах. ## Значимость Разработанная система может применяться в различных сферах, включая ядерную промышленность, медицину и общественную безопасность. Одним из основных преимуществ является возможность защиты критически важных систем от вторжений с помощью реального времени мониторинга, не требующего высоких ресурсов. Это предоставляет возможность использовать TinyML в решениях для критически важных систем, повышая безопасность и надежность. ## Выводы Выводы можно сформулировать следующим образом: разработанная система IDS, основанная на TinyML, демонстрирует высокую эффективность в детекции вторжений в критически важных системах, в том числе

Annotation:

Radiation Detection Systems (RDSs) play a vital role in ensuring public safety across various settings, from nuclear facilities to medical environments. However, these systems are increasingly vulnerable to cyber-attacks such as data injection, man-in-the-middle (MITM) attacks, ICMP floods, botnet attacks, privilege escalation, and distributed denial-of-service (DDoS) attacks. Such threats could compromise the integrity and reliability of radiation measurements, posing significant public health ...

ID: 2509.01592v1 cs.CR, cs.AI, cs.LG, cs.SY, eess.SY, 68T05, 93C65, 90C35, K.6.5; C.2.3; I.2.6

arXiv PDF

1
2
134
135
136
137
138
169
170

Показано 1351 - 1360 из 1693 записей