📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Kang Chen, Xiuze Zhou, Yuanguo Lin, Jinhe Su, Yuanhui Yu, Li Shen, Fan Lin

Модели больших языковых моделей (LLMs), являющимися основополагающими для развития естественного языкового обработки (NLP), оперируют огромными объемами данных, часто извлекаемыми из неконтролируемых источников. Это создает серьезные риски для их безопасности, такие как ввод злонамеренных команд, ядерные явления и уязвимости к действиям, направленным на токсичность или дата-подделку. Такие риски становятся критичными при использовании LLMs в критически важных системах, где требуется доверие пользователей и надёжность системы. В данном исследовании анализируются основные данные-риски для LLMs и предлагается набор мер по их устранению, включая адверсарный тренинг, RLHF и данных Augmentation. Также проводится классификация и анализ специальных датасета для тестирования защищенности моделей в различных сферах. Основные выводы статьи — это выделение перспективных направлений, таких как безопасное обновление моделей, объяснимость защитных механизмов и централизованное руководство, для поддержания безопасного и этичного развития LLMs.
Annotation:
Large Language Models (LLMs), now a foundation in advancing natural language processing, power applications such as text generation, machine translation, and conversational systems. Despite their transformative potential, these models inherently rely on massive amounts of training data, often collected from diverse and uncurated sources, which exposes them to serious data security risks. Harmful or malicious data can compromise model behavior, leading to issues such as toxic output, hallucinatio...
ID: 2508.02312v1 cs.CR, cs.AI
Авторы:

Jiajia Guo, Yiming Cui, Shi Jin, Jun Zhang

**Резюме** В статье рассматриваются перспективы использования больших искусственных нейронных сетей (Large AI Models, LAMs) для улучшения технологий физического слоя беспроводных систем связи. Известным ограничением в этой области является ограниченная гибкость и ограниченная область применения алгоритмов, разрабатываемых специально для конкретной задачи. Основной проблемой является необходимость в моделях с повышенной гибкостью, надежностью и многозадачностью. Работа предлагает два подхода для решения этой проблемы: 1) использование предобученных LAMs для решения нескольких задач физического слоя беспроводных систем связи, 2) разработка дополнительных моделей, которые могут работать непосредственно в этой области. Для каждого подхода представлены основные технологии, используемые для решения задач физического слоя беспроводных систем связи. В этой статье также предложены идеи по развитию LAMs, включая разработку более эффективных и интерпретируемых моделей, создание стандартизированных датасетов и развитие новых стратегий сотрудничества между большими и малыми моделями. На основе проведенных исследований, авторы приходят к выводу, что широкое применение LAMs может существенно повысить производительность и надежность беспроводных систем связи.
Annotation:
Large artificial intelligence models (LAMs) are transforming wireless physical layer technologies through their robust generalization, multitask processing, and multimodal capabilities. This article reviews recent advancements in LAM applications for physical layer communications, addressing limitations of conventional AI-based approaches. LAM applications are classified into two strategies: leveraging pre-trained LAMs and developing native LAMs designed specifically for physical layer tasks. Th...
ID: 2508.02314v1 cs.IT, cs.AI, math.IT
Авторы:

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

Ограничения системы и трудности в обучении omni-modal LLMs влекут за собой низкую эффективность и высокий инженерный затрат. Мы предлагаем VeOmni — модульный и производительный фреймворк, который ускоряет развитие omni-modal LLMs. Основной идеей VeOmni является использование модельно-центрических распределенных рецептов, разделяющих коммуникацию от вычислений. Это позволяет эффективно использовать трехмерную параллельность при обучении omni-modal LLMs. Кроме того, VeOmni обеспечивает гибкую настройку, позволяя легко добавлять новые модели с минимальным кодовым изменением. Тестирование показало, что VeOmni обеспечивает высокую производительность: 30B-параметровый модельный хранилищ поддерживает обучение с 2,800 токенами/секунду/GPU и достигает 160K контекстных длин на 128 GPU. Это открывает новые возможности для эффективного обучения omni-modal LLMs с большими моделями и длинными контекстами.
Annotation:
Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for...
ID: 2508.02317v3 cs.CL, cs.AI, cs.DC
Авторы:

Wenyuan Liu, Haoqian Meng, Yilun Luo, Peng Zhang, Xindian Ma

Отрицательный воздействие нежелательных нишей в регулируемых рынках цены сильно влияет на эффективность рыночного механизма. Одним из ключевых направлений выявления таких ниш является оценка степени аномалий в ценовых динамиках. В статье предложен метод, основанный на машинном обучении, позволяющий определять аномалии в ценовых данных и выделять ниши, которые могут привести к неэффективности рынка. В качестве основных показателей используются разброс цен, темпы изменения и дисперсия. Результаты применения метода к реальным данным показали, что он эффективно выделяет ниши и определяет их влияние на рыночную эффективность. Этот подход может быть применен для мониторинга рыночных условий, определения неоптимальных ниш и регулирования цен.
Annotation:
Quantization significantly accelerates inference in large language models (LLMs) by replacing original high-precision matrices with low-precision counterparts. Recent advances in weight-activation quantization have primarily focused on mapping both weights and activations to the INT4 format. Although the new FP4 Tensor Cores in NVIDIA's Blackwell architecture offer up to 4x speedup over FP16, existing INT4-based kernels fail to fully exploit this capability due to mismatched data formats. To bri...
ID: 2508.02343v1 cs.LG, cs.AI
Авторы:

Xingchen Zou, Yuhao Yang, Zheng Chen, Xixuan Hao, Yiqi Chen, Chao Huang, Yuxuan Liang

Трафическое управление сигнализацией (TSC) играет ключевую роль в борьбе с наплывом трафика и поддержании здравого смысла в урбанизированных пространствах. В статье представляется Traffic-R1, основанная на reinforced large language models (LLMs), модель, которая предлагает новый подход к решению проблемы TSC. Отличительными чертами Traffic-R1 являются: 1) возможность нулевого затраты подготовки к работе на новых маршрутах и неожиданных ситуациях благодаря интерной системе политик управления трафиком и природе человеческого разума; 2) легковесная архитектура 3B параметров, позволяющая быстрым вычислениям на мобильных устройствах; 3) транспартность процесса управления и возможность синхронного общения между интересующими пересечениями. Испытания показывают, что Traffic-R1 превосходит сильные контроллеры за счет высокой гибкости и эффективности. Она уже управляет трафиком для около 55 000 водителей ежедневно, сокращая ожидание в пробках на 5% и уменьшая нагрузку на операторов вдвое.
Annotation:
Traffic signal control (TSC) is vital for mitigating congestion and sustaining urban mobility. In this paper, we introduce Traffic-R1, a foundation model with human-like reasoning for TSC systems. Our model is developed through self-exploration and iteration of reinforced large language models (LLMs) with expert guidance in a simulated traffic environment. Compared to traditional reinforcement learning (RL) and recent LLM-based methods, Traffic-R1 offers three significant advantages. First, Traf...
ID: 2508.02344v1 cs.AI
Авторы:

Byeonggyu Park, Hee-Yeun Kim, Byonghyok Choi, Hansang Cho, Byungkwan Kim, Soomok Lee, Mingu Jeon, Seong-Woo Kim

Детектирование пешеходов в условиях Non-Line-of-Sight (NLoS) — ключевая проблема для систем автоматизированного вождения, особенно в сложных транспортных ситуациях, таких как T-пересечения. Несмотря на то что мм-волновые радары оказываются эффективными для обнаружения объектов в таких ситуациях, их 2D-пространственная модель (PCD) часто подвержена деформациям из-за многопутных отражений, что снижает точность расположения объектов. Другой подход, основанный на использовании камер, может обеспечить высококачественные изображения, но их недостаток в глубинном видении затрудняет определение геометрии среды. Мы предлагаем новую систему, которая объединяет 2D-данные радара с интерпретацией 3D-сцены, полученной из изображений камеры. Эта система позволяет восстановить пространственную модель для точного расположения пешеходов в NLoS-регионах. Эксперименты на реальном транспортном средстве показали, что предложенный подход достаточно эффективен для решения данной задачи в реальных условиях.
Annotation:
Pedestrians Localization in Non-Line-of-Sight (NLoS) regions within urban environments poses a significant challenge for autonomous driving systems. While mmWave radar has demonstrated potential for detecting objects in such scenarios, the 2D radar point cloud (PCD) data is susceptible to distortions caused by multipath reflections, making accurate spatial inference difficult. Additionally, although camera images provide high-resolution visual information, they lack depth perception and cannot d...
ID: 2508.02348v1 cs.CV, cs.AI, cs.RO
Авторы:

Xu Wang, Shengeng Tang, Fei Wang, Lechao Cheng, Dan Guo, Feng Xue, Richang Hong

**Резюме** Генерация убедительных и визуально точных говорящих лиц остается вызовом в AI, особенно при ограниченном доступе к высококачественным аудио-видео параметрам. Авторы предлагают Text2Lip — рамфрейм для генерации говорящих лиц, основанный на понятной лексико-грамматической модели. Вместо непосредственного распознавания аудиосигнала, авторы предлагают промежуточный визейм-подобный подход, визуализирующий текстовый ввод в структуру ударений. Это позволяет модели прогрессивно учиться от реальных аудиосигналов к генерируемым, используя курскулярное обучение. Результат — производительная, устойчивая к помехам модель для говорящих лиц, демонстрирующая высокую точность в синхронизации губ и когнитивную емкость в обработке текста. Тесты показали, что Text2Lip превосходит конкурентные модели по семантической точности, визуальной качеству и устойчивости к разным модальностям, устанавливая новый стандарт в говорящих лицах.
Annotation:
Generating semantically coherent and visually accurate talking faces requires bridging the gap between linguistic meaning and facial articulation. Although audio-driven methods remain prevalent, their reliance on high-quality paired audio visual data and the inherent ambiguity in mapping acoustics to lip motion pose significant challenges in terms of scalability and robustness. To address these issues, we propose Text2Lip, a viseme-centric framework that constructs an interpretable phonetic-visu...
ID: 2508.02362v1 cs.CV, cs.AI
Авторы:

Yizhu Jin, Zhen Ye, Zeyue Tian, Haohe Liu, Qiuqiang Kong, Yike Guo, Wei Xue

Задача улучшения аудиокачества через суперрезолюцию широко применяется в музыке, голосовых синтезаторах и постпродакшене. Однако существующие методы, основанные на моделях шума-диффузии, сталкиваются с ограничениями, связанными с хаотичностью стохастического процесса семплирования. Наша работа предлагает новый подход к решению этой проблемы, основанный на парадигме **inference-time scaling**. Вместо увеличения количества семплирований, мы используем множество поисковых алгоритмов и задачи-источники проверки (verifiers) для эффективного исследования высокомерного пространства решений. Это позволяет нам направлять семплирование в наиболее выгодные направления, повышая качество результатов. Мы провели широкие эксперименты, подтверждающие повышение качества аудио в области речи, музыки и звуковых эффектов, с улучшениями до 9.70% в красоте, 5.88% в согласованности голоса и 46.98% в метрике спектрального расстояния при увеличении частоты за счет 4 кГц до 24 кГц. Это демонстрирует эффективность нашего подхода в решении задачи суперрезолюции аудиоданных.
Annotation:
Diffusion models have demonstrated remarkable success in generative tasks, including audio super-resolution (SR). In many applications like movie post-production and album mastering, substantial computational budgets are available for achieving superior audio quality. However, while existing diffusion approaches typically increase sampling steps to improve quality, the performance remains fundamentally limited by the stochastic nature of the sampling process, leading to high-variance and quality...
ID: 2508.02391v1 cs.SD, cs.AI, eess.AS
Авторы:

Xiaolin Lin, Jingcun Wang, Olga Kondrateva, Yiyu Shi, Bing Li, Grace Li Zhang

**Резюме** Современные большие языковые модели (LLMs) сверточных архитектур способны обрабатывать длинные контексты, однако впоследствии сталкиваются с проблемой эффективности памяти из-за растущего размера кэша ключ-значение (KV). Большинство методов сжатия KV-кэша основываются на групповом запросе (GQA) и используют все аттенционные головы для определения важных токенов. Это приводит к неоптимальным выборам, так как не все головы имеют одинаковый вклад в выделение смысла. Предлагаемый подход CompressKV расширяет эту идею, идентифицируя головы каждого слоя, которые особенно эффективны в поиске ключевых токенов и учете их семантического окружения. Эти головы используются для определения важных токенов и сохранения соответствующих им пар KV-кэша. Также вводится адаптивная стратегия распределения KV-кэша по каждому слою. Эксперименты показали, что CompressKV превосходит современные методы по индикаторам потребления памяти и производительности на LongBench и Needle-in-a-Haystack. Результаты доступны в открытом доступе по адресу: https://github.com/TUDa-HWAI/CompressKV.git.
Annotation:
Recent advances in large language models (LLMs) have significantly boosted long-context processing. However, the increasing key-value (KV) cache size poses critical challenges to memory and execution efficiency. Most KV cache compression methods rely on heuristic token eviction using all attention heads in Grouped Query Attention (GQA)-based LLMs. This method ignores the different functionalities of attention heads, leading to the eviction of critical tokens and thus degrades the performance of ...
ID: 2508.02401v1 cs.CL, cs.AI
Авторы:

Yimeng Liu, Maolin Gan, Huaili Zeng, Li Liu, Younsuk Dong, Zhichao Cao

Остаточная влажность листьев (Leaf Wetness Duration, LWD) является ключевым фактором в развитии различных растительных болезней. Существующие методы измерения LWD страдают от несогласованных методов измерения и незначительной поглощающей способностью приспособиться к различным условиям окружающей среды, что снижает точность и надежность результатов. В статье предлагается расширенный подход, объединяющий использование радиоволн в диапазоне миллиметровых (mm-Wave) с использованием технологии камеры, для точного измерения LWD. Авторы предложили метод, основанный на нейронных сетях, который объединяет данные с миллиметрового рендеринга и изображений видимого света для построения многофункциональной модели. Модель использует преобразователь (transformer) для поиска связей между данными, а затем выполняет классификацию для определения LWD. Эксперименты проводились на разных растениях и в различных условиях, включая дождь и темные ночи. Модель показала высокую точность до 96% в условиях стандартного окружения и 90% в условиях реального сельскохозяйственного производства. Этот подход представляет собой прорыв в точности и универсальности измерения LWD в реальных сельскохозяйственных условиях.
Annotation:
Leaf Wetness Duration (LWD), the time that water remains on leaf surfaces, is crucial in the development of plant diseases. Existing LWD detection lacks standardized measurement techniques, and variations across different plant characteristics limit its effectiveness. Prior research proposes diverse approaches, but they fail to measure real natural leaves directly and lack resilience in various environmental conditions. This reduces the precision and robustness, revealing a notable practical app...
ID: 2508.02409v1 cs.CV, cs.AI
Показано 33611 - 33620 из 34123 записей