📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-09

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире анализа данных и прогнозирования растет важность эффективного управления высокоразмерными данными, особенно при прогнозировании временных рядов. Традиционные методы динамической дименсионной редукции, такие как принципальный компонентный анализ (PCA), часто не учитывают контекст задачи прогнозирования, что может приводить к потере важной информации для дальнейшего анализа. Особенно критично это в ситуациях, когда данные содержат большое количество предикторов, но только некоторые из них имеют значительное влияние на целевую переменную. Существующие подходы к дименсионной редукции, основанные на неконтролируемых методах, не всегда эффективны в выявлении факторов, которые действительно важны для прогнозирования. Кроме того, проблема улучшения интерпретируемости полученных латентных факторов остается открытой. Это ограничивает практическую применимость методов дименсионной редукции в реальных приложениях, где необходимо не только повысить точность прогнозов, но и обеспечить лучшее понимание взаимосвязей между переменными. Предлагается решение этой проблемы путем разработки метода, который бы комбинировал динамическую дименсионную редукцию с надзором (supervised learning) над целевой переменной. Такой подход позволил бы создать целевые предикторы, которые улучшают точность прогнозов, одновременно обеспечивая интерпретируемость результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод под названием **Supervised Deep Dynamic Principal Component Analysis (SDDP)**, который интегрирует целевую переменную и отложенные наблюдения (lagged observations) в процесс выделения факторов. Данный метод состоит из нескольких этапов. В первую очередь, используется временная нейронная сеть (temporal neural network) для конструирования целевых предикторов. Эти предикторы формируются путем масштабирования исходных предикторов с учетом их важности для прогнозирования целевой переменной. Таким образом, предикторы с более высоким влиянием на прогноз получают больший вес. Затем, на основе полученных целевых предикторов, применяется принципальный компонентный анализ (PCA) для извлечения **SDDP факторов**. Эти факторы не только уменьшают размерность данных, но также являются более интерпретируемыми, так как они ориентированы на целевую переменную. Далее, на основе этих факторов строится **факторно-увеличенная нелинейная динамическая модель прогнозирования**, которая объединяет различные подходы на основе факторных моделей. Авторы также рассматривают ситуацию, когда некоторые предикторы недоступны (partially observable predictors), и предлагают расширение метода для такого случая. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода проведены эксперименты на нескольких реальных наборах данных. Авторы использовали различные наборы данных, включая данные из области финансов, экономики и других доменов, где прогнозирование временных рядов является важной задачей. Результаты показали, что метод **SDDP** достигает значительных улучшений в точности прогнозирования по сравнению со стандартными методами, такими как традиционный PCA и другие неконтролируемые методы дименсионной редукции. Кроме того, факторы, полученные с помощью SDDP, оказались более интерпретируемыми, что позволило лучше понять взаимосвязи между предикторами и целевой переменной. В частности, эксперименты показали, что использование целевой переменной в процессе факторизации приводит к более точным и стабильным прогнозам. Было также показано, что метод эффективен даже в случае частично наблюдаемых данных, где некоторые предикторы могут быть недоступны. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод **SDDP** имеет широкое применение в различных областях, где важна точность прогнозирования временных рядов. Это может быть финансовый сектор, где необходимо прогнозирование цен на активы, экономический сектор для прогнозирования индикаторов, или даже в области медицины для прогнозирования заболеваний на основе временных данных. Одним из главных преимуществ метода является его интерпретируемость. Факторы, полученные с помощью SDDP, не только повышают точность прогнозов, но также позволяют лучше понять, какие предикторы важны для данной задачи. Это может быть особенно полезно в ситуациях, когда необходимо объяснить причины полученных прогнозов. Кроме того, предложенный метод может быть применен в ситуациях, когда данные неполные или частично наблюдаемые, что делает его более универсальным в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод **Supervised Deep Dynamic Principal Component Analysis (SDDP)**, который улучшает точность прогнозирования временных рядов путем интеграции целевой переменной в процесс дименсионной редукции. Этот метод не только повышает точность прогнозов, но также обеспечивает более интерпретируемые факторы, что делает его применимым в различных практических сценариях. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая его адаптацию для более сложных типов данных, таких как неструктурированные данные, или расширение его применения на более широкий класс задач прогнозирования. Также могут быть исследованы возможности интеграции других техник дименсионной редукции и нейронных сетей для дальнейшего повышения эффективности.

Annotation:

This paper studies the problem of dimension reduction, tailored to improving time series forecasting with high-dimensional predictors. We propose a novel Supervised Deep Dynamic Principal component analysis (SDDP) framework that incorporates the target variable and lagged observations into the factor extraction process. Assisted by a temporal neural network, we construct target-aware predictors by scaling the original predictors in a supervised manner, with larger weights assigned to predictors ...

ID: 2508.03546v2 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models

2025-08-09

Авторы:

Subhey Sadi Rahman, Md. Adnanul Islam, Md. Mahbub Alam, Musarrat Zeba, Md. Abdur Rahman, Sadia Sultana Chowa, Mohaimenul Azam Khan Raiaan, Sami Azam

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) представляют собой мощные инструменты, обученные на обширных наборах данных, содержащих информацию из Интернета. Однако эти данные часто содержат неточности или вводят в заблуждение, что приводит к риску генерирования недостоверной информации. Такие неточности, известные как "hallucinations", создают серьезные проблемы в применении LLMs в критически важных областях, таких как медицина, право, и образование. Учитывающие необходимость обеспечить надежность и точность генерируемого контента, исследователи сталкиваются со сложностями, связанными с оценкой фактологичности выходных данных LLMs. Основные проблемы включают ограниченность существующих наборов данных для факт-чекинга, недостаточное качество метрик оценки фактологичности, и невозможность гарантировать, что выходные данные LLMs будут соответствовать достоверным источникам. Дополнительные сложности возникают из-за того, что LLMs часто генерируют ответы, основанные на контекстных или выдуманных сценариях, не подтвержденных фактическими данными. Это вызывает необходимость разработки систем факт-чекинга, которые могут эффективно выявлять и корректировать недостоверную информацию. Мотивацией данного обзора является необходимость создания надежных систем факт-чекинга для LLMs, способных обеспечить высокую точность и достоверность генерируемого контента. Это подчеркивает важность интеграции различных методологий, таких как instruction tuning, multi-agent reasoning, и retrieval-augmented generation (RAG), для улучшения фактуальности и надежности LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД В обзоре рассматривается широкий спектр методов, направленных на улучшение фактологичности LLMs. Одним из ключевых подходов является использование **instruction tuning**, где модели обучаются на заданных инструкциях для повышения точности. Этот метод позволяет LLMs лучше понимать контекстные запросы и генерировать более точные ответы. Другой важный подход – **multi-agent reasoning**, где несколько агентов (частей модели) взаимодействуют для проверки и подтверждения фактов. Этот метод позволяет LLMs более глубоко анализировать информацию и выявлять неточности в выходных данных. Кроме того, **retrieval-augmented generation (RAG)** подразумевает использование внешних источников данных для подкрепления генерируемого контента. RAG-фреймворки позволяют LLMs получать доступ к проверенным и надежным источникам, что улучшает фактологичность их выходных данных. Обзор также рассматривает **domain-specific fine-tuning**, который позволяет LLMs быть более адаптированными к конкретным областям, таким как медицина или право. Это помогает уменьшить вероятность генерации недостоверной информации в специфических контекстах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках обзора представлены результаты экспериментов, проведенных с использованием различных наборов данных и методов оценки фактологичности LLMs. Исследования показывают, что текущие метрики фактологичности не всегда точно отражают качество генерируемого контента, особенно в случаях, когда информация является контекстно-зависимой. Кроме того, эксперименты показывают, что использование RAG-фреймворков и domain-specific fine-tuning значительно повышает точность и достоверность выходных данных LLMs. Исследователи также отмечают, что интеграция внешних источников данных помогает снизить вероятность генерации недостоверной информации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты обзора подчеркивают важность факт-чекинга для обеспечения надежности LLMs в различных приложениях, таких как медицинские диагностики, юридические консультации, и образовательные ресурсы. Интеграция RAG-фреймворков и domain-specific fine-tuning может значительно повысить качество генерируемого контента, что делает LLMs более полезными в реальных сценариях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данного обзора является выявление ключевых проблем и потенциальных решений в области фактологичности LLMs. Будущие исследования должны фокусироваться на разработке более точных метрик, интеграции внешних источников данных, и разработке специализированных моделей для конкретных областей. Это поможет создать более надежные и точные LLMs, способные генерировать достоверную информацию в различных контекстах.

Annotation:

Large Language Models (LLMs) are trained on vast and diverse internet corpora that often include inaccurate or misleading content. Consequently, LLMs can generate misinformation, making robust fact-checking essential. This review systematically analyzes how LLM-generated content is evaluated for factual accuracy by exploring key challenges such as hallucinations, dataset limitations, and the reliability of evaluation metrics. The review emphasizes the need for strong fact-checking frameworks tha...

ID: 2508.03860v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Step More: Going Beyond Single Backpropagation in Meta Learning Based Model Editing

2025-08-09

Авторы:

Xiaopeng Li, Shasha Li, Xi Wang, Shezheng Song, Bin Ji, Shangwen Wang, Jun Ma, Xiaodong Liu, Mina Liu, Jie Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются основой многих современных AI-приложений, но их статическая природа создает сложности при необходимости обновления их знаний. Обновление модели в традиционном режиме часто требует полного переобучения, что является ресурсоемким и дорогостоящим процессом. Для решения этой проблемы были разработаны методы моделирования, известные как модельные редактирования. Эти методы позволяют вносить изменения в модель, ориентированные на конкретные параметры, что значительно экономит ресурсы. Одним из важных подходов в области модельных редактирований является мета-обучение на основе модельного редактирования (MLBME). Методы MLBME оказались эффективными в обеспечении качества и скорости редактирования модели. Однако, несмотря на их успех, существуют ограничения. В частности, MLBME показывает неудовлетворительные результаты при работе с небольшими наборами данных, что ограничивает его применение в реальных сценариях с ограниченными данными. Кроме того, вычисление КЛ-разности (KL divergence) представляет собой существенный барьер для эффективности обучения, создавая узким местом в процессе. Эти проблемы подчеркивают необходимость разработки более эффективных методов, которые могли бы улучшить производительность MLBME в условиях ограниченных данных и оптимизировать процесс обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой статье авторы представляют новый метод под названием **Step More Edit (SMEdit)**, разработанный для улучшения производительности MLBME в условиях ограниченных данных. SMEdit включает в себя несколько ключевых компонентов. Во-первых, SMEdit использует стратегию известную как Множественные Бэкпропагационные Шаги (MBPS). Эта стратегема позволяет выполнять несколько шагов обратного распространения (backpropagation) в процессе обучения, что улучшает способность модели адаптироваться к новым данным, особенно когда данных недостаточно. Это позволяет модели более эффективно обучаться и адаптироваться к изменениям в данных. Во-вторых, SMEdit вводит нормализацию весов (norm regularization) на обновления параметров. Это помогает контролировать изменения весов во время обучения, что в свою очередь повышает эффективность и стабильность процесса обучения. Нормализация весов также помогает избежать нежелательных изменений в модели, которые могут привести к нестабильности или ухудшению качества. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности SMEdit авторы провели эксперименты на двух наборах данных и с использованием двух LLMs. Результаты экспериментов показали, что SMEdit превосходит предыдущие методы MLBME по различным метрикам. В частности, SMEdit достигает высокого качества редактирования даже при ограниченных данных, что демонстрирует его способность эффективно адаптироваться к новым ситуациям. Кроме того, MBPS стратегия была интегрирована в существующие методы MLBME, что привело к дополнительному повышению их производительности. Это показывает, что MBPS может быть универсально применяемым подходом для улучшения методов модельного редактирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SMEdit имеет широкое применение в области AI, особенно когда речь идет об обновлении моделей в реальном времени. Его способность эффективно работать с ограниченными данными делает его применимым в ситуациях, где требуется быстрое и экономичное обновление моделей. Например, это может быть полезно в сфере медицинских диагностик, где модели должны быть часто обновляемыми в соответствии с последними данными. Кроме того, SMEdit может быть использован в задачах, требующих высокого уровня адаптивности и эффективности, таких как рекомендательные системы, обработка естественного языка, и прогнозирование в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SMEdit представляет собой важный шаг вперед в области модельного редактирования, улучшая качество и эффективность процесса обучения. Авторы отмечают, что дальнейшие исследования могут быть направлены на дальнейшее улучшение стратегии MBPS и его интеграции с другими методами модельного редактирования. Также, расширение применения SMEdit на более широкий класс моделей и наборов данных может открыть новые возможности для его использования в реальных приложениях. Доступность кода, который авторы планируют опубликовать, также откроет путь для дальнейших экспериментов и разработок в этой области.

Annotation:

Large Language Models (LLMs) underpin many AI applications, but their static nature makes updating knowledge costly. Model editing offers an efficient alternative by injecting new information through targeted parameter modifications. In particular, meta-learning-based model editing (MLBME) methods have demonstrated notable advantages in both editing effectiveness and efficiency. Despite this, we find that MLBME exhibits suboptimal performance in low-data scenarios, and its training efficiency is...

ID: 2508.04012v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

2025-08-09

Авторы:

Xuan Qi, Rongwu Xu, Zhijing Jin

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время выравнивание больших языковых моделей (LLMs) с желаниями и ожиданиями человека является одной из ключевых задач в области искусственного интеллекта. Для достижения этого выравнивания часто используются методы, такие как Reinforcement Learning from Human Feedback (RLHF) и Direct Preference Optimization (DPO). Однако эти методы требуют больших и дорогостоящих наборов данных, содержащих предпочтения человека, что создает значительные трудности в процессе обучения и подбора данных. Несмотря на то, что существуют различные подходы для выбора данных в задачах обучения с подкреплением, методы выбора высококачественных данных, ориентированных на предпочтения, остаются недостаточно изученными. Традиционные методы выбора данных зачастую не учитывают сложность примеров, что может приводить к неэффективному использованию ресурсов при обучении моделей. Особенно важно выбирать такие примеры, которые представляют большую сложность для модели, так как они могут более эффективно способствовать ее улучшению. В этой связи, разработка методов, основанных на сложности данных, является ключевым направлением для повышения эффективности обучения LLMs. В этой работе авторы предлагают новый метод выбора данных для предпочтений, основанный на механизме неявного вознаграждения DPO. Идея заключается в том, чтобы выбирать примеры, характеризующиеся меньшим неявным вознаграждением, что указывает на большую сложность этих примеров. Такой подход позволяет сосредоточиться на самых проблематичных данных, что потенциально может улучшить качество выравнивания модели и снизить затраты на подбор данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют новую стратегию выбора данных, основанную на механизме неявного вознаграждения DPO. Основная идея заключается в том, чтобы выбирать данные, которые имеют меньший неявный вознагражденный зазор (reward gap). Неявный вознагражденный зазор отражает разницу между ожидаемым вознаграждением для положительных и отрицательных предпочтений. Меньший зазор указывает на более сложные примеры, требующие большего усилия для выравнивания модели. Метод включает в себя несколько этапов. Вначале, данные для предпочтений собираются и оцениваются с помощью механизма DPO, что позволяет вычислить неявный вознагражденный зазор для каждого примера. Затем, выбираются примеры с наименьшим зазором, что указывает на их высокую сложность для модели. Эти выбранные данные используются в процессе обучения модели, что позволяет сосредоточиться на самых сложных случаях и повысить эффективность обучения. Архитектура метода основана на использовании DPO для оценки качества данных. Это позволяет определить, какие примеры лучше всего подходят для обучения, исходя из их сложности. Такая стратегия позволяет сократить объем данных, необходимых для обучения модели, при этом сохраняя высокое качество выравнивания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного метода. Эксперименты проводились на нескольких наборах данных, связанных с задачами выравнивания LLMs. В экспериментах использовались различные подходы к выбору данных, включая рандомизированный выбор, выбор на основе оценки качества и другие методы. Результаты показали, что метод, основанный на выборе данных с меньшим неявным вознагражденным зазором, показывает значительно лучшие результаты по сравнению с пятью другими базовыми методами. Наибольшее улучшение было достигнуто при использовании только 10% изначальных данных. Это указывает на высокую эффективность предложенного подхода в условиях ограниченных ресурсов. Кроме того, эксперименты показали, что выбор данных на основе сложности приводит к лучшему выравниванию модели с желаниями человека. Модель, обученная на выбранных данных, показала лучшие результаты в задачах выравнивания, что подтверждает эффективность предложенного метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки и обучения LLMs. Он позволяет сократить объем данных, необходимых для обучения модели, при этом повышая качество выравнивания. Это особенно важно в ситуациях, когда ресурсы ограничены, и требуется максимальная эффективность при обучении моделей. Потенциальные области применения включают в себя различные домены, где необходимо выравнивание моделей с желаниями пользователей, такие как чат-боты, системы рекомендаций и системы автоматизированного обучения. Предложенный метод также может быть использован в задачах, требующих высокого уровня точности и качества выравнивания модели с пользовательскими предпочтениями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен новый метод выбора данных для выравнивания LLMs, основанный на механизме неявного вознаграждения DPO. Этот метод показал высокую эффективность в условиях ограниченных данных и ресурсов, позволяя сократить объем данных, необходимых для обучения, при этом сохраняя высокое качество выравнивания. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая разработку более тонких методов оценки сложности данных и их применение в различных доменах. Кроме того, можно исследовать возможности интеграции этого подхода с другими методами выравнивания моделей, такими как RLHF, для достижения еще более высоких результатов.

Annotation:

Aligning large language models (LLMs) with human preferences is a critical challenge in AI research. While methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) are widely used, they often rely on large, costly preference datasets. The current work lacks methods for high-quality data selection specifically for preference data. In this work, we introduce a novel difficulty-based data selection strategy for preference datasets, grounded in the DPO ...

ID: 2508.04149v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

2025-08-09

Авторы:

Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Паралингвистические вокализации, такие как смех, вздох, интерьекции типа "ум" или "о", являются важной частью естественной устной коммуникации. Они передают эмоции, намерения и социальные сигналы, которые невозможно выразить только с помощью лексического контекста. Однако традиционные системы автоматического распознования речи (ASR) и системы текст-в-голос (TTS) обычно игнорируют эти аспекты, сосредоточиваясь исключительно на лексическом контенте. Это приводит к недостатку выразительности и натуральности в синтезированной речи, что особенно заметно в многомодальных системах коммуникации. Несмотря на прогресс в области ASR и TTS, отсутствие интегрированных решений для распознавания и синтеза паралингвистических элементов остается ключевой проблемой. Многие существующие модели не способны эффективно обрабатывать невербальные звуки или управлять ими в процессе синтеза. Это ограничивает возможности создания высококачественных систем, способных моделировать человеческую речь во всей ее сложности. Мотивация данного исследования заключается в том, чтобы предложить комплексное решение, которое бы объединило распознавание и синтез паралингвистических вокализаций в единый рабочий процесс. Такой подход должен быть масштабируемым, контролируемым и применимым к разным языкам, в том числе к китайскому, где специфика языковой модели требует особого внимания к невербальным элементам речи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют NVSpeech – интегрированную и масштабируемую пайплайн для моделирования паралингвистических вокализаций. Этот подход включает три основных компонента: создание датасетов, моделирование ASR и контролируемый TTS. В первую очередь, был разработан набор данных из 48 430 ручно аннотированных утверждений с 18 категориями паралингвистических отметок на уровне слов. Этот датасет позволяет обучить модели распознавать и аннотировать паралингвистические элементы. Далее, разработана паралингвистически-ориентированная моделя ASR, которая включает паралингвистические отметок в процесс распознавания. Например, речь "You're so funny [Laughter]" будет распознана как сочетание лексических и невербальных элементов. Эта модель была использована для автоматического аннотирования большого набора данных из 174 179 утверждений (573 часа речи), полученных из китайского корпуса. Наконец, была проведена файнтюнинг TTS моделей на данных, полученных вручную и автоматически, что позволяет контролировать паралингвистические элементы в процессе синтеза речи. Эта функция позволяет вставлять паралингвистические элементы в любой момент речи, обеспечивая более естественную и выразительную модель речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проведены на китайском датасете, который включает в себя 573 часа речи с паралингвистическими аннотациями. Результаты показывают, что предложенная модель ASR достигает высокой точности в распознавании как лексических, так и невербальных элементов речи. TTS модель, обученная на этом датасете, показала высокую точность в воспроизведении паралингвистических вокализаций. Особенно заметно было улучшение выразительности синтезированной речи, когда паралингвистические элементы были вставлены в контексте. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ NVSpeech предлагает практические преимущества в областях, требующих высококачественной выразительной речи, таких как виртуальные помощники, электронные обучающие системы и мультимодальные системы коммуникации. Его способность контролировать паралингвистические элементы позволяет создавать более натуральную и адаптивную речь, что может улучшить взаимодействие между человеком и машиной. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ NVSpeech является первым открытым и масштабируемым решением для моделирования паралингвистических вокализаций в китайском языке. Он объединяет распознавание и синтез в единый процесс, что открывает пути для дальнейших исследований в области выразительной речи. Будущие исследования могут сосредоточиться на расширении датасетов, улучшении точности моделей и применении этого подхода к другим языкам и культурным контекстам.

Annotation:

Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of parali...

ID: 2508.04195v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation

2025-08-09

Авторы:

Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реализация контролируемого генеративного моделирования видео из текстового описания (Text-to-Video, T2V) является актуальной проблемой в области компьютерного зрения. Особенно сложной задачей является управление траекториями движения объектов в сценах с несколькими движущимися объектами. Большинство моделей и датасетов в области T2V разработаны с учетом движения одного объекта, что существенно ограничивает возможности текущих генеративных моделей при работе с многообъектными сценами. Существующие подходы к контролю движения объектов в T2V часто не поддерживают сцены с несколькими перемещающимися объектами или значительно теряют в эффективности при возникновении пересечений траекторий. Такие коллизии приводят к семантическим конфликтам в областях пересечения, что осложняет создание когерентных видео. Таким образом, необходимо разработать метод, который позволит эффективно контролировать траектории нескольких объектов, избегая конфликтов и обеспечивая высокое качество синтеза. Вводная задача состоит в том, чтобы создать метод, позволяющий разделять объекты на разные слои в процессе генерации, чтобы каждый объект мог быть синтезирован независимо от других. Такой подход должен улучшить контроль над процессом генерации и повысить качество видео в многообъектных сценах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанной проблемы авторы предлагают метод LayerT2V, который основывается на построении видео путем послойной композиции фона и объектов переднего плана. Каждый объект помещается на отдельный "слой", что позволяет изолировать его траекторию от других объектов. Этот подход обеспечивает гибкое интегрирование независимых элементов видео, улучшая контроль над процессом генерации. LayerT2V работает в несколько этапов. Сначала формируется фоновый слой, затем добавляются объекты переднего плана, каждый из которых располагается на своем слое. Это позволяет избегать семантических конфликтов при пересечении траекторий, так как каждый объект обрабатывается независимо. Также метод включает механизмы для обеспечения когерентности между слоями, что позволяет создавать более естественные и реалистичные видео. Архитектура LayerT2V включает модули для генерации фона, распознавания и отслеживания объектов, а также модули для их послойной композиции. Эти модули работают совместно, обеспечивая высокую точность и качество генерации видео. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности LayerT2V. Испытания проводились на датасетах, содержащих сцены с несколькими движущимися объектами. Были использованы метрики mIoU (mean Intersection over Union) и AP50 (Average Precision at 50% IoU) для оценки качества генерации. Результаты показали, что LayerT2V превосходит текущие лучшие методы (SOTA) по обеим метрикам. В частности, показатель mIoU улучшился на 1.4 раза, а AP50 – на 4.5 раза. Эти результаты демонстрируют высокую эффективность подхода LayerT2V при генерации видео в многообъектных сценах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LayerT2V имеет широкое применение в различных областях, где необходимо генерировать видео с несколькими движущимися объектами. Например, это может быть использовано в разработке систем автоматического видеомонтажа, виртуальной и дополненной реальности, а также в системах для создания контента. Преимущества LayerT2V заключаются в его способности обрабатывать сложные сцены с несколькими объектами, обеспечивая высокую точность и контроль над процессом генерации. Это может значительно упростить процесс создания видео для различных приложений, увеличив эффективность и качество конечного продукта. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LayerT2V представляет собой значительный шаг вперед в области T2V генерации, особенно в контексте многообъектных сцен. Он решает проблему семантических конфликтов при пересечении траекторий и обеспечивает высокое качество генерации видео. В будущем можно рассмотреть расширение этого подхода для работы с более сложными сценами, включая те, где объекты имеют более сложные траектории движения. Также можно исследовать возможности интеграции этого метода с другими технологиями, такими как реальновременная генерация видео или адаптивное управление объектами в зависимости от контекста.

Annotation:

Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degrada...

ID: 2508.04228v1 cs.CV, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark

2025-08-09

Авторы:

Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений. Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов. Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов. 1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей. 2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста. 3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.

Annotation:

With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality ...

ID: 2508.04260v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

2025-08-09

Авторы:

Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Autoformalization — это процесс преобразования математических утверждений на естественном языке в формальный язык, который может быть обработан системами формальной проверки доказательств или формальной верификации. Несмотря на значительные успехи, достигнутые благодаря применению моделей языкового обработки (LLMs), эта задача все еще столкнулась со значительными трудностями. Одной из главных проблем является низкая точность преобразования, вызванная недостаточным освоением моделями формального доменного знания и ограниченными способностями к резону при анализе естественного языка и выравнивании его с формальным представлением. Ключевыми требованиями для эффективного autoformalization являются: 1) полное понимание формальных объектов и знаний домена, необходимых для корректного идентификации и представления математических конструкций, и 2) способность к резонированию над естественным языком для точного отображения неформальных контекстов в формальные выражения. Без первого, модели не могут корректно опознавать формальные объекты; без второго, они не могут точно интерпретировать реальные контексты и сопоставить их с формальными выражениями. Существующие подходы часто падают в точности из-за нехватки этих ключевых способностей. Таким образом, необходимо разработать методологию, которая бы объединяла эти две составляющие в единый процесс обучения, позволяя моделям достигать высокой точности в autoformalization. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить выявленные проблемы, авторы представляют ThinkingF — комплексную пайплайн для синтеза данных и обучения моделей, нацеленную на улучшение обеих ключевых способностей. Эта пайплайн состоит из двух основных этапов: построение высококачественных датасетов и их использование в процессе обучения моделей. В первом этапе создаются два датасета. Первый датасет формируется путем дистилляции и выбора большого количества примеров, богатых формальным знанием. Этот датасет направлен на развитие глубокого понимания формального домена у моделей. Второй датасет формируется с помощью генерации неформально-формальных рассуждений, которые основываются на шаблонах, разработанных экспертами. Эти шаблоны помогают обучать модели к резонированию и выравниванию между неформальным и формальным языком. Во втором этапе применяются два метода обучения: Supervised Fine-Tuning (SFT) и Reinforcement Learning with Value-Reward (RLVR). Эти методы позволяют моделям не только освоить формальные знания, но и улучшить способность к резонированию и выравниванию. Архитектура моделей, полученных в результате этого процесса, основана на базовых LLMs размером 7B и 32B. Эти модели показывают высокую способность к формальному знанию и неформально-формальному выравниванию, что является результатом функционального слияния двух ключевых способностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного подхода были проведены эксперименты на двух фундаментальных датасетах: FormalMATH-Lite и ProverBench. Модель StepFun-Formalizer-32B достигла рекордных результатов, показав BEq@1 (exact match accuracy) в 40.5% на FormalMATH-Lite и 26.7% на ProverBench. Эти результаты значительно превосходят результаты предыдущих моделей, как общего назначения, так и специализированных под autoformalization. Было показано, что модели, обученные с помощью ThinkingF, не только лучше понимают формальные объекты, но также эффективнее выравнивают неформальные контексты с формальными выражениями. Эти результаты демонстрируют значительный прогресс в решении проблем недостаточной точности, которая была характерна для предыдущих подходов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкое применение в областях, требующих формальной верификации и автоматизации математических доказательств. Он может быть использован в разработке программного обеспечения, системах автоматической проверки доказательств, а также в образовательных целях для обучения студентов формальной математике. Преимущества этого подхода заключаются в высокой точности преобразования, что позволяет автоматизировать процесс преобразования неформальных математических утверждений в формальные, что значительно экономит время и усилия человека. Кроме того, этот подход может быть использован в различных научных и инженерных дисциплинах, где формальные выражения играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ StepFun-Formalizer представляет собой значительный шаг вперед в области autoformalization. Он не только показывает высокую точность, но также открывает новые возможности для применения LLMs в формальных задачах. Будущие исследования могут фокуссироваться на дальнейшем улучшении моделей, особенно в области резонирования и выравнивания между неформальным и формальным языками, а также на расширении областей применения этого подхода.

Annotation:

Autoformalization aims to translate natural-language mathematical statements into a formal language. While LLMs have accelerated progress in this area, existing methods still suffer from low accuracy. We identify two key abilities for effective autoformalization: comprehensive mastery of formal-language domain knowledge, and reasoning capability of natural language problem understanding and informal-formal alignment. Without the former, a model cannot identify the correct formal objects; without...

ID: 2508.04440v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

2025-08-09

Авторы:

Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen

**Резюме** В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели. **ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.

Annotation:

Concept Erasure, which aims to prevent pretrained text-to-image models from generating content associated with semantic-harmful concepts (i.e., target concepts), is getting increased attention. State-of-the-art methods formulate this task as an optimization problem: they align all target concepts with semantic-harmless anchor concepts, and apply closed-form solutions to update the model accordingly. While these closed-form methods are efficient, we argue that existing methods have two overlooked...

ID: 2508.04472v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Metric Learning in an RKHS

2025-08-09

Авторы:

Gokcan Tatli, Yi Chen, Blake Mason, Robert Nowak, Ramya Korlakai Vinayak

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Метрическое обучение (metric learning) является ключевым инструментом в области обработки данных и машинного обучения, где цель заключается в построении метрики, которая точно отражает сходство или различия между объектами. Этот подход имеет широкое применение в задачах, таких как извлечение образов, рекомендательные системы и когнитивная психология. Одной из популярных форм метрического обучения является обучение на основе триплетных сравнений (triplet comparisons), где пользователь указывает, какой из двух объектов (например, $h$ и $i$) более похож на третий объект ($j$). Такие сравнения позволяют определять степень сходства и различия между объектами. В последнее время, нелинейные методы метрического обучения, основанные на ядровых методах (kernel methods) и нейронных сетях, показали высокую эффективность на практике. Однако, несмотря на их успех, теоретическое понимание таких методов остается ограниченным. Большинство исследований фокусируются на линейных методах, где метрическое обучение производится в евклидовом пространстве $\mathbb{R}^d$, для которого существует хорошо изученная теория. Однако, в более общем случае, когда метрика изучается в пространстве репродуцирующих ядер (RKHS), теоретические гарантии и понимание остаются недостаточными. Цель этой работы заключается в разработке общего фреймворка для метрического обучения в RKHS, который бы обеспечил теоретические гарантии и оценки сложности выборки (sample complexity bounds). Это позволит лучше понять, как нелинейные методы работают в более сложных пространствах, и как они могут быть применены к реальным данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали общий фреймворк для метрического обучения в пространстве RKHS, основанный на теории ядерных методов. Основная идея заключается в том, чтобы построить метрику, которая бы оптимизировалась на основе триплетных сравнений в пространстве RKHS. Для этого используется функционал, который выражает сходство между объектами через ядра, и оптимизируется с помощью алгоритмов, специально разработанных для этого контекста. В рамках данного метода, авторы используют нелинейные преобразования, предоставляемые пространством RKHS, что позволяет более точно отражать сложные зависимости между объектами. Алгоритм оптимизации основан на методах градиентного спуска, адаптированных для RKHS. Кроме того, авторы представляют новые теоретические результаты, включая гарантии обобщения (generalization guarantees) и оценки сложности выборки, которые позволяют оценить качество полученной метрики на новых данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода, авторы провели ряд экспериментов. Они использовали как синтетические, так и реальные данные. На синтетических данных, они исследовали, как метрика, построенная в RKHS, отражает различные типы сходства и различий между объектами. Результаты показали, что метод эффективно оптимизирует метрику и обеспечивает хорошую обобщающую способность. На реальных данных, таких как наборы изображений и данные из рекомендательных систем, метод также показал хорошие результаты. Он сравнивался с предыдущими методами, и было показано, что предлагаемый подход обеспечивает более высокую точность и качество построенной метрики. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где важно точно определять сходство между объектами. Например, в задачах извлечения образов, этот подход может помочь в поиске похожих изображений на основе пользовательских предпочтений. В рекомендательных системах, он может улучшить качество рекомендаций, основываясь на более точном понимании предпочтений пользователя. Кроме того, этот метод может быть применен в областях, где нелинейные зависимости между объектами важны, таких как в когнитивной психологии, где необходимо моделировать сложные взаимодействия между различными концептами. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был разработан новый фреймворк для метрического обучения в пространстве RKHS, который обеспечивает теоретические гарантии и оценки сложности выборки. Этот подход показал высокую эффективность на синтетических и реальных данных. В будущем, авторы планируют расширить этот метод для более сложных задач, включая обработку текстовых данных и многомодальных данных, а также исследовать влияние различных типов ядер на качество полученной метрики.

Annotation:

Metric learning from a set of triplet comparisons in the form of "Do you think item h is more similar to item i or item j?", indicating similarity and differences between items, plays a key role in various applications including image retrieval, recommendation systems, and cognitive psychology. The goal is to learn a metric in the RKHS that reflects the comparisons. Nonlinear metric learning using kernel methods and neural networks have shown great empirical promise. While previous works have ad...

ID: 2508.04476v1 stat.ML, cs.AI, cs.LG

arXiv PDF

1
2
164
165
166
167
168
169

Показано 1651 - 1660 из 1687 записей