📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN

2025-08-06

Авторы:

Shivangi Nigam, Adarsh Prasad Behera, Shekhar Verma, P. Nagabhushan

В статье представлен Fd-CycleGAN, инновационный фреймворк для задач image-to-image (I2I) трансляции, направленный на улучшение обучения латентных представлений для более точного аппроксимации реальных распределений данных. Основываясь на CycleGAN, Fd-CycleGAN интегрирует Local Neighborhood Encoding (LNE) и частотно-ориентированное наблюдение, что позволяет захватывать тонкие локальные семантические характеристики пикселей и сохранять структурную целостность исходного домена. Используя метрики потерь на основе распределений, такие как KL/JS дивергенция и логарифмические меры схожести, Fd-CycleGAN явно оценивает соответствие между реальными и сгенерированными распределениями изображений в пространственной и частотной областях. Эксперименты на различных датасетах (Horse2Zebra, Monet2Photo, Strike-off) показывают, что Fd-CycleGAN превосходит базовый CycleGAN и другие современные методы по характеристикам качества восприятия, скорости сходимости и разнообразия режимов, особенно в условиях ограниченных данных. Результаты подтверждают, что частотно-ориентированное обучение латентных представлений значительно улучшает общее качество трансляции изображений, с многообещающими применениями в областях документного восстановления, художественного стилевого переноса, и синтеза медициных изображений. Также, в статье представлены сравнительные анализы с диффузионными генеративными моделями, выделяя преимущества Fd-CycleGAN по тренировочной эффективности и качеству вывода.

Annotation:

This paper presents Fd-CycleGAN, an image-to-image (I2I) translation framework that enhances latent representation learning to approximate real data distributions. Building upon the foundation of CycleGAN, our approach integrates Local Neighborhood Encoding (LNE) and frequency-aware supervision to capture fine-grained local pixel semantics while preserving structural coherence from the source domain. We employ distribution-based loss metrics, including KL/JS divergence and log-based similarity m...

ID: 2508.03415v1 cs.CV, cs.AI, cs.GR

arXiv PDF

📄 R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation

2025-08-06

Авторы:

Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun

**Резюме:** Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus. Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.

Annotation:

X-ray medical report generation is one of the important applications of artificial intelligence in healthcare. With the support of large foundation models, the quality of medical report generation has significantly improved. However, challenges such as hallucination and weak disease diagnostic capability still persist. In this paper, we first construct a large-scale multi-modal medical knowledge graph (termed M3KG) based on the ground truth medical report using the GPT-4o. It contains 2477 entit...

ID: 2508.03426v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 The Science Fiction Science Method

2025-08-06

Авторы:

Iyad Rahwan, Azim Shariff, Jean-François Bonnefon

**Резюме** Прогнозирование социальных и поведенческих последствий будущих технологий может позволить управлять их развитием и регулированием до того, как эти воздействия станут неизменными. Традиционно такие прогнозы основывались на качественных, нарративных методах. Авторы предлагают новый подход, называемый "научно-фантастическим методом" (science fiction science), который использует экспериментальные исследования для моделирования будущих технологий и сбора количественных данных о поitudes и поведениях участников, помещённых в контролируемые вариации будущего. Однако этот подход не получил широкого признания из-за рисков его валидности, связанных с необычными и иммерсивными методами. Авторы обсуждают ограничения, которые могут смягчить эти риски, и предлагают стратегии для нормализации таких методов, чтобы стимулировать развитие этого направования и создать цикл улучшения его надежности.

Annotation:

Predicting the social and behavioral impact of future technologies, before they are achieved, would allow us to guide their development and regulation before these impacts get entrenched. Traditionally, this prediction has relied on qualitative, narrative methods. Here we describe a method which uses experimental methods to simulate future technologies, and collect quantitative measures of the attitudes and behaviors of participants assigned to controlled variations of the future. We call this m...

ID: 2508.03430v1 cs.HC, cs.AI

arXiv PDF

📄 Spatial Imputation Drives Cross-Domain Alignment for EEG Classification

2025-08-06

Авторы:

Hongjun Liu, Chao Yao, Yalan Zhang, Xiaokun wang, Xiaojuan Ban

**Резюме:** Классификация сигналов электроэнцефалограммы (EEG) сталкивается с серьезными трудностями, вызванными различиями в конфигурациях электродов, протоколах сбора данных и аппаратуре различных доменов. В этой работе представлена модель **IMAC**, которая решает эту проблему путем выравнивания кросс-доменных данных через задачу импуции (заполнения пропусков) пространственных временных рядов. IMAC выравнивает разнородные конфигурации электродов с помощью метода унификации пространственных представлений, основанного на 3D-to-2D маппинге. Отличительной особенностью является введение channel-dependent масок и реконструкции сигнала в виде задачи импуции с низкого разрешения на высокое. Этот подход эмулирует реальные различия между доменами, такие как отсутствие каналов и временные нестабильности, обеспечивая робастность модели. Дополнительно, IMAC использует дескрипторную структуру для раздельного моделирования пространственной и временной информации, что повышает эффективность и адаптивность. Результаты на 10 открытых наборах данных показывают, что IMAC достигает лучших показателей классификации в кросс-субъектном и кросс-центровом сценариях, превосходя базовые методы на до 35% по метрике целостности и показывая высокую стабильность при реальных и имитированных распределениях. **(145 слов)**

Annotation:

Electroencephalogram (EEG) signal classification faces significant challenges due to data distribution shifts caused by heterogeneous electrode configurations, acquisition protocols, and hardware discrepancies across domains. This paper introduces IMAC, a novel channel-dependent mask and imputation self-supervised framework that formulates the alignment of cross-domain EEG data shifts as a spatial time series imputation task. To address heterogeneous electrode configurations in cross-domain scen...

ID: 2508.03437v1 cs.CV, cs.AI, 62M10, I.5.1; J.3

arXiv PDF

📄 Data Overdose? Time for a Quadruple Shot: Knowledge Graph Construction using Enhanced Triple Extraction

2025-08-06

Авторы:

Taine J. Elliott, Stephen P. Levitt, Ken Nixon, Martin Bekker

**Резюме** Растущий объем медицинских данных создает значительные трудности для клиницистов и исследователей, усложняя систематический анализ и использование последних научных достижений. В данной работе предлагается метод автоматического построения знаний на основе графов (Knowledge Graph, KG) для идентификации и структурирования биомедицинской информации. Используя 44 абстрактных статей из PubMed, система разбивает текст на семантически значимые предложения и извлекает тройки данных (триплеты), которые улучшаются за счет добавления онтологических категорий и контекстных переменных, превращая их в "квадруплеты". Эксперименты показывают, что использование контекста повышает точность извлечения на основе языковых моделей (Large Language Models, LLM), достигая средней косинусной схожести 0,874. Дальнейшие исследования демонстрируют возможность LLM для выявления новых отношений и создания связей между кластерами в базе знаний. Результаты могут стать основой для создания реального времени обновляемых инструментов для медицинских практиков.

Annotation:

The rapid expansion of publicly-available medical data presents a challenge for clinicians and researchers alike, increasing the gap between the volume of scientific literature and its applications. The steady growth of studies and findings overwhelms medical professionals at large, hindering their ability to systematically review and understand the latest knowledge. This paper presents an approach to information extraction and automatic knowledge graph (KG) generation to identify and connect bi...

ID: 2508.03438v1 cs.AI

arXiv PDF

📄 LLMs Have a Heart of Stone: Demystifying the Soft Thinking Ability of Large Reasoning Models

2025-08-06

Авторы:

Junhong Wu, Jinliang Lu, Zixuan Ren, Ganqiang Hu, Zhi Wu, Dai Dai, Hua Wu

Большие языковые модели (LLMs) обычно основываются на генерации дискретных токенов, что может ограничивать их способность к резкому мышлению в более абстрактных и непрерывных пространствах. Для решения этой проблемы, исследование посвящено изучению возможностей "мягкого мышления" (Soft Thinking) в LLMs, где модели используют более абстрактные, недискретные токены. Однако, анализ внутреннего поведения LLMs показал, что, несмотря на использование "мягких" входных данных, модели часто зависят от самого влиятельного компонента этих данных, что ограничивает их способность к исследованию разных путей резонанса и делает процесс похожим на жадный декодирования. Чтобы преодолеть эту проблему, исследователи предложили ввести случайность в процесс генерации, используя методы такие как Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют улучшить производительность LLMs в резонансе, особенно Gumbel-Softmax trick, который обеспечивает оптимальный баланс между случайностью и сглаживанием, показывая лучшие результаты на восемь различных задачах резонанса.

Annotation:

Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavio...

ID: 2508.03440v1 cs.CL, cs.AI

arXiv PDF

📄 SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

2025-08-06

Авторы:

Jan Melechovsky, Ambuj Mehrish, Dorien Herremans

**Резюме:** Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыточная реверберация, дисторсия, клиппинг, дисбаланс тонов и ограниченная стереоизображение. Коррекция этих артефактов обычно требует отдельных специализированных инструментов и ручных настроек. В данной работе представлен **SonicMaster** — первый унифицированный генеративный модель для восстановления и мастеринга музыки, которая решает широкий спектр аудио-дефектов с помощью текстовых инструкций. Модель может функционировать в режиме автоматического восстановления или принимать целенаправленные улучшения на основе естественного языка. Для обучения **SonicMaster** был создан набор данных, состоящий из пар изведенных и высококачественных треков, симулированных с помощью 19 функций деградации в пяти категориях: эквалайзинг, динамика, реверберация, амплитуда и стерео. Обучение основывается на подходе flow-matching, который преобразует деградированный вход в очищенную и мастерированную версию, руководствуясь текстовыми запросами. Объективные метрики качества звука показывают значительное улучшение во всех категориях артефактов. Субъективные тесты прослушивания подтверждают, что пользователи предпочитают улучшенные выходные данные **SonicMaster** по сравнению с оригинальными деградированными треками, подчеркивая эффективность предложенного подхода.

Annotation:

Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of au...

ID: 2508.03448v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Toward a Graph-Theoretic Model of Belief: Confidence, Credibility, and Structural Coherence

2025-08-06

Авторы:

Saleh Nikooroo

Эта статья предлагает новый подход к моделированию систем вероятностей в виде взвешенных, направленных графов. Обычные модели, основанные на глобальной когерентности или вероятностных распределениях, игнорируют внутреннюю структуру вероятностей, путают внешнюю достоверность с внутренней когерентностью и не могут описывать фрагментированные или противоречивые эпистемические состояния. Автор предлагает формализм, где узлы графа обозначают отдельные вероятности, а ребра представляют эпистемические отношения, такие как поддержка или противоречие. Каждая вероятность получает две оценки: достоверность (отражающая доверие к источнику) и уверенность (основанная на внутренней структурной поддержке). Этот подход отличается от классических вероятностных моделей, не требуя предварительной когерентности или обновления вероятностей, и от логических и аргументационных моделей, позволяя детальному представлению структуры без бинарного статуса обоснования или дедуктивного замыкания. Модель статична и не включает процедуры вывода или ревизии, цель которых — обеспечить фундаментальную основу для анализа внутренней организации систем вероятностей, включая условия когерентности, эпистемические напряжения и пределы представления. Этот формализм позволяет более широкую классификацию эпистемических состояний, чем существующие вероятностные, логические или аргументационные модели.

Annotation:

Belief systems are often treated as globally consistent sets of propositions or as scalar-valued probability distributions. Such representations tend to obscure the internal structure of belief, conflate external credibility with internal coherence, and preclude the modeling of fragmented or contradictory epistemic states. This paper introduces a minimal formalism for belief systems as directed, weighted graphs. In this framework, nodes represent individual beliefs, edges encode epistemic relati...

ID: 2508.03465v1 cs.AI

arXiv PDF

📄 fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval

2025-08-06

Авторы:

Pranshu Rastogi

**Резюме** В статье представлен подход к задаче SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval, решаемой как задача Learning-to-Rank. Используется би-энкодер, основанный на предобученном трансформере, оптимизированном для задач поиска похожих предложений. Для обучения в многоязычном режиме использовались исходные языки и их английские переводы, а в кросс-лингвистическом режиме — только английские переводы. Благодаря использованию легковесных моделей с параметрами менее 500 млн и обучения на Kaggle T4 GPUs, метод достиг показателей 92% Success@10 в многоязычной задаче и 80% Success@10 в кросс-лингвистической, заняв 5-е и 10-е места соответственно. Результаты демонстрируют эффективность предложенного подхода в решении задач многоязычного и кросс-лингвистического извлечения фактов.

Annotation:

SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval is approached as a Learning-to-Rank task using a bi-encoder model fine-tuned from a pre-trained transformer optimized for sentence similarity. Training used both the source languages and their English translations for multilingual retrieval and only English translations for cross-lingual retrieval. Using lightweight models with fewer than 500M parameters and training on Kaggle T4 GPUs, the method achieved 92% Success...

ID: 2508.03475v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 VideoGuard: Protecting Video Content from Unauthorized Editing

2025-08-06

Авторы:

Junjie Cao, Kaizhou Li, Xinchun Yu, Hongxiang Li, Xiaoping Zhang

В последнее время генеративные модели достигли высоких результатов в генерации и редактировании цифрового контента, но их злоупотребление может привести к распространению вводящей в заблуждение информации. Несмотря на существование методов защиты фотографических изображений от несанкционерного редактирования, видеоконтент остаётся менее защищённым. Для решения этой проблемы предлагается VideoGuard — метод защиты видеоконтента от неавторизованных редактирований. Защита основывается на введении малозаметных пертурбаций, которые нарушают работу генеративных моделей диффузии. Учитывая избыточность между кадрами и механизмы внимания межкадрового характера в моделях видеодиффузии, VideoGuard использует совместную оптимизацию кадров и интегрирует в них движенческую информацию. Это позволяет гарантировать, что модели будут генерировать неконсистентные или неправдоподобные результаты. Метод показал высокую эффективность по сравнению с существующими подходами, подтверждая свою преимущественную роль в защите видеоконтента.

Annotation:

With the rapid development of generative technology, current generative models can generate high-fidelity digital content and edit it in a controlled manner. However, there is a risk that malicious individuals might misuse these capabilities for misleading activities. Although existing research has attempted to shield photographic images from being manipulated by generative models, there remains a significant disparity in the protection offered to video content editing. To bridge the gap, we pro...

ID: 2508.03480v1 cs.CV, cs.AI

arXiv PDF

1
2
3397
3398
3399
3400
3401
3402
3403

Показано 33981 - 33990 из 34022 записей