📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN
2025-08-06Авторы:
Shivangi Nigam, Adarsh Prasad Behera, Shekhar Verma, P. Nagabhushan
В статье представлен Fd-CycleGAN, инновационный фреймворк для задач image-to-image (I2I) трансляции, направленный на улучшение обучения латентных представлений для более точного аппроксимации реальных распределений данных. Основываясь на CycleGAN, Fd-CycleGAN интегрирует Local Neighborhood Encoding (LNE) и частотно-ориентированное наблюдение, что позволяет захватывать тонкие локальные семантические характеристики пикселей и сохранять структурную целостность исходного домена. Используя метрики потерь на основе распределений, такие как KL/JS дивергенция и логарифмические меры схожести, Fd-CycleGAN явно оценивает соответствие между реальными и сгенерированными распределениями изображений в пространственной и частотной областях. Эксперименты на различных датасетах (Horse2Zebra, Monet2Photo, Strike-off) показывают, что Fd-CycleGAN превосходит базовый CycleGAN и другие современные методы по характеристикам качества восприятия, скорости сходимости и разнообразия режимов, особенно в условиях ограниченных данных. Результаты подтверждают, что частотно-ориентированное обучение латентных представлений значительно улучшает общее качество трансляции изображений, с многообещающими применениями в областях документного восстановления, художественного стилевого переноса, и синтеза медициных изображений. Также, в статье представлены сравнительные анализы с диффузионными генеративными моделями, выделяя преимущества Fd-CycleGAN по тренировочной эффективности и качеству вывода.
Annotation:
This paper presents Fd-CycleGAN, an image-to-image (I2I) translation
framework that enhances latent representation learning to approximate real data
distributions. Building upon the foundation of CycleGAN, our approach
integrates Local Neighborhood Encoding (LNE) and frequency-aware supervision to
capture fine-grained local pixel semantics while preserving structural
coherence from the source domain. We employ distribution-based loss metrics,
including KL/JS divergence and log-based similarity m...
📄 R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation
2025-08-06Авторы:
Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun
**Резюме:**
Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus.
Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.
Annotation:
X-ray medical report generation is one of the important applications of
artificial intelligence in healthcare. With the support of large foundation
models, the quality of medical report generation has significantly improved.
However, challenges such as hallucination and weak disease diagnostic
capability still persist. In this paper, we first construct a large-scale
multi-modal medical knowledge graph (termed M3KG) based on the ground truth
medical report using the GPT-4o. It contains 2477 entit...
📄 The Science Fiction Science Method
2025-08-06Авторы:
Iyad Rahwan, Azim Shariff, Jean-François Bonnefon
**Резюме**
Прогнозирование социальных и поведенческих последствий будущих технологий может позволить управлять их развитием и регулированием до того, как эти воздействия станут неизменными. Традиционно такие прогнозы основывались на качественных, нарративных методах. Авторы предлагают новый подход, называемый "научно-фантастическим методом" (science fiction science), который использует экспериментальные исследования для моделирования будущих технологий и сбора количественных данных о поitudes и поведениях участников, помещённых в контролируемые вариации будущего.
Однако этот подход не получил широкого признания из-за рисков его валидности, связанных с необычными и иммерсивными методами. Авторы обсуждают ограничения, которые могут смягчить эти риски, и предлагают стратегии для нормализации таких методов, чтобы стимулировать развитие этого направования и создать цикл улучшения его надежности.
Annotation:
Predicting the social and behavioral impact of future technologies, before
they are achieved, would allow us to guide their development and regulation
before these impacts get entrenched. Traditionally, this prediction has relied
on qualitative, narrative methods. Here we describe a method which uses
experimental methods to simulate future technologies, and collect quantitative
measures of the attitudes and behaviors of participants assigned to controlled
variations of the future. We call this m...
Авторы:
Hongjun Liu, Chao Yao, Yalan Zhang, Xiaokun wang, Xiaojuan Ban
**Резюме:**
Классификация сигналов электроэнцефалограммы (EEG) сталкивается с серьезными трудностями, вызванными различиями в конфигурациях электродов, протоколах сбора данных и аппаратуре различных доменов. В этой работе представлена модель **IMAC**, которая решает эту проблему путем выравнивания кросс-доменных данных через задачу импуции (заполнения пропусков) пространственных временных рядов. IMAC выравнивает разнородные конфигурации электродов с помощью метода унификации пространственных представлений, основанного на 3D-to-2D маппинге. Отличительной особенностью является введение channel-dependent масок и реконструкции сигнала в виде задачи импуции с низкого разрешения на высокое. Этот подход эмулирует реальные различия между доменами, такие как отсутствие каналов и временные нестабильности, обеспечивая робастность модели. Дополнительно, IMAC использует дескрипторную структуру для раздельного моделирования пространственной и временной информации, что повышает эффективность и адаптивность. Результаты на 10 открытых наборах данных показывают, что IMAC достигает лучших показателей классификации в кросс-субъектном и кросс-центровом сценариях, превосходя базовые методы на до 35% по метрике целостности и показывая высокую стабильность при реальных и имитированных распределениях.
**(145 слов)**
Annotation:
Electroencephalogram (EEG) signal classification faces significant challenges
due to data distribution shifts caused by heterogeneous electrode
configurations, acquisition protocols, and hardware discrepancies across
domains. This paper introduces IMAC, a novel channel-dependent mask and
imputation self-supervised framework that formulates the alignment of
cross-domain EEG data shifts as a spatial time series imputation task. To
address heterogeneous electrode configurations in cross-domain scen...
Авторы:
Taine J. Elliott, Stephen P. Levitt, Ken Nixon, Martin Bekker
**Резюме**
Растущий объем медицинских данных создает значительные трудности для клиницистов и исследователей, усложняя систематический анализ и использование последних научных достижений. В данной работе предлагается метод автоматического построения знаний на основе графов (Knowledge Graph, KG) для идентификации и структурирования биомедицинской информации. Используя 44 абстрактных статей из PubMed, система разбивает текст на семантически значимые предложения и извлекает тройки данных (триплеты), которые улучшаются за счет добавления онтологических категорий и контекстных переменных, превращая их в "квадруплеты". Эксперименты показывают, что использование контекста повышает точность извлечения на основе языковых моделей (Large Language Models, LLM), достигая средней косинусной схожести 0,874. Дальнейшие исследования демонстрируют возможность LLM для выявления новых отношений и создания связей между кластерами в базе знаний. Результаты могут стать основой для создания реального времени обновляемых инструментов для медицинских практиков.
Annotation:
The rapid expansion of publicly-available medical data presents a challenge
for clinicians and researchers alike, increasing the gap between the volume of
scientific literature and its applications. The steady growth of studies and
findings overwhelms medical professionals at large, hindering their ability to
systematically review and understand the latest knowledge. This paper presents
an approach to information extraction and automatic knowledge graph (KG)
generation to identify and connect bi...
📄 LLMs Have a Heart of Stone: Demystifying the Soft Thinking Ability of Large Reasoning Models
2025-08-06Авторы:
Junhong Wu, Jinliang Lu, Zixuan Ren, Ganqiang Hu, Zhi Wu, Dai Dai, Hua Wu
Большие языковые модели (LLMs) обычно основываются на генерации дискретных токенов, что может ограничивать их способность к резкому мышлению в более абстрактных и непрерывных пространствах. Для решения этой проблемы, исследование посвящено изучению возможностей "мягкого мышления" (Soft Thinking) в LLMs, где модели используют более абстрактные, недискретные токены. Однако, анализ внутреннего поведения LLMs показал, что, несмотря на использование "мягких" входных данных, модели часто зависят от самого влиятельного компонента этих данных, что ограничивает их способность к исследованию разных путей резонанса и делает процесс похожим на жадный декодирования. Чтобы преодолеть эту проблему, исследователи предложили ввести случайность в процесс генерации, используя методы такие как Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют улучшить производительность LLMs в резонансе, особенно Gumbel-Softmax trick, который обеспечивает оптимальный баланс между случайностью и сглаживанием, показывая лучшие результаты на восемь различных задачах резонанса.
Annotation:
Human cognition naturally engages with abstract and fluid concepts, whereas
existing reasoning models often rely on generating discrete tokens, potentially
constraining their expressive capabilities. Recent advancements aim to address
this limitation by enabling large language models (LLMs) to generate soft,
abstract tokens, thus facilitating reasoning within a continuous concept space.
This paper explores the `Soft Thinking' capabilities of various LLMs by
examining the models' internal behavio...
Авторы:
Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
**Резюме:**
Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыточная реверберация, дисторсия, клиппинг, дисбаланс тонов и ограниченная стереоизображение. Коррекция этих артефактов обычно требует отдельных специализированных инструментов и ручных настроек.
В данной работе представлен **SonicMaster** — первый унифицированный генеративный модель для восстановления и мастеринга музыки, которая решает широкий спектр аудио-дефектов с помощью текстовых инструкций. Модель может функционировать в режиме автоматического восстановления или принимать целенаправленные улучшения на основе естественного языка. Для обучения **SonicMaster** был создан набор данных, состоящий из пар изведенных и высококачественных треков, симулированных с помощью 19 функций деградации в пяти категориях: эквалайзинг, динамика, реверберация, амплитуда и стерео. Обучение основывается на подходе flow-matching, который преобразует деградированный вход в очищенную и мастерированную версию, руководствуясь текстовыми запросами.
Объективные метрики качества звука показывают значительное улучшение во всех категориях артефактов. Субъективные тесты прослушивания подтверждают, что пользователи предпочитают улучшенные выходные данные **SonicMaster** по сравнению с оригинальными деградированными треками, подчеркивая эффективность предложенного подхода.
Annotation:
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of au...
📄 Toward a Graph-Theoretic Model of Belief: Confidence, Credibility, and Structural Coherence
2025-08-06Авторы:
Saleh Nikooroo
Эта статья предлагает новый подход к моделированию систем вероятностей в виде взвешенных, направленных графов. Обычные модели, основанные на глобальной когерентности или вероятностных распределениях, игнорируют внутреннюю структуру вероятностей, путают внешнюю достоверность с внутренней когерентностью и не могут описывать фрагментированные или противоречивые эпистемические состояния. Автор предлагает формализм, где узлы графа обозначают отдельные вероятности, а ребра представляют эпистемические отношения, такие как поддержка или противоречие. Каждая вероятность получает две оценки: достоверность (отражающая доверие к источнику) и уверенность (основанная на внутренней структурной поддержке). Этот подход отличается от классических вероятностных моделей, не требуя предварительной когерентности или обновления вероятностей, и от логических и аргументационных моделей, позволяя детальному представлению структуры без бинарного статуса обоснования или дедуктивного замыкания. Модель статична и не включает процедуры вывода или ревизии, цель которых — обеспечить фундаментальную основу для анализа внутренней организации систем вероятностей, включая условия когерентности, эпистемические напряжения и пределы представления. Этот формализм позволяет более широкую классификацию эпистемических состояний, чем существующие вероятностные, логические или аргументационные модели.
Annotation:
Belief systems are often treated as globally consistent sets of propositions
or as scalar-valued probability distributions. Such representations tend to
obscure the internal structure of belief, conflate external credibility with
internal coherence, and preclude the modeling of fragmented or contradictory
epistemic states. This paper introduces a minimal formalism for belief systems
as directed, weighted graphs. In this framework, nodes represent individual
beliefs, edges encode epistemic relati...
📄 fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval
2025-08-06Авторы:
Pranshu Rastogi
**Резюме**
В статье представлен подход к задаче SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval, решаемой как задача Learning-to-Rank. Используется би-энкодер, основанный на предобученном трансформере, оптимизированном для задач поиска похожих предложений. Для обучения в многоязычном режиме использовались исходные языки и их английские переводы, а в кросс-лингвистическом режиме — только английские переводы. Благодаря использованию легковесных моделей с параметрами менее 500 млн и обучения на Kaggle T4 GPUs, метод достиг показателей 92% Success@10 в многоязычной задаче и 80% Success@10 в кросс-лингвистической, заняв 5-е и 10-е места соответственно. Результаты демонстрируют эффективность предложенного подхода в решении задач многоязычного и кросс-лингвистического извлечения фактов.
Annotation:
SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim
Retrieval is approached as a Learning-to-Rank task using a bi-encoder model
fine-tuned from a pre-trained transformer optimized for sentence similarity.
Training used both the source languages and their English translations for
multilingual retrieval and only English translations for cross-lingual
retrieval. Using lightweight models with fewer than 500M parameters and
training on Kaggle T4 GPUs, the method achieved 92% Success...
Авторы:
Junjie Cao, Kaizhou Li, Xinchun Yu, Hongxiang Li, Xiaoping Zhang
В последнее время генеративные модели достигли высоких результатов в генерации и редактировании цифрового контента, но их злоупотребление может привести к распространению вводящей в заблуждение информации. Несмотря на существование методов защиты фотографических изображений от несанкционерного редактирования, видеоконтент остаётся менее защищённым. Для решения этой проблемы предлагается VideoGuard — метод защиты видеоконтента от неавторизованных редактирований. Защита основывается на введении малозаметных пертурбаций, которые нарушают работу генеративных моделей диффузии. Учитывая избыточность между кадрами и механизмы внимания межкадрового характера в моделях видеодиффузии, VideoGuard использует совместную оптимизацию кадров и интегрирует в них движенческую информацию. Это позволяет гарантировать, что модели будут генерировать неконсистентные или неправдоподобные результаты. Метод показал высокую эффективность по сравнению с существующими подходами, подтверждая свою преимущественную роль в защите видеоконтента.
Annotation:
With the rapid development of generative technology, current generative
models can generate high-fidelity digital content and edit it in a controlled
manner. However, there is a risk that malicious individuals might misuse these
capabilities for misleading activities. Although existing research has
attempted to shield photographic images from being manipulated by generative
models, there remains a significant disparity in the protection offered to
video content editing. To bridge the gap, we pro...
Показано 33981 -
33990
из 34022 записей