📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Data Overdose? Time for a Quadruple Shot: Knowledge Graph Construction using Enhanced Triple Extraction

2025-08-06

Авторы:

Taine J. Elliott, Stephen P. Levitt, Ken Nixon, Martin Bekker

**Резюме** Растущий объем медицинских данных создает значительные трудности для клиницистов и исследователей, усложняя систематический анализ и использование последних научных достижений. В данной работе предлагается метод автоматического построения знаний на основе графов (Knowledge Graph, KG) для идентификации и структурирования биомедицинской информации. Используя 44 абстрактных статей из PubMed, система разбивает текст на семантически значимые предложения и извлекает тройки данных (триплеты), которые улучшаются за счет добавления онтологических категорий и контекстных переменных, превращая их в "квадруплеты". Эксперименты показывают, что использование контекста повышает точность извлечения на основе языковых моделей (Large Language Models, LLM), достигая средней косинусной схожести 0,874. Дальнейшие исследования демонстрируют возможность LLM для выявления новых отношений и создания связей между кластерами в базе знаний. Результаты могут стать основой для создания реального времени обновляемых инструментов для медицинских практиков.

Annotation:

The rapid expansion of publicly-available medical data presents a challenge for clinicians and researchers alike, increasing the gap between the volume of scientific literature and its applications. The steady growth of studies and findings overwhelms medical professionals at large, hindering their ability to systematically review and understand the latest knowledge. This paper presents an approach to information extraction and automatic knowledge graph (KG) generation to identify and connect bi...

ID: 2508.03438v1 cs.AI

arXiv PDF

📄 LLMs Have a Heart of Stone: Demystifying the Soft Thinking Ability of Large Reasoning Models

2025-08-06

Авторы:

Junhong Wu, Jinliang Lu, Zixuan Ren, Ganqiang Hu, Zhi Wu, Dai Dai, Hua Wu

Большие языковые модели (LLMs) обычно основываются на генерации дискретных токенов, что может ограничивать их способность к резкому мышлению в более абстрактных и непрерывных пространствах. Для решения этой проблемы, исследование посвящено изучению возможностей "мягкого мышления" (Soft Thinking) в LLMs, где модели используют более абстрактные, недискретные токены. Однако, анализ внутреннего поведения LLMs показал, что, несмотря на использование "мягких" входных данных, модели часто зависят от самого влиятельного компонента этих данных, что ограничивает их способность к исследованию разных путей резонанса и делает процесс похожим на жадный декодирования. Чтобы преодолеть эту проблему, исследователи предложили ввести случайность в процесс генерации, используя методы такие как Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют улучшить производительность LLMs в резонансе, особенно Gumbel-Softmax trick, который обеспечивает оптимальный баланс между случайностью и сглаживанием, показывая лучшие результаты на восемь различных задачах резонанса.

Annotation:

Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavio...

ID: 2508.03440v1 cs.CL, cs.AI

arXiv PDF

📄 SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

2025-08-06

Авторы:

Jan Melechovsky, Ambuj Mehrish, Dorien Herremans

**Резюме:** Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыточная реверберация, дисторсия, клиппинг, дисбаланс тонов и ограниченная стереоизображение. Коррекция этих артефактов обычно требует отдельных специализированных инструментов и ручных настроек. В данной работе представлен **SonicMaster** — первый унифицированный генеративный модель для восстановления и мастеринга музыки, которая решает широкий спектр аудио-дефектов с помощью текстовых инструкций. Модель может функционировать в режиме автоматического восстановления или принимать целенаправленные улучшения на основе естественного языка. Для обучения **SonicMaster** был создан набор данных, состоящий из пар изведенных и высококачественных треков, симулированных с помощью 19 функций деградации в пяти категориях: эквалайзинг, динамика, реверберация, амплитуда и стерео. Обучение основывается на подходе flow-matching, который преобразует деградированный вход в очищенную и мастерированную версию, руководствуясь текстовыми запросами. Объективные метрики качества звука показывают значительное улучшение во всех категориях артефактов. Субъективные тесты прослушивания подтверждают, что пользователи предпочитают улучшенные выходные данные **SonicMaster** по сравнению с оригинальными деградированными треками, подчеркивая эффективность предложенного подхода.

Annotation:

Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of au...

ID: 2508.03448v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Toward a Graph-Theoretic Model of Belief: Confidence, Credibility, and Structural Coherence

2025-08-06

Авторы:

Saleh Nikooroo

Эта статья предлагает новый подход к моделированию систем вероятностей в виде взвешенных, направленных графов. Обычные модели, основанные на глобальной когерентности или вероятностных распределениях, игнорируют внутреннюю структуру вероятностей, путают внешнюю достоверность с внутренней когерентностью и не могут описывать фрагментированные или противоречивые эпистемические состояния. Автор предлагает формализм, где узлы графа обозначают отдельные вероятности, а ребра представляют эпистемические отношения, такие как поддержка или противоречие. Каждая вероятность получает две оценки: достоверность (отражающая доверие к источнику) и уверенность (основанная на внутренней структурной поддержке). Этот подход отличается от классических вероятностных моделей, не требуя предварительной когерентности или обновления вероятностей, и от логических и аргументационных моделей, позволяя детальному представлению структуры без бинарного статуса обоснования или дедуктивного замыкания. Модель статична и не включает процедуры вывода или ревизии, цель которых — обеспечить фундаментальную основу для анализа внутренней организации систем вероятностей, включая условия когерентности, эпистемические напряжения и пределы представления. Этот формализм позволяет более широкую классификацию эпистемических состояний, чем существующие вероятностные, логические или аргументационные модели.

Annotation:

Belief systems are often treated as globally consistent sets of propositions or as scalar-valued probability distributions. Such representations tend to obscure the internal structure of belief, conflate external credibility with internal coherence, and preclude the modeling of fragmented or contradictory epistemic states. This paper introduces a minimal formalism for belief systems as directed, weighted graphs. In this framework, nodes represent individual beliefs, edges encode epistemic relati...

ID: 2508.03465v1 cs.AI

arXiv PDF

📄 fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval

2025-08-06

Авторы:

Pranshu Rastogi

**Резюме** В статье представлен подход к задаче SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval, решаемой как задача Learning-to-Rank. Используется би-энкодер, основанный на предобученном трансформере, оптимизированном для задач поиска похожих предложений. Для обучения в многоязычном режиме использовались исходные языки и их английские переводы, а в кросс-лингвистическом режиме — только английские переводы. Благодаря использованию легковесных моделей с параметрами менее 500 млн и обучения на Kaggle T4 GPUs, метод достиг показателей 92% Success@10 в многоязычной задаче и 80% Success@10 в кросс-лингвистической, заняв 5-е и 10-е места соответственно. Результаты демонстрируют эффективность предложенного подхода в решении задач многоязычного и кросс-лингвистического извлечения фактов.

Annotation:

SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval is approached as a Learning-to-Rank task using a bi-encoder model fine-tuned from a pre-trained transformer optimized for sentence similarity. Training used both the source languages and their English translations for multilingual retrieval and only English translations for cross-lingual retrieval. Using lightweight models with fewer than 500M parameters and training on Kaggle T4 GPUs, the method achieved 92% Success...

ID: 2508.03475v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 VideoGuard: Protecting Video Content from Unauthorized Editing

2025-08-06

Авторы:

Junjie Cao, Kaizhou Li, Xinchun Yu, Hongxiang Li, Xiaoping Zhang

В последнее время генеративные модели достигли высоких результатов в генерации и редактировании цифрового контента, но их злоупотребление может привести к распространению вводящей в заблуждение информации. Несмотря на существование методов защиты фотографических изображений от несанкционерного редактирования, видеоконтент остаётся менее защищённым. Для решения этой проблемы предлагается VideoGuard — метод защиты видеоконтента от неавторизованных редактирований. Защита основывается на введении малозаметных пертурбаций, которые нарушают работу генеративных моделей диффузии. Учитывая избыточность между кадрами и механизмы внимания межкадрового характера в моделях видеодиффузии, VideoGuard использует совместную оптимизацию кадров и интегрирует в них движенческую информацию. Это позволяет гарантировать, что модели будут генерировать неконсистентные или неправдоподобные результаты. Метод показал высокую эффективность по сравнению с существующими подходами, подтверждая свою преимущественную роль в защите видеоконтента.

Annotation:

With the rapid development of generative technology, current generative models can generate high-fidelity digital content and edit it in a controlled manner. However, there is a risk that malicious individuals might misuse these capabilities for misleading activities. Although existing research has attempted to shield photographic images from being manipulated by generative models, there remains a significant disparity in the protection offered to video content editing. To bridge the gap, we pro...

ID: 2508.03480v1 cs.CV, cs.AI

arXiv PDF

📄 Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models

2025-08-06

Авторы:

Hyungjin Kim, Seokho Ahn, Young-Duk Seo

**Резюме** Персонализированная генерация в моделях типа Text-to-Image (T2I) с диффузионными моделями направлена на то, чтобы учесть предпочтения конкретных пользователей в процессе генерации, при этом свести к минимуму необходимость их участия. Тем не менее, современные подходы зачастую основываются на моделировании на уровне текстовых запросов (prompt-level) с помощью крупномасштабных моделей, что ограничивает эффективность персонализации из-за ограниченной емкости входных токенов в моделях T2I. Чтобы решить эту проблему, была разработка метода DrUM, который интегрирует пользовательский профиль с помощью адаптера на базе трансформера для моделирования на уровне условий (condition-level) в латентном пространстве. Этот подход обеспечивает высокую эффективность на крупных датасетах и легко интегрируется с открытыми текстовыми декодерами, совместимыми с популярными фундаментальными моделями T2I, не требуя дополнительной файн-тюнинга.

Annotation:

Personalized generation in T2I diffusion models aims to naturally incorporate individual user preferences into the generation process with minimal user intervention. However, existing studies primarily rely on prompt-level modeling with large-scale models, often leading to inaccurate personalization due to the limited input token capacity of T2I diffusion models. To address these limitations, we propose DrUM, a novel method that integrates user profiling with a transformer-based adapter to enabl...

ID: 2508.03481v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

2025-08-06

Авторы:

Dasol Choi Jihwan Lee, Minjae Lee, Minsuk Kahng

**Резюме:** В статье рассматривается проблема демографических предубеждений в объектах, генерируемых моделями text-to-image. Несмотря на то, что предыдущие исследования фокусировались в основном на биасе в демографической характеристике людей, авторы раскрывают более тонкую проблему — стереотипы в визуальных атрибутах объектов, таких как автомобили. Для этого был разработан новый фреймворк SODA (Stereotyped Object Diagnostic Audit), который позволяет систематически измерять такие биаси. Анализ 2700 изображений, сгенерированных тремя современными моделями (GPT Image-1, Imagen 4, Stable Diffusion) в пяти категориях объектов, показал сильную ассоциацию между демографическими признаками (такими как пол или этническая принадлежность) и визуальными чертами объектов. Обнаруженные стереотипы отражают и усиливают социально-культурные представления, в том числе самые тонкие и неочевидные. Также было выявлено, что некоторые модели генерируют менее разнообразные выходные данные, что усиливает различия в визуальных атрибутах. Результаты показывают, что SODA может стать эффективным инструментом для выявления и коррекции стереотипных биасов в моделях генеративного AI.

Annotation:

While prior research on text-to-image generation has predominantly focused on biases in human depictions, we investigate a more subtle yet pervasive phenomenon: demographic bias in generated objects (e.g., cars). We introduce SODA (Stereotyped Object Diagnostic Audit), a novel framework for systematically measuring such biases. Our approach compares visual attributes of objects generated with demographic cues (e.g., "for young people'') to those from neutral prompts, across 2,700 images produced...

ID: 2508.03483v1 cs.CV, cs.AI

arXiv PDF

📄 Semantic-aware Graph-guided Behavior Sequences Generation with Large Language Models for Smart Homes

2025-08-06

Авторы:

Zhiyao Xu, Dan Zhao, Qingsong Zou, Qing Li, Yong Jiang, Yuhang Wang, Jingyu Xiao

Проблема: модели «умного дома», обученные на статических данных, быстро деградируют при сезонных или образов-ных сдвигах поведения, а сбор новых реальных данных дорог и конфиденциален. Решение: фреймворк SmartGen, в котором LLM синтезирует реалистичные поведенческие последовательности. Он разбивает длинные логи на семантически цельные куски, компрессирует их кластеризацией в латентном пространстве, строит граф переходов и подаёт его в LLM как контекст, а затем двухступенчатым фильтром убирает аномальные сэмплы. Эксперименты на трёх датасетах: при поведенческом дрейфе точность детектирования аномалий выросла на 85,4 %, предсказания поведения — на 70,5 % относительно базовых моделей без дообучения.

Annotation:

As smart homes become increasingly prevalent, intelligent models are widely used for tasks such as anomaly detection and behavior prediction. These models are typically trained on static datasets, making them brittle to behavioral drift caused by seasonal changes, lifestyle shifts, or evolving routines. However, collecting new behavior data for retraining is often impractical due to its slow pace, high cost, and privacy concerns. In this paper, we propose SmartGen, an LLM-based framework that sy...

ID: 2508.03484v1 cs.AI

arXiv PDF

📄 BitsAI-Fix: LLM-Driven Approach for Automated Lint Error Resolution in Practice

2025-08-06

Авторы:

Yuanpeng Li, Qi Long, Zhiyuan Yao, Jian Xu, Lintao Xie, Xu He, Lu Geng, Xin Han, Yueyan Chen, Wenbo Duan

Увеличивающийся объём линтер-ошибок в корпоративных кодовых базах превысил возможности ручного исправления. Авторы предлагают BitsAI-Fix — автоматизированный пайплайн на базе LLM, который с помощью tree-sitter расширяет контекст, генерирует патчи в формате search-and-replace, перезапускает линтер и оставляет только прошедшие проверки изменения. Система обучается прогрессивным RL: на холодном старте формирует верифицируемые примеры, после развёртки собирает онлайн-фидбек по «code diff matching». Целевая функция сочетает корректность, минимальность изменений и правильность формата. В продакшене ByteDance решение обслуживает 5 000 инженеров, разрешило >12 000 ошибок с точностью 85 % и привлекает ~1 000 активных пользователей в неделю, демонстрируя жизнеспособность LLM-подхода для масштабного автоматического ремонта кода.

Annotation:

As enterprise codebases continue to grow in scale and complexity, the volume of lint errors far exceeds engineers' manual remediation capacity, leading to continuous accumulation of technical debt and hindered development efficiency. This paper presents BitsAI-Fix, an automated lint error remediation workflow based on Large Language Models (LLMs), designed to address this critical challenge in industrial-scale environments. BitsAI-Fix employs tree-sitter for context expansion and generates searc...

ID: 2508.03487v1 cs.SE, cs.AI, cs.LG

arXiv PDF

1
2
1438
1439
1440
1441
1442
1443

Показано 14391 - 14400 из 14425 записей