📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Taine J. Elliott, Stephen P. Levitt, Ken Nixon, Martin Bekker
**Резюме**
Растущий объем медицинских данных создает значительные трудности для клиницистов и исследователей, усложняя систематический анализ и использование последних научных достижений. В данной работе предлагается метод автоматического построения знаний на основе графов (Knowledge Graph, KG) для идентификации и структурирования биомедицинской информации. Используя 44 абстрактных статей из PubMed, система разбивает текст на семантически значимые предложения и извлекает тройки данных (триплеты), которые улучшаются за счет добавления онтологических категорий и контекстных переменных, превращая их в "квадруплеты". Эксперименты показывают, что использование контекста повышает точность извлечения на основе языковых моделей (Large Language Models, LLM), достигая средней косинусной схожести 0,874. Дальнейшие исследования демонстрируют возможность LLM для выявления новых отношений и создания связей между кластерами в базе знаний. Результаты могут стать основой для создания реального времени обновляемых инструментов для медицинских практиков.
Annotation:
The rapid expansion of publicly-available medical data presents a challenge
for clinicians and researchers alike, increasing the gap between the volume of
scientific literature and its applications. The steady growth of studies and
findings overwhelms medical professionals at large, hindering their ability to
systematically review and understand the latest knowledge. This paper presents
an approach to information extraction and automatic knowledge graph (KG)
generation to identify and connect bi...
📄 LLMs Have a Heart of Stone: Demystifying the Soft Thinking Ability of Large Reasoning Models
2025-08-06Авторы:
Junhong Wu, Jinliang Lu, Zixuan Ren, Ganqiang Hu, Zhi Wu, Dai Dai, Hua Wu
Большие языковые модели (LLMs) обычно основываются на генерации дискретных токенов, что может ограничивать их способность к резкому мышлению в более абстрактных и непрерывных пространствах. Для решения этой проблемы, исследование посвящено изучению возможностей "мягкого мышления" (Soft Thinking) в LLMs, где модели используют более абстрактные, недискретные токены. Однако, анализ внутреннего поведения LLMs показал, что, несмотря на использование "мягких" входных данных, модели часто зависят от самого влиятельного компонента этих данных, что ограничивает их способность к исследованию разных путей резонанса и делает процесс похожим на жадный декодирования. Чтобы преодолеть эту проблему, исследователи предложили ввести случайность в процесс генерации, используя методы такие как Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют улучшить производительность LLMs в резонансе, особенно Gumbel-Softmax trick, который обеспечивает оптимальный баланс между случайностью и сглаживанием, показывая лучшие результаты на восемь различных задачах резонанса.
Annotation:
Human cognition naturally engages with abstract and fluid concepts, whereas
existing reasoning models often rely on generating discrete tokens, potentially
constraining their expressive capabilities. Recent advancements aim to address
this limitation by enabling large language models (LLMs) to generate soft,
abstract tokens, thus facilitating reasoning within a continuous concept space.
This paper explores the `Soft Thinking' capabilities of various LLMs by
examining the models' internal behavio...
Авторы:
Jan Melechovsky, Ambuj Mehrish, Dorien Herremans
**Резюме:**
Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыточная реверберация, дисторсия, клиппинг, дисбаланс тонов и ограниченная стереоизображение. Коррекция этих артефактов обычно требует отдельных специализированных инструментов и ручных настроек.
В данной работе представлен **SonicMaster** — первый унифицированный генеративный модель для восстановления и мастеринга музыки, которая решает широкий спектр аудио-дефектов с помощью текстовых инструкций. Модель может функционировать в режиме автоматического восстановления или принимать целенаправленные улучшения на основе естественного языка. Для обучения **SonicMaster** был создан набор данных, состоящий из пар изведенных и высококачественных треков, симулированных с помощью 19 функций деградации в пяти категориях: эквалайзинг, динамика, реверберация, амплитуда и стерео. Обучение основывается на подходе flow-matching, который преобразует деградированный вход в очищенную и мастерированную версию, руководствуясь текстовыми запросами.
Объективные метрики качества звука показывают значительное улучшение во всех категориях артефактов. Субъективные тесты прослушивания подтверждают, что пользователи предпочитают улучшенные выходные данные **SonicMaster** по сравнению с оригинальными деградированными треками, подчеркивая эффективность предложенного подхода.
Annotation:
Music recordings often suffer from audio quality issues such as excessive
reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo
image, especially when created in non-professional settings without specialized
equipment or expertise. These problems are typically corrected using separate
specialized tools and manual adjustments. In this paper, we introduce
SonicMaster, the first unified generative model for music restoration and
mastering that addresses a broad spectrum of au...
📄 Toward a Graph-Theoretic Model of Belief: Confidence, Credibility, and Structural Coherence
2025-08-06Авторы:
Saleh Nikooroo
Эта статья предлагает новый подход к моделированию систем вероятностей в виде взвешенных, направленных графов. Обычные модели, основанные на глобальной когерентности или вероятностных распределениях, игнорируют внутреннюю структуру вероятностей, путают внешнюю достоверность с внутренней когерентностью и не могут описывать фрагментированные или противоречивые эпистемические состояния. Автор предлагает формализм, где узлы графа обозначают отдельные вероятности, а ребра представляют эпистемические отношения, такие как поддержка или противоречие. Каждая вероятность получает две оценки: достоверность (отражающая доверие к источнику) и уверенность (основанная на внутренней структурной поддержке). Этот подход отличается от классических вероятностных моделей, не требуя предварительной когерентности или обновления вероятностей, и от логических и аргументационных моделей, позволяя детальному представлению структуры без бинарного статуса обоснования или дедуктивного замыкания. Модель статична и не включает процедуры вывода или ревизии, цель которых — обеспечить фундаментальную основу для анализа внутренней организации систем вероятностей, включая условия когерентности, эпистемические напряжения и пределы представления. Этот формализм позволяет более широкую классификацию эпистемических состояний, чем существующие вероятностные, логические или аргументационные модели.
Annotation:
Belief systems are often treated as globally consistent sets of propositions
or as scalar-valued probability distributions. Such representations tend to
obscure the internal structure of belief, conflate external credibility with
internal coherence, and preclude the modeling of fragmented or contradictory
epistemic states. This paper introduces a minimal formalism for belief systems
as directed, weighted graphs. In this framework, nodes represent individual
beliefs, edges encode epistemic relati...
📄 fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval
2025-08-06Авторы:
Pranshu Rastogi
**Резюме**
В статье представлен подход к задаче SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval, решаемой как задача Learning-to-Rank. Используется би-энкодер, основанный на предобученном трансформере, оптимизированном для задач поиска похожих предложений. Для обучения в многоязычном режиме использовались исходные языки и их английские переводы, а в кросс-лингвистическом режиме — только английские переводы. Благодаря использованию легковесных моделей с параметрами менее 500 млн и обучения на Kaggle T4 GPUs, метод достиг показателей 92% Success@10 в многоязычной задаче и 80% Success@10 в кросс-лингвистической, заняв 5-е и 10-е места соответственно. Результаты демонстрируют эффективность предложенного подхода в решении задач многоязычного и кросс-лингвистического извлечения фактов.
Annotation:
SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim
Retrieval is approached as a Learning-to-Rank task using a bi-encoder model
fine-tuned from a pre-trained transformer optimized for sentence similarity.
Training used both the source languages and their English translations for
multilingual retrieval and only English translations for cross-lingual
retrieval. Using lightweight models with fewer than 500M parameters and
training on Kaggle T4 GPUs, the method achieved 92% Success...
Авторы:
Junjie Cao, Kaizhou Li, Xinchun Yu, Hongxiang Li, Xiaoping Zhang
В последнее время генеративные модели достигли высоких результатов в генерации и редактировании цифрового контента, но их злоупотребление может привести к распространению вводящей в заблуждение информации. Несмотря на существование методов защиты фотографических изображений от несанкционерного редактирования, видеоконтент остаётся менее защищённым. Для решения этой проблемы предлагается VideoGuard — метод защиты видеоконтента от неавторизованных редактирований. Защита основывается на введении малозаметных пертурбаций, которые нарушают работу генеративных моделей диффузии. Учитывая избыточность между кадрами и механизмы внимания межкадрового характера в моделях видеодиффузии, VideoGuard использует совместную оптимизацию кадров и интегрирует в них движенческую информацию. Это позволяет гарантировать, что модели будут генерировать неконсистентные или неправдоподобные результаты. Метод показал высокую эффективность по сравнению с существующими подходами, подтверждая свою преимущественную роль в защите видеоконтента.
Annotation:
With the rapid development of generative technology, current generative
models can generate high-fidelity digital content and edit it in a controlled
manner. However, there is a risk that malicious individuals might misuse these
capabilities for misleading activities. Although existing research has
attempted to shield photographic images from being manipulated by generative
models, there remains a significant disparity in the protection offered to
video content editing. To bridge the gap, we pro...
Авторы:
Hyungjin Kim, Seokho Ahn, Young-Duk Seo
**Резюме**
Персонализированная генерация в моделях типа Text-to-Image (T2I) с диффузионными моделями направлена на то, чтобы учесть предпочтения конкретных пользователей в процессе генерации, при этом свести к минимуму необходимость их участия. Тем не менее, современные подходы зачастую основываются на моделировании на уровне текстовых запросов (prompt-level) с помощью крупномасштабных моделей, что ограничивает эффективность персонализации из-за ограниченной емкости входных токенов в моделях T2I.
Чтобы решить эту проблему, была разработка метода DrUM, который интегрирует пользовательский профиль с помощью адаптера на базе трансформера для моделирования на уровне условий (condition-level) в латентном пространстве. Этот подход обеспечивает высокую эффективность на крупных датасетах и легко интегрируется с открытыми текстовыми декодерами, совместимыми с популярными фундаментальными моделями T2I, не требуя дополнительной файн-тюнинга.
Annotation:
Personalized generation in T2I diffusion models aims to naturally incorporate
individual user preferences into the generation process with minimal user
intervention. However, existing studies primarily rely on prompt-level modeling
with large-scale models, often leading to inaccurate personalization due to the
limited input token capacity of T2I diffusion models. To address these
limitations, we propose DrUM, a novel method that integrates user profiling
with a transformer-based adapter to enabl...
📄 When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models
2025-08-06Авторы:
Dasol Choi Jihwan Lee, Minjae Lee, Minsuk Kahng
**Резюме:**
В статье рассматривается проблема демографических предубеждений в объектах, генерируемых моделями text-to-image. Несмотря на то, что предыдущие исследования фокусировались в основном на биасе в демографической характеристике людей, авторы раскрывают более тонкую проблему — стереотипы в визуальных атрибутах объектов, таких как автомобили. Для этого был разработан новый фреймворк SODA (Stereotyped Object Diagnostic Audit), который позволяет систематически измерять такие биаси. Анализ 2700 изображений, сгенерированных тремя современными моделями (GPT Image-1, Imagen 4, Stable Diffusion) в пяти категориях объектов, показал сильную ассоциацию между демографическими признаками (такими как пол или этническая принадлежность) и визуальными чертами объектов. Обнаруженные стереотипы отражают и усиливают социально-культурные представления, в том числе самые тонкие и неочевидные. Также было выявлено, что некоторые модели генерируют менее разнообразные выходные данные, что усиливает различия в визуальных атрибутах. Результаты показывают, что SODA может стать эффективным инструментом для выявления и коррекции стереотипных биасов в моделях генеративного AI.
Annotation:
While prior research on text-to-image generation has predominantly focused on
biases in human depictions, we investigate a more subtle yet pervasive
phenomenon: demographic bias in generated objects (e.g., cars). We introduce
SODA (Stereotyped Object Diagnostic Audit), a novel framework for
systematically measuring such biases. Our approach compares visual attributes
of objects generated with demographic cues (e.g., "for young people'') to those
from neutral prompts, across 2,700 images produced...
Авторы:
Zhiyao Xu, Dan Zhao, Qingsong Zou, Qing Li, Yong Jiang, Yuhang Wang, Jingyu Xiao
Проблема: модели «умного дома», обученные на статических данных, быстро деградируют при сезонных или образов-ных сдвигах поведения, а сбор новых реальных данных дорог и конфиденциален.
Решение: фреймворк SmartGen, в котором LLM синтезирует реалистичные поведенческие последовательности. Он разбивает длинные логи на семантически цельные куски, компрессирует их кластеризацией в латентном пространстве, строит граф переходов и подаёт его в LLM как контекст, а затем двухступенчатым фильтром убирает аномальные сэмплы.
Эксперименты на трёх датасетах: при поведенческом дрейфе точность детектирования аномалий выросла на 85,4 %, предсказания поведения — на 70,5 % относительно базовых моделей без дообучения.
Annotation:
As smart homes become increasingly prevalent, intelligent models are widely
used for tasks such as anomaly detection and behavior prediction. These models
are typically trained on static datasets, making them brittle to behavioral
drift caused by seasonal changes, lifestyle shifts, or evolving routines.
However, collecting new behavior data for retraining is often impractical due
to its slow pace, high cost, and privacy concerns. In this paper, we propose
SmartGen, an LLM-based framework that sy...
Авторы:
Yuanpeng Li, Qi Long, Zhiyuan Yao, Jian Xu, Lintao Xie, Xu He, Lu Geng, Xin Han, Yueyan Chen, Wenbo Duan
Увеличивающийся объём линтер-ошибок в корпоративных кодовых базах превысил возможности ручного исправления. Авторы предлагают BitsAI-Fix — автоматизированный пайплайн на базе LLM, который с помощью tree-sitter расширяет контекст, генерирует патчи в формате search-and-replace, перезапускает линтер и оставляет только прошедшие проверки изменения. Система обучается прогрессивным RL: на холодном старте формирует верифицируемые примеры, после развёртки собирает онлайн-фидбек по «code diff matching». Целевая функция сочетает корректность, минимальность изменений и правильность формата. В продакшене ByteDance решение обслуживает 5 000 инженеров, разрешило >12 000 ошибок с точностью 85 % и привлекает ~1 000 активных пользователей в неделю, демонстрируя жизнеспособность LLM-подхода для масштабного автоматического ремонта кода.
Annotation:
As enterprise codebases continue to grow in scale and complexity, the volume
of lint errors far exceeds engineers' manual remediation capacity, leading to
continuous accumulation of technical debt and hindered development efficiency.
This paper presents BitsAI-Fix, an automated lint error remediation workflow
based on Large Language Models (LLMs), designed to address this critical
challenge in industrial-scale environments. BitsAI-Fix employs tree-sitter for
context expansion and generates searc...
Показано 14391 -
14400
из 14425 записей