📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Rui Zou, Mengqi Wei, Yutao Zhu, Jirong Wen, Xin Zhao, Jing Chen

Несмотря на продвижение Large Language Models (LLMs) в области резонирования и генерации, они все еще сталкиваются с трудностями в выявлении и диагностике сложных ошибок. Это обусловлено тем, что обучающие задачи LLMs оптимизируются для получения верных ответов, тем самым ограничивая их возможности обучения на ошибках. До недавнего времени, исследования в этой области были ограничены использованием статичных, поверхностных ошибок, что не способствовало улучшению глубоких диагностических способностей. В данной работе предлагается Hide and Seek Game (HSG) — динамическая адверсарная рамака для генерации и диагностики ошибок, примененная к задачам математического резонирования. HSG включает два роли: Sneaky, который генерирует тонкие, обманчивые ошибки, и Diagnosis, который стремится их точно обнаружить. Через адверсарную ко-эволюцию, как степень скрытности ошибок, так и точность диагностики значительно улучшаются. Эксперименты показывают, что HSG улучшает точность диагностики на 16.8%–31.4% по сравнению с базовыми моделями, такими как GPT-4o. Авторы также предоставляют набор данных с обманчивыми ошибками и диагностическими аннотациями, который может служить основой для дальнейших исследований.
Annotation:
Large Language Models (LLMs) excel in reasoning and generation across domains, but still struggle with identifying and diagnosing complex errors. This stems mainly from training objectives that prioritize correct answers, limiting exposure to and learning from errors. While recent studies have begun to address this by introducing error signals, most rely on shallow, static errors, restricting improvement in deep diagnostic ability. To overcome this, we propose Hide and Seek Game (HSG), a dynamic...
ID: 2508.03396v1 cs.AI
Авторы:

Pingchuan Ma, Xiaopei Yang, Yusong Li, Ming Gui, Felix Krause, Johannes Schusterbauer, Björn Ommer

**Резюме:** SCFlow — это новое решение для неявного разделения стиля и содержания в визуальных моделях, которое избегает заморочки с явным разделением этих концептов. Обычно это сложно из-за их семантического перекрытия и субъективности человеческого восприятия. Существующие методы пытаются отделить стиль и содержание через генеративные или дискриминативные подходы, но сталкиваются с неоднозначностью этих задач. SCFlow использует подход flow-matching, чтобы обучить модель непосредственно слиянию стиля и содержания в обратимом процессе, позволяя разделение возникать естественным образом. Основные идеи заключаются в том, что: 1) обучение только на слияние этих концептов — это хорошо определенная задача; 2) flow-matching работает на произвольных распределениях, не ограничиваясь нормальными распределениями как в диффузионных моделях и нормализующих потоках; 3) синтетический датасет из 510 тысяч образцов (51 стиля × 10 тысяч содержаний) был создан для симуляции данного процесса. Кроме того, SCFlow демонстрирует хорошие результаты в задачах контролируемой генерации и нулевого шота на ImageNet-1k и WikiArt, показывая, что разделение содержания и стиля возникает естественным образом из обратимого процесса слияния.
Annotation:
Explicitly disentangling style and content in vision models remains challenging due to their semantic overlap and the subjectivity of human perception. Existing methods propose separation through generative or discriminative objectives, but they still face the inherent ambiguity of disentangling intertwined concepts. Instead, we ask: Can we bypass explicit disentanglement by learning to merge style and content invertibly, allowing separation to emerge naturally? We propose SCFlow, a flow-matchin...
ID: 2508.03402v1 cs.CV, cs.AI, cs.LG
Авторы:

Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan

**Резюме:** Существующие vision-language модели (VLMs) имеют ограничения в параметрах, ограниченные возможности самокоррекции и сниженную эффективность при работе с длинными визуальными контекстами и сложным логическим выводом, что приводит к неудовлетворительному результату на задачах, связанных с документами. Для решения этой проблемы был предложен MACT — Multi-Agent Collaboration framework с test-time scaling, разработанный для визуального понимания документов и визуального ответа на вопросы (VQA). MACT состоит из четырех малых агентов с четкими ролями: планирование, выполнение, оценка и ответ. Особенностью является judgment agent, который проверяет корректность и направляет задачу на доработку к предыдущим агентам, что является более эффективным по сравнению с традиционными методами коррекции. Дополнительно, используется mixed reward modeling для балансировки агентских и глобальных целей, а также agent-wise hybrid test-time scaling, адаптирующий стратегии масштабирования для каждого агента в зависимости от их функций. Эксперименты показали, что MACT превосходит существующие модели в задачах с длинными контекстами и сложным логическим выводом, показывая высокую эффективность при меньшем количестве параметров. Три варианта MACT занимают лидирующие позиции в средних баллах на 13 из 15 тестов.
Annotation:
Existing vision-language models (VLMs), whether generalists or specialists, remain constrained by their parameter scale, lack robust self-correction capabilities, and underperform in tasks involving long visual contexts and complex reasoning, resulting in suboptimal performance on document-based tasks. To address this, we propose MACT, a Multi-Agent Collaboration framework with Test-Time scaling, tailored for visual document understanding and visual question answering (VQA). It comprises four di...
ID: 2508.03404v1 cs.CV, cs.AI
Авторы:

Kai Li, Ruihao Zheng, Xinye Hao, Zhenkun Wang

В реальных логистических задачах пользователи часто указывают конфликтующие или недопустимые требования, что приводит к невозможности построения оптимизационной модели из-за чрезмерно ограничительных или противоречивых ограничений. Существующие методы, основанные на технологии Large Language Models (LLM), способны диагностировать недопустимые модели, но не учитывают множественных возможных корректировок. Для решения этой проблемы была предложена методика Multi-Objective Infeasibility Diagnosis (MOID), которая сочетает LLM-агентов и многокритериальную оптимизацию в автоматическом решатель для логистических задач. MOID рассматривает как затраты на маршрут, так и нарушения ограничений, генерируя набор компромиссных решений. Далее, с помощью LLM-агентов проводится анализ этих решений, чтобы диагностировать исходную недопустимую модель и предоставить пользователю практические рекомендации. На основе 50 типов недопустимых логистических задач показано, что MOID предлагает более комплексные и практически значимые решения по восстановлению модели и принятию решений по сравнению с существующими методами.
Annotation:
In real-world routing problems, users often propose conflicting or unreasonable requirements, which result in infeasible optimization models due to overly restrictive or contradictory constraints, leading to an empty feasible solution set. Existing Large Language Model (LLM)-based methods attempt to diagnose infeasible models, but modifying such models often involves multiple potential adjustments that these methods do not consider. To fill this gap, we introduce Multi-Objective Infeasibility Di...
ID: 2508.03406v1 cs.AI
Авторы:

Wenshuo Zhang, Leixian Shen, Shuchang Xu, Jindu Wang, Jian Zhao, Huamin Qu, Linping Yuan

**Резюме:** При использовании конверсационных LLMs для решения доменных задач пользователи с ограниченными навыками программирования часто сталкиваются с проблемой несоответствия их намерений (intents) с генерируемым кодом. Это связано с двунаправленной неоднозначностью: нелинейные пользовательские намерения и задачи программирования должны быть выражены и интерпретированы через линейные последовательности запросов и кода. Для решения этой проблемы предлагается новый парадигмальный подход — **direct intent-task matching**, который внешне представляет и позволяет манипулировать LLM-пониманием задач программирования до фазы генерации кода. Этот подход реализован в системе **NeuroSync**, которая использует knowledge distillation для извлечения понимания LLM, пользовательских намерений и их сопоставлений, поддерживая интуитивное редактирование через визуализации. Результаты технических экспериментов и юзер-стади (N=12) показали, что NeuroSync улучшает соответствие намерений и задач, сокращает когнитивные затраты и повышает эффективность программирования.
Annotation:
Conversational LLMs have been widely adopted by domain users with limited programming experience to solve domain problems. However, these users often face misalignment between their intent and generated code, resulting in frustration and rounds of clarification. This work first investigates the cause of this misalignment, which dues to bidirectional ambiguity: both user intents and coding tasks are inherently nonlinear, yet must be expressed and interpreted through linear prompts and code sequen...
ID: 2508.02823v1 cs.HC, cs.AI, cs.CL, cs.SE
Авторы:

Diana-Nicoleta Grigore, Neelu Madan, Andreas Mogelmose, Thomas B. Moeslund, Radu Tudor Ionescu

В статье представлена **SlotMatch**, фреймворк для улучшения управляемого видеосегментации с помощью легковесного студентского модели. Основная проблема состоит в том, что современные модели, основанные на slot attention, требуют больших вычислительных ресурсов. Для решения этой задачи SlotMatch использует механизм knowledge distillation для передачи объектно-центрированных представлений от большого учительского модели к легковесному студенту. Это достигается путем выравнивания соответствующих слотов учителя и студента через косинусное сходство, без необходимости дополнительных целей или надзора. Эксперименты на двух датасетах показали, что студент SlotMatch не только сопоставим с учителем SlotContrast, но и превзойдет его, используя в 3,6 раза меньше параметров и работая в 1,9 раза быстрее. Кроме того, студент SlotMatch превосходит предыдущие модели для управляемой видеосегментации.
Annotation:
Unsupervised video segmentation is a challenging computer vision task, especially due to the lack of supervisory signals coupled with the complexity of visual scenes. To overcome this challenge, state-of-the-art models based on slot attention often have to rely on large and computationally expensive neural architectures. To this end, we propose a simple knowledge distillation framework that effectively transfers object-centric representations to a lightweight student. The proposed framework, cal...
ID: 2508.03411v1 cs.CV, cs.AI
Авторы:

Shivangi Nigam, Adarsh Prasad Behera, Shekhar Verma, P. Nagabhushan

В статье представлен Fd-CycleGAN, инновационный фреймворк для задач image-to-image (I2I) трансляции, направленный на улучшение обучения латентных представлений для более точного аппроксимации реальных распределений данных. Основываясь на CycleGAN, Fd-CycleGAN интегрирует Local Neighborhood Encoding (LNE) и частотно-ориентированное наблюдение, что позволяет захватывать тонкие локальные семантические характеристики пикселей и сохранять структурную целостность исходного домена. Используя метрики потерь на основе распределений, такие как KL/JS дивергенция и логарифмические меры схожести, Fd-CycleGAN явно оценивает соответствие между реальными и сгенерированными распределениями изображений в пространственной и частотной областях. Эксперименты на различных датасетах (Horse2Zebra, Monet2Photo, Strike-off) показывают, что Fd-CycleGAN превосходит базовый CycleGAN и другие современные методы по характеристикам качества восприятия, скорости сходимости и разнообразия режимов, особенно в условиях ограниченных данных. Результаты подтверждают, что частотно-ориентированное обучение латентных представлений значительно улучшает общее качество трансляции изображений, с многообещающими применениями в областях документного восстановления, художественного стилевого переноса, и синтеза медициных изображений. Также, в статье представлены сравнительные анализы с диффузионными генеративными моделями, выделяя преимущества Fd-CycleGAN по тренировочной эффективности и качеству вывода.
Annotation:
This paper presents Fd-CycleGAN, an image-to-image (I2I) translation framework that enhances latent representation learning to approximate real data distributions. Building upon the foundation of CycleGAN, our approach integrates Local Neighborhood Encoding (LNE) and frequency-aware supervision to capture fine-grained local pixel semantics while preserving structural coherence from the source domain. We employ distribution-based loss metrics, including KL/JS divergence and log-based similarity m...
ID: 2508.03415v1 cs.CV, cs.AI, cs.GR
Авторы:

Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun

**Резюме:** Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus. Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.
Annotation:
X-ray medical report generation is one of the important applications of artificial intelligence in healthcare. With the support of large foundation models, the quality of medical report generation has significantly improved. However, challenges such as hallucination and weak disease diagnostic capability still persist. In this paper, we first construct a large-scale multi-modal medical knowledge graph (termed M3KG) based on the ground truth medical report using the GPT-4o. It contains 2477 entit...
ID: 2508.03426v1 cs.CV, cs.AI, cs.LG
Авторы:

Iyad Rahwan, Azim Shariff, Jean-François Bonnefon

**Резюме** Прогнозирование социальных и поведенческих последствий будущих технологий может позволить управлять их развитием и регулированием до того, как эти воздействия станут неизменными. Традиционно такие прогнозы основывались на качественных, нарративных методах. Авторы предлагают новый подход, называемый "научно-фантастическим методом" (science fiction science), который использует экспериментальные исследования для моделирования будущих технологий и сбора количественных данных о поitudes и поведениях участников, помещённых в контролируемые вариации будущего. Однако этот подход не получил широкого признания из-за рисков его валидности, связанных с необычными и иммерсивными методами. Авторы обсуждают ограничения, которые могут смягчить эти риски, и предлагают стратегии для нормализации таких методов, чтобы стимулировать развитие этого направования и создать цикл улучшения его надежности.
Annotation:
Predicting the social and behavioral impact of future technologies, before they are achieved, would allow us to guide their development and regulation before these impacts get entrenched. Traditionally, this prediction has relied on qualitative, narrative methods. Here we describe a method which uses experimental methods to simulate future technologies, and collect quantitative measures of the attitudes and behaviors of participants assigned to controlled variations of the future. We call this m...
ID: 2508.03430v1 cs.HC, cs.AI
Авторы:

Hongjun Liu, Chao Yao, Yalan Zhang, Xiaokun wang, Xiaojuan Ban

**Резюме:** Классификация сигналов электроэнцефалограммы (EEG) сталкивается с серьезными трудностями, вызванными различиями в конфигурациях электродов, протоколах сбора данных и аппаратуре различных доменов. В этой работе представлена модель **IMAC**, которая решает эту проблему путем выравнивания кросс-доменных данных через задачу импуции (заполнения пропусков) пространственных временных рядов. IMAC выравнивает разнородные конфигурации электродов с помощью метода унификации пространственных представлений, основанного на 3D-to-2D маппинге. Отличительной особенностью является введение channel-dependent масок и реконструкции сигнала в виде задачи импуции с низкого разрешения на высокое. Этот подход эмулирует реальные различия между доменами, такие как отсутствие каналов и временные нестабильности, обеспечивая робастность модели. Дополнительно, IMAC использует дескрипторную структуру для раздельного моделирования пространственной и временной информации, что повышает эффективность и адаптивность. Результаты на 10 открытых наборах данных показывают, что IMAC достигает лучших показателей классификации в кросс-субъектном и кросс-центровом сценариях, превосходя базовые методы на до 35% по метрике целостности и показывая высокую стабильность при реальных и имитированных распределениях. **(145 слов)**
Annotation:
Electroencephalogram (EEG) signal classification faces significant challenges due to data distribution shifts caused by heterogeneous electrode configurations, acquisition protocols, and hardware discrepancies across domains. This paper introduces IMAC, a novel channel-dependent mask and imputation self-supervised framework that formulates the alignment of cross-domain EEG data shifts as a spatial time series imputation task. To address heterogeneous electrode configurations in cross-domain scen...
ID: 2508.03437v1 cs.CV, cs.AI, 62M10, I.5.1; J.3
Показано 14381 - 14390 из 14425 записей