📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Bridging the Gap Between Multimodal Foundation Models and World Models

2025-10-08

Авторы:

Xuehai He

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Humans understand the world through the integration of multiple sensory modalities, enabling them to perceive, reason about, and imagine dynamic physical processes. Inspired by this capability, multimodal foundation models (MFMs) have emerged as powerful tools for multimodal understanding and generation. However, today's MFMs fall short of serving as effective world models. They lack the essential ability such as perform counterfactual reasoning, simulate dynamics, understand the spatiotemporal ...

ID: 2510.03727v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Words That Make Language Models Perceive

2025-10-07

Авторы:

Sophie L. Wang, Phillip Isola, Brian Cheung

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) trained purely on text ostensibly lack any direct perceptual experience, yet their internal representations are implicitly shaped by multimodal regularities encoded in language. We test the hypothesis that explicit sensory prompting can surface this latent structure, bringing a text-only LLM into closer representational alignment with specialist vision and audio encoders. When a sensory prompt tells the model to 'see' or 'hear', it cues the model to resolve its next-...

ID: 2510.02425v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 The Unreasonable Effectiveness of Scaling Agents for Computer Use

2025-10-04

Авторы:

Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer-use agents (CUAs) hold promise for automating everyday digital tasks, but their unreliability and high variance hinder their application to long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method that scales over agents by generating multiple rollouts and selecting among them using behavior narratives that describe the agents' rollouts. It enables both wide exploration and principled trajectory selection, substantially improving robustness and success rates. On OSW...

ID: 2510.02250v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 IRIS: Intrinsic Reward Image Synthesis

2025-10-02

Авторы:

Yihang Chen, Yuanhao Ban, Yunqi Hong, Cho-Jui Hsieh

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite the success of Reinforcement Learning from Human Feedback (RLHF) in language reasoning, its application to autoregressive Text-to-Image (T2I) generation is often constrained by the limited availability of human preference data. This paper explores how an autoregressive T2I model can learn from internal signals without relying on external rewards or labeled data. Contrary to recent findings in text generation, we show that maximizing self-uncertainty, rather than self-certainty, improves ...

ID: 2509.25562v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

2025-09-30

Авторы:

Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

#### Контекст В последние годы возникло значительное интерес к видным-языковым моделям (VLMs) в различных областях, включая управление непилотируемыми летательными аппаратами (UAV). Однако существующие VLM-подобные подходы для авиационной визуальной лингвистики (AVLN) часто требуют кастомизации и сложности в обучении, что ограничивает их универсальность и применимость. Кроме того, нетрудно заметить, что большинство текущих систем требуют значительного обучения для адаптации к различным средам и задачам, что снижает их эффективность. Таким образом, возникает потребность в разработке универсального, без обучения фреймворка для AVLN, который мог бы преодолеть эти ограничения и обеспечивать более гибкое управление UAV. #### Метод Мы предлагаем See, Point, Fly (SPF) — универсальный фреймворк для AVLN, основанный на VLMs, который не требует значительного обучения. Фреймворк SPF использует визуально-языковую модель для разбиения неоднозначных текстовых инструкций на последовательность команд навигации. В частности, SPF преобразует текстовые команды навигации в 2D-способность, позволяя UAV представить целевую точку в пространстве в виде последовательных 2D-waypoints. Далее, SPF преобразует эти 2D-waypoints в 3D-дисплесности и трансформирует их в команды для UAVs. Этот подход обеспечивает универсальную навигацию, включая динамическую среду и dynamic target tracking. Также SPF использует adaptive distance control, чтобы сделать навигацию более эффективной. Эта архитектура может быть применена к различным VLMs без потери эффективности. #### Результаты Мы провели различные эксперименты, чтобы продемонстрировать эффективность SPF. Использовались данные из DRL-симулятора и реального мира для оценки производительности. На DRL-бенчмарке SPF показал существенное улучшение по сравнению с предыдущим лучшим методом, повысив до 63% в абсолютных числах. В реальном мире SPF также показал значительные выигрыши по сравнению с другими сильными базисами. Мы также провели аблационные исследования, чтобы подтвердить эффективность нашего подхода. Дополнительно, SPF показал надежную общность с различными VLMs, что демонстрирует его универсальность. #### Значимость SPF представляет собой значительный прорыв в области AVLN, обеспечивая универсальную, без обучения систему, которая может работать в различных средах и задачах. Он может быть применен в сферах, таких как поиск и спасательные операции, разведка, доставка и другие. SPF обеспечивает более эффективное и универсальное управление UAV, в том числе в динамических средах. Благодаря своей гибкости

Annotation:

We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language in...

ID: 2509.22653v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

2025-09-24

Авторы:

Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang

## Контекст Оценка возможностей текущих бо LARGE REASONING MODELS (LRMs) в области рационального анализа текстовых и визуальных данных приобрела важное значение в связи с развитием ИИ. Несмотря на прогресс в области обработки естественного языка (NLP), существуют проблемы с проверяемостью и точностью результатов, особенно в сценариях, требующих визуального рассуждения. Недостаток структурированных тестовых баз данных и методов экспериментальной оценки не позволяет значительно продвинуться в сфере логического и визуального изучения. Данная работа предлагает контекст для последующей оценки и развития моделей, а также для продвижения инноваций в этой области. ## Метод Работа проводилась в два этапа. Сначала были выбраны популярные модели логического анализа для проведения экспериментов. Затем с помощью ROME (RObust Multimodal Evaluation) был проведен непосредственный тестирований моделей на рассуждение из визуальных и текстовых источников. Метод ROME основывается на систематических сценариях, чтобы избежать дискрипантов в результатах и обеспечить прозрачность в разборе. Таким образом, была создана возможность открытого доступа к данным, которая позволит дальнейшим исследователям продолжать эти работы. ## Результаты Эксперименты показали, что хотя LRMs демонстрируют высокий уровень эффективности в текстовых задачах, их производительность во визуальных задачах остается ограниченной. Например, модели, использующие ROME, показывали проблемы с определением контекста и визуальных сигналов, а также с выводом логических выводов. Несмотря на это, результаты показывают потенциал для улучшения, особенно в сценариях, где визуальное рассуждение является приоритетным. ## Значимость Результаты имеют значимые последствия для областей, в которых необходимы точный логический анализ и визуальное рассуждение, такие как медицина, юриспруденция и технологии. Также, открытый доступ к ROME и данным экспериментов позволяет другим исследователям продолжить эту работу, что может привести к развитию новых моделей и методов. Это выделяет важность данных исследований для улучшения общей функциональности моделей. ## Выводы Работа представляет собой первый шаг к созданию структурированных баз данных и методов экспериментального тестирования в области визуального и логического рассуждения. Она подтверждает необходимость дальнейшего исследования в этой области для достижения более высокой точности и прозрачности в логическом анализе. Будущие исследования будут сконцентрированы на улучшении моделей и развитии новых сценариев для уточнения их производительности.

Annotation:

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/

ID: 2509.17177v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement

2025-09-18

Авторы:

Ali Salamatian, Amirhossein Abaskohi, Wan-Cyuan Fan, Mir Rayat Imtiaz Hossain, Leonid Sigal, Giuseppe Carenini

#### Контекст Картинки являются важной визуальной формой представления информации, играя ключевую роль в обмене информацией и принятии решений. Несмотря на то, что Large Vision-Language Models (LVLMs) демонстрируют последовательные улучшения во взаимодействии с картинками, при работе с задачами картиночного обращения (CQA) возникают проблемы. Одним из главных критериев является внимание моделей: часто они следят за незначимыми или некорректными областями картинки, что снижает точность и читаемость. Это говорит об ограничениях в текущих моделях и показывает необходимость усовершенствований. Наша мотивация заключается в создании новых технологий, которые позволят LVLMs более точно следовать человеческим газовым паттернам, улучшая качество решения задач. #### Метод Для изучения этой проблемы мы разрабатываем методологию ChartGaze, которая включает в себя сбор данных о газах человека во время выполнения задач по разбору картинок. Мы используем техники газового слежения (eye-tracking), чтобы регистрировать и анализировать точки внимания людей во время работы с картинкой. Для сравнения мы проводим эксперименты с LVLMs, которые применяются к той же задаче. Основным техническим решением является гибкое рефининиг привязки внимания моделей к значимым областям, основываясь на газах человека. Эта гибкость позволяет выравнивать модельное внимание с газами, увеличивая точность и понятность. #### Результаты Мы провели эксперименты с несколькими моделями LVLMs на данных ChartGaze. Наши результаты показывают, что применение газового рефининига приводит к существенным улучшениям. В частности, LVLMs показывают улучшение точности ответов на вопросы (CQA) до 2.56%, сравниваясь с базовыми версиями, не использующими газовую рефининигацию. Мы также провели сравнение субъективных результатов между гуманными и модельными газами, которое подтвердило, что модели, использующие ChartGaze, более точно следуют человеческим газам и, следовательно, демонстрируют более высокий уровень точности и читаемости. #### Значимость Наша работа имеет большой потенциал в различных областях, где качество интеракции с картинками играет ключевую роль. Например, в области медицины, управления проектами, финансов и образования модели, улучшенные с помощью ChartGaze, могут дать более точные и понятные ответы. Основные преимущества заключаются в увеличении точности, более естественных и понятных ответов, а также снижении возможности человеческого вмешательства для исправления модели. Эти достижения открывают новые пути к улучшению технологий работы с картинками, увеличивая их ценность в реаль

Annotation:

Charts are a crucial visual medium for communicating and representing information. While Large Vision-Language Models (LVLMs) have made progress on chart question answering (CQA), the task remains challenging, particularly when models attend to irrelevant regions of the chart. In this work, we present ChartGaze, a new eye-tracking dataset that captures human gaze patterns during chart reasoning tasks. Through a systematic comparison of human and model attention, we find that LVLMs often diverge ...

ID: 2509.13282v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Imagining Alternatives: Towards High-Resolution 3D Counterfactual Medical Image Generation via Language Guidance

2025-09-10

Авторы:

Mohamed Mohamed, Brennan Nichyporuk, Douglas L. Arnold, Tal Arbel

#### Контекст Визуальные-языковые модели показали впечатляющие возможности генерировать 2D-изображения в различных условиях, но это возможно в большей степени благодаря имеющимся подготовленным моделям-основам. Однако в 3D-домене подобные модели очень ограничены, что ограничивает потенциал визуально-языковых моделей в генерировании высококачественных 3D-изображений. Это особенно важно в медицинской области, где требуется точное трехмерное моделирование, например, для исследования нервной системы. Несмотря на важность этих задач, пока не было достигнуто значительного прогресса в создании 3D-систем, которые бы могли генерировать индивидуальные медицинские изображения на основе естественного языка. Такие модели позволяли бы, например, исследовать здоровье мозга с разными медицинскими условиями или симулировать прогрессирование заболеваний. Наша работа сделала основной шаг к реализации этой цели, разрабатывая фреймворк для 3D-генерирования высококачественных 3D-изображений, нацеленных на синтезированных пациентов, используя свободную форму естественного языка. #### Метод Мы создали фреймворк, который расширяет современные 3D-диффузионные модели, используя подходы из Simple Diffusion и улучшения условий текста. Эта модель использует 3D-объекты для генерирования 3D-изображений, что требует большой точности для представления трехмерной структуры мозга. Мы также внедрили усовершенствованные методы для повышения корреляции между текстом и изображением, чтобы гарантировать точность в гипотетических ситуациях. Наша модель учитывает требования к высокому разрешению и подробности для обеспечения фидбека о клиническом исходе. Мы проверили ее на двух наборах данных, связанных с неврологией, включая данные о МС и Алцгеймере. Это позволило проверить модель на ситуациях синтеза симптомов и воспроизведения характеристик разных состояний. #### Результаты Мы проверили наш фреймворк на двух наборах данных, описывающих неврологические заболевания. Наши результаты показали, что модель может генерировать высококачественные 3D-изображения, в которых видны различные степени лесенок (Multiple Sclerosis) и разные уровни выздравствования (Alzheimer's). Кроме того, модель сохраняет точность в представлении лиц и трехмерной структуры мозга. Это доказывает возможность модели для генерации надежной 3D-информации для визуализации медицинских условий и анализа их прогрессии. #### Значимость Наша модель открывает новые перспективы в области медицины, включая персонализированные модели для прогнозировани

Annotation:

Vision-language models have demonstrated impressive capabilities in generating 2D images under various conditions; however the impressive performance of these models in 2D is largely enabled by extensive, readily available pretrained foundation models. Critically, comparable pretrained foundation models do not exist for 3D, significantly limiting progress in this domain. As a result, the potential of vision-language models to produce high-resolution 3D counterfactual medical images conditioned s...

ID: 2509.05978v1 eess.IV, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Chronotome: Real-Time Topic Modeling for Streaming Embedding Spaces

2025-09-05

Авторы:

Matte Lim, Catherine Yeh, Martin Wattenberg, Fernanda Viégas, Panagiotis Michalatos

## Контекст В настоящее время существует множество реального мира данных, включая тексты, изображения, аудио и другие виды данных, которые меняются с течением времени. Эти изменения могут отражать авторские стили, тематические изменения или динамику взаимодействия. Однако существующие методы, такие как статическая визуализация, не могут правильно отражать эти изменения во времени. Это создает проблему для анализа и понимания временных потоков данных. Мы предлагаем Chronotome, инструмент, который позволяет визуализировать эти изменения в реальном времени. ## Метод Чтобы построить Chronotome, мы использовали гибридную архитектуру, которая объединяет силовое проектирование с методами кластеризации. Силовое проектирование позволяет структурировать данные в пространственно-временной модели, а кластеризация позволяет отслеживать изменения в тематических пространствах. Эти методы тесно интегрированы с потоковыми алгоритмами, чтобы обеспечить реальное время визуализации. Мы также использовали методы сокращения размерности, такие как t-SNE и UMAP, для эффективного представления данных. ## Результаты Мы проверили Chronotome на нескольких наборах данных, включая текстовые данные и изображения. Наши эксперименты показали, что Chronotome может эффективно отражать изменения тем в реальном времени. Например, при анализе текстовых данных, таких как твиты, мы увидели, как темы изменяются с течением времени. Аналогичные результаты были получены при анализе изображений, где Chronotome могла отобразить изменения в тематических областях, таких как мода или стили. ## Значимость Chronotome может быть применен в различных областях, таких как анализ социальных сетей, мониторинг медиа-трендов и анализ исторических данных. Он предоставляет новый способ понимания временных тем в данных. Его преимущество заключается в реальном времени обновлении данных, что делает его крайне полезным для аналитиков и исследователей, которые работают с динамическими данными. ## Выводы Chronotome представляет собой перспективный подход к визуализации временных тем в данных. Наши результаты показали, что он может эффективно отражать изменения в тематических пространствах в реальном времени. Будущие исследования будут сосредоточены на улучшении точности кластеризации и интеграции дополнительных функций, таких как интерактивная настройка.

Annotation:

Many real-world datasets -- from an artist's body of work to a person's social media history -- exhibit meaningful semantic changes over time that are difficult to capture with existing dimensionality reduction methods. To address this gap, we introduce a visualization technique that combines force-based projection and streaming clustering methods to build a spatial-temporal map of embeddings. Applying this technique, we create Chronotome, a tool for interactively exploring evolving themes in ti...

ID: 2509.01051v1 cs.HC, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis

2025-08-29

Авторы:

Chengzu Li, Wenshan Wu, Huanyu Zhang, Qingtao Li, Zeyu Gao, Yan Xia, José Hernández-Orallo, Ivan Vulić, Furu Wei

#### Контекст Многомодальные большие языковые модели (MLLMs) показали впечатляющий прогресс в различных задачах, включая абстрактное моделирование, специальную обработку языка и моделирование знаний. Однако их возможности в области пространственного рассуждения остаются мало исследоваными. Хотя пространственное рассуждение и пространственное восприятие человека тесно связаны, их естественное сочетание в поведении MLLMs еще не полностью понято. Это создает необходимость в разработке рамок экспериментов для оценки их производительности в этой области. Мы предлагаем 11Plus-Bench, бенчмарк, основанный на реальных стандартизированных тестах пространственного рассуждения. Он детально анализирует модельное поведение с помощью тонкого аннотирования как перцептивного, так и рассуждательного уровня. #### Метод 11Plus-Bench представляет собой коллекцию задач, специально разработанных для оценки пространственной рациональности MLLMs. Он включает в себя задачи, которые подражают реальным стандартизированным тестам, а также подробные аннотации, такие как рассуждательная сложность, перцептивная сложность и многоуровневый анализ процесса рассуждения. Модели экспериментально проверяются в пяти различных режимах, чтобы собрать объемные данные для анализа моделей. Бенчмарк также разработан с учетом возможности сравнения моделей с поведением человека, что дает возможность получить глубокий пониманий касательно их сходства и различий. #### Результаты Мы провели эксперименты с 14 MLLMs и человеческими ответами. Наши результаты показали, что MLLMs могут выполнять пространственное рассуждение на ранней стадии, но существует существенный провал в их производительности по сравнению с человеческими результатами. Мы также обнаружили, что производительность MLLMs взаимосвязана с уровнем сложности при рассуждении, подобно человеческим моделям. Однако их результаты часто являются случайными на уровне индивидуальных задач, в то время как человеческая производительность значительно более предсказуема и связана с уровнем абстрактности логических схем. #### Значимость 11Plus-Bench обеспечивает широкие возможности для исследования пространственного рассуждения в MLLMs. Он может использоваться для оценки производительности моделей в различных сферах, включая абстрактное моделирование и пространственное восприятие. Бенчмарк также открывает новые возможности для разработки моделей, которые могут более близок подходить к человеческому пространственному рассуждению. Это может привести к развитию новых архитектур, более эффективным использованию ресурсов и повышению понимания пространств

Annotation:

For human cognitive process, spatial reasoning and perception are closely entangled, yet the nature of this interplay remains underexplored in the evaluation of multimodal large language models (MLLMs). While recent MLLM advancements show impressive performance on reasoning, their capacity for human-like spatial cognition remains an open question. In this work, we introduce a systematic evaluation framework to assess the spatial reasoning abilities of state-of-the-art MLLMs relative to human per...

ID: 2508.20068v1 cs.CL, cs.CV, cs.LG

arXiv PDF

Показано 11 - 20 из 23 записей