📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Full-History Graphs with Edge-Type Decoupled Networks for Temporal Reasoning

2025-08-06

Авторы:

Osama Mohammed, Jiaxin Pan, Mojtaba Nayyeri, Daniel Hernández, Steffen Staab

**Резюме** Моделирование временных изменений взаимодействий между сущностями является ключевым для многих реальных задач, таких как прогнозирование маневров водителей в трафике или обнаружение финансового мошенничества. В отличие от классических методов прогнозирования временных рядов, эти задачи требуют рассмотрения того, как и когда сущности взаимодействуют, что необходимо для временного графового представления. Существующие методы часто используют снапшот-графы для кодирования временной динамики. Авторы предлагают новый подход: **полно-исторический граф**, где каждая сущность представлена уникальным узлом на каждом временном шаге. Граф разделяет два типа ребер: внутришаговые (intra-time-step) для отношений в рамках одного кадра и межшаговые (inter-time-step) для соединений сущности с собой на соседних шагах. Для обучения на этом графе предлагается модель **ETDNet**, которая сочетает: 1. Модуль графового внимания для агрегации информации внутри шага. 2. Многоголовной модуль временного внимания для обработки межшаговых отношений. 3. Функцию фьюзинга (fusion) для комбинации информации после каждого слоя. Эксперименты на датасетах Waymo (прогнозирование намерений водителей) и Elliptic++ (обнаружение мошенничества) показывают значительные улучшения: для Waymo показатель точности (joint accuracy) вырос с 74,1% до 75,6%, а для Elliptic++ метрика F1 для класса мошенничества увеличилась с 60,4% до 88,1%. Эти результаты подтверждают преимущество явного представления временных и структурных отношений в единой модели.

Annotation:

Modeling evolving interactions among entities is critical in many real-world tasks. For example, predicting driver maneuvers in traffic requires tracking how neighboring vehicles accelerate, brake, and change lanes relative to one another over consecutive frames. Likewise, detecting financial fraud hinges on following the flow of funds through successive transactions as they propagate through the network. Unlike classic time-series forecasting, these settings demand reasoning over who interacts ...

ID: 2508.03251v1 cs.AI

arXiv PDF

📄 Approximate Proportionality in Online Fair Division

2025-08-06

Авторы:

Davin Choo, Winston Fu, Derek Khu, Tzeh Yuan Neoh, Tze-Yang Poon, Nicholas Teh

Данная статья рассматривает проблему онлайн-распределения ресурсов, где неделимые объекты должны быть немедленно и необратимо распределены между агентами. Классические понятия справедливости, такие как envy-freeness и maximin share fairness, не могут быть эффективно приближены в этой области. Авторы фокусируются на пропорциональности с учётом одного дополнительного ресурса (PROP1), которая представляет собой более легкую для достижения форму справедливости. Исследуются три естественных жадных алгоритма, которые оказываются неэффективными против адаптивных противников. Однако, при использовании неадаптивных противников или дополнительной информации, такой как предсказания максимального значения ресурса (MIV), можно достичь значимого приближения к PROP1. Несмотря на это, более строгие формы справедливости, такие как EF1, MMS и PROPX, остаются недостижимыми даже с идеальными предсказаниями.

Annotation:

We study the online fair division problem, where indivisible goods arrive sequentially and must be allocated immediately and irrevocably to agents. Prior work has established strong impossibility results for approximating classic fairness notions, such as envy-freeness and maximin share fairness, in this setting. In contrast, we focus on proportionality up to one good (PROP1), a natural relaxation of proportionality whose approximability remains unresolved. We begin by showing that three natural...

ID: 2508.03253v1 cs.GT, cs.AI, cs.MA

arXiv PDF

📄 V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models

2025-08-06

Авторы:

Jisoo Kim, Wooseok Seo, Junwan Kim, Seungho Park, Sooyeon Park, Youngjae Yu

Развёртывание текст-видео (T2V) моделей в ресурсоограниченных средах сталкивается с проблемой высокого вычислительного затратности. Одной из главных сложностей является решение проблемы "mode collapse" во время классических методов знаний дистилляции, которые часто приводят к ухудшению качества при использовании моделей с ограниченной емкостью. Для решения этой проблемы, авторы предлагают метод ReDPO, который сочетает DPO (Directed Property Optimization) и SFT (Supervised Fine-Tuning). ReDPO позволяет студентской модели сосредоточиться на восстановлении ключевых свойств, а не на пассивном имитации учителя, что повышает качество. Кроме того, представлен видео-фильтрующий фреймворк V.I.P., обеспечивающий высококачественные наборы данных для калибровки моделей. Результаты показывают, что ReDPO и V.I.P. позволяют сократить параметры модели на 36.2% и 67.5% для VideoCrafter2 и AnimateDiff, сохраняя или превосходя качество полных моделей.

Annotation:

With growing interest in deploying text-to-video (T2V) models in resource-constrained environments, reducing their high computational cost has become crucial, leading to extensive research on pruning and knowledge distillation methods while maintaining performance. However, existing distillation methods primarily rely on supervised fine-tuning (SFT), which often leads to mode collapse as pruned models with reduced capacity fail to directly match the teacher's outputs, ultimately resulting in deg...

ID: 2508.03254v1 cs.CV, cs.AI

arXiv PDF

📄 Pay What LLM Wants: Can LLM Simulate Economics Experiment with 522 Real-human Persona?

2025-08-06

Авторы:

Junhyuk Choi, Hyeonchu Park, Haemin Lee, Hyebeen Shin, Hyun Joung Jin, Bugeun Kim

**Резюме:** В статье исследуется способность современных Large Language Models (LLMs) моделировать экономическое поведение реальных людей на основе данных о 522 корейских участниках эксперимента Pay-What-You-Want (PWYW). Авторы сравнивают три современных мультимодальных LLMs, оценивая их способность предсказывать индивидуальные решения в сценариях культурного потребления. Обнаружено, что, несмотря на неточность предсказаний на индивидуальном уровне, LLMs успешно отражают групповые тенденции поведения. Также выяснено, что распространённые методы подачи запросов (prompting), такие как улучшенная генерация с дополнительным контекстом (retrieval-augmented generation) или реконструкция личностных портретов, не дают значимого преимущества по сравнению с простыми методами. Исследование представляет первую полную оценку возможностей LLMs в моделировании экономического поведения на основе реальных данных, оказывая полезные рекомендации для применения LLMs в вычислительных социальных науках.

Annotation:

Recent advances in Large Language Models (LLMs) have generated significant interest in their capacity to simulate human-like behaviors, yet most studies rely on fictional personas rather than actual human data. We address this limitation by evaluating LLMs' ability to predict individual economic decision-making using Pay-What-You-Want (PWYW) pricing experiments with real 522 human personas. Our study systematically compares three state-of-the-art multimodal LLMs using detailed persona informatio...

ID: 2508.03262v1 cs.CL, cs.AI

arXiv PDF

📄 Artificial Intelligence and Generative Models for Materials Discovery -- A Review

2025-08-06

Авторы:

Albertus Denny Handoko, Riko I Made

Разработка новых материалов традиционно зависела от высокопроизводительных экспериментальных методов, но сегодня происходит сдвиг к ИИ-ориентированному подходу. Обзорная статья рассматривает применение генеративных моделей ИИ для открытия материалов с требуемыми свойствами, охватывая различные представления данных о материалах. Авторы обсуждают применение этих моделей в областях, таких как креативы, полупроводники, полимеры и кристалические структиры, а также рассматривают ключевые проблемы, включая недостаток данных, вычислительные затраты, интерпретируемость, синтезируемость и смещения в данных. Кроме того, они рассматривают новейшие подходы для преодоления этих ограничений, включая мультимодальные модели, физико-информированные архитектуры и замкнутые циклы обнаружения. Эти инновации могут ускорить процесс открытия материалов, что имеет перспективные применения в областях устойчивого развития, здравоохранения и энергетических технологий.

Annotation:

High throughput experimentation tools, machine learning (ML) methods, and open material databases are radically changing the way new materials are discovered. From the experimentally driven approach in the past, we are moving quickly towards the artificial intelligence (AI) driven approach, realizing the 'inverse design' capabilities that allow the discovery of new materials given the desired properties. This review aims to discuss different principles of AI-driven generative models that are app...

ID: 2508.03278v1 cond-mat.mtrl-sci, cs.AI, physics.app-ph

arXiv PDF

📄 ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

2025-08-06

Авторы:

Shaofeng Yin, Ting Lei, Yang Liu

**Резюме** Интеграция внешних инструментов в Большие Основные Модели (БОМ) представляет собой эффективный подход для улучшения их способностей к решению задач. Несмотря на высокую эффективность моделей, оснащенных инструментами, в задачах визуального ответа на вопросы (VQA), современные бенчмарки показывают ограниченную производительность в реальных многошаговых сценариях, требующих разнообразия функциональных возможностей. Для решения этой проблемы представлен ToolVQA — крупномасштабный мультимодальный датасет, состоящий из 23 тысяч примеров, основанных на реальных визуальных контекстах и требующих неявного многошагового рассуждения. Датасет был сгенерирован с помощью ToolEngine — инновационного конвейера, использующего глубинный поиск (DFS) и динамическое сопоставление примеров для моделирования человеческого рассуждения при использовании инструментов. ToolVQA охватывает 10 инструментов в 7 доменах задач со средним числом шагов рассуждения в 2,78 на пример. Файн-тюнинг БОМ на ToolVQA демонстрирует высокую эффективность, превосходящую GPT-3.5-turbo на выборках OOD, что подтверждает широкую применимость модели к реальным сценариям использования инструментов.

Annotation:

Integrating external tools into Large Foundation Models (LFMs) has emerged as a promising approach to enhance their problem-solving capabilities. While existing studies have demonstrated strong performance in tool-augmented Visual Question Answering (VQA), recent benchmarks reveal significant gaps in real-world tool-use proficiency, particularly in functionally diverse multimodal settings requiring multi-step reasoning. In this work, we introduce ToolVQA, a large-scale multimodal dataset compris...

ID: 2508.03284v1 cs.AI

arXiv PDF

📄 Investigating Gender Bias in LLM-Generated Stories via Psychological Stereotypes

2025-08-06

Авторы:

Shahed Masoudian, Gustavo Escobedo, Hannah Strauss, Markus Schedl

В статье исследуется проблема гендерных предубеждений в генеративном поведении Large Language Models (LLMs) при создании рассказов. Учитывая, что существующие исследования часто фокусируются на коротких текстах или явных гендерных признаках, авторы предлагают новый подход, основанный на психологических стереотипах. Они создают набор данных StereoBias-Stories, включающий рассказы, созданные на основе случайных атрибутов, связанных со стереотипами, и различных завершений. Результаты показывают, что: (1) в неусловных задачах LLMs демонстрируют высокую степень гендерного смещения в пользу мужских признаков, но это смещение уменьшается при использовании нестереотипичных атрибутов; (2) комбинирование атрибутов, связанных со стереотипами, усиливает эффект смещения; (3) степень соответствия модельного поведения психологическим стереотипам возрастает с ростом размера модели. Эти наблюдения подчеркивают необходимость психологически обоснованного оценивания LLMs для снижения гендерных предубеждений.

Annotation:

As Large Language Models (LLMs) are increasingly used across different applications, concerns about their potential to amplify gender biases in various tasks are rising. Prior research has often probed gender bias using explicit gender cues as counterfactual, or studied them in sentence completion and short question answering tasks. These formats might overlook more implicit forms of bias embedded in generative behavior of longer content. In this work, we investigate gender bias in LLMs using ge...

ID: 2508.03292v1 cs.CL, cs.AI

arXiv PDF

📄 NLP Methods May Actually Be Better Than Professors at Estimating Question Difficulty

2025-08-06

Авторы:

Leonidas Zotos, Ivo Pascal de Jong, Matias Valdenegro-Toro, Andreea Ioana Sburlea, Malvina Nissim, Hedderik van Rijn

**Резюме** Оценка сложности вопросов экзамена является ключевой задачей для создания качественных тестов, однако профессора часто сталкиваются с трудностями в точной оценке уровня сложности. Исследование сравнивает возможности профессоров с методами, основанными на Large Language Models (LLM), в задаче прогнозирования процента успешных ответов студентов на True/False-вопросы в областях нейронных сетей и машинного обучения. Результаты показывают, что профессоры имеют ограниченные возможности различать простые и сложные вопросы, в то время как LLM Gemini 2.5 преуспевает в этой задаче. Более того, применение LLM в супервизорском обучении с использованием данных неопределенности при решении задач показало ещё более точные результаты, даже при ограниченном наборе данных из 42 обучающих выборок. Исследование показывает, что LLM, обученные с использованием методов супервизорского обучения, могут значительно повысить точность оценки сложности вопросов, что в конечном счете улучшает качество оценки студентов.

Annotation:

Estimating the difficulty of exam questions is essential for developing good exams, but professors are not always good at this task. We compare various Large Language Model-based methods with three professors in their ability to estimate what percentage of students will give correct answers on True/False exam questions in the areas of Neural Networks and Machine Learning. Our results show that the professors have limited ability to distinguish between easy and difficult questions and that they a...

ID: 2508.03294v1 cs.CL, cs.AI

arXiv PDF

📄 Reliable Evaluation Protocol for Low-Precision Retrieval

2025-08-06

Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

В статье рассматривается проблема нестабильности оценки релевантности в низкоточностных системах поискового поиска, вызвана при использовании низкой точности вычислений. Уменьшение точности приводит к появлению случайных совпадений (spurious ties) между запросом и документами, что существенно влияет на результаты оценки. Для решения этой проблемы предложена новая протокол оценки, включающий два ключевых компонента: **High-Precision Scoring (HPS)** — применение высокоточных вычислений на последнем этапе оценки для разрешения случайных совпадений с минимальными затратами вычислений, и **Tie-aware Retrieval Metrics (TRM)** — метрики, которые учитывают вероятность совпадений и позволяют оценить неопределенность в результатах. Эксперименты на двух наборах данных показали, что HPS значительно снижает нестабильность, а TRM точно восстанавливают ожидаемые значения метрик. Объединение этих подходов обеспечивает более надежную и последовательную оценку в системах низкоточностного поиска.

Annotation:

Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation...

ID: 2508.03306v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 BaroPoser: Real-time Human Motion Tracking from IMUs and Barometers in Everyday Devices

2025-08-06

Авторы:

Libo Zhang, Xinyu Yi, Feng Xu

**Резюме:** Отслеживание человеческого движения с использованием данных из IMU-датчиков, встроенных в повседневные устройства, такие как смартфоны и смартчасы, становится все более популярным. Однако существующие методы сталкиваются с проблемами точности оценки позы, особенно на неровной местности, из-за недостаточной плотности данных и отсутствия соответствующих наборов данных. Для решения этой проблемы, авторы представляют метод BaroPoser, который использует сочетание данных IMU и барометрических датчиков, записанных со смартфона и смартчасами. Барометрические данные позволяют оценивать изменения высоты датчиков, что улучшает точность оценки позы и позволяет предсказывать глобальные изменения положения на неровной местности. Кроме того, авторы предлагают локальную систему координат бедра для разделения локальных и глобальных компонентов движения, что улучшает обучение модели. Результаты экспериментов на общедоступных датасетах и реальных записях показывают, что BaroPoser превосходит современные методы, основанные только на IMU, при использовании той же аппаратной конфигурации.

Annotation:

In recent years, tracking human motion using IMUs from everyday devices such as smartphones and smartwatches has gained increasing popularity. However, due to the sparsity of sensor measurements and the lack of datasets capturing human motion over uneven terrain, existing methods often struggle with pose estimation accuracy and are typically limited to recovering movements on flat terrain only. To this end, we present BaroPoser, the first method that combines IMU and barometric data recorded by ...

ID: 2508.03313v1 cs.CV, cs.AI

arXiv PDF

1
2
3394
3395
3396
3397
3398
3402
3403

Показано 33951 - 33960 из 34022 записей