📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Artificial Intelligence and Generative Models for Materials Discovery -- A Review

2025-08-06

Авторы:

Albertus Denny Handoko, Riko I Made

Разработка новых материалов традиционно зависела от высокопроизводительных экспериментальных методов, но сегодня происходит сдвиг к ИИ-ориентированному подходу. Обзорная статья рассматривает применение генеративных моделей ИИ для открытия материалов с требуемыми свойствами, охватывая различные представления данных о материалах. Авторы обсуждают применение этих моделей в областях, таких как креативы, полупроводники, полимеры и кристалические структиры, а также рассматривают ключевые проблемы, включая недостаток данных, вычислительные затраты, интерпретируемость, синтезируемость и смещения в данных. Кроме того, они рассматривают новейшие подходы для преодоления этих ограничений, включая мультимодальные модели, физико-информированные архитектуры и замкнутые циклы обнаружения. Эти инновации могут ускорить процесс открытия материалов, что имеет перспективные применения в областях устойчивого развития, здравоохранения и энергетических технологий.

Annotation:

High throughput experimentation tools, machine learning (ML) methods, and open material databases are radically changing the way new materials are discovered. From the experimentally driven approach in the past, we are moving quickly towards the artificial intelligence (AI) driven approach, realizing the 'inverse design' capabilities that allow the discovery of new materials given the desired properties. This review aims to discuss different principles of AI-driven generative models that are app...

ID: 2508.03278v1 cond-mat.mtrl-sci, cs.AI, physics.app-ph

arXiv PDF

📄 ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

2025-08-06

Авторы:

Shaofeng Yin, Ting Lei, Yang Liu

**Резюме** Интеграция внешних инструментов в Большие Основные Модели (БОМ) представляет собой эффективный подход для улучшения их способностей к решению задач. Несмотря на высокую эффективность моделей, оснащенных инструментами, в задачах визуального ответа на вопросы (VQA), современные бенчмарки показывают ограниченную производительность в реальных многошаговых сценариях, требующих разнообразия функциональных возможностей. Для решения этой проблемы представлен ToolVQA — крупномасштабный мультимодальный датасет, состоящий из 23 тысяч примеров, основанных на реальных визуальных контекстах и требующих неявного многошагового рассуждения. Датасет был сгенерирован с помощью ToolEngine — инновационного конвейера, использующего глубинный поиск (DFS) и динамическое сопоставление примеров для моделирования человеческого рассуждения при использовании инструментов. ToolVQA охватывает 10 инструментов в 7 доменах задач со средним числом шагов рассуждения в 2,78 на пример. Файн-тюнинг БОМ на ToolVQA демонстрирует высокую эффективность, превосходящую GPT-3.5-turbo на выборках OOD, что подтверждает широкую применимость модели к реальным сценариям использования инструментов.

Annotation:

Integrating external tools into Large Foundation Models (LFMs) has emerged as a promising approach to enhance their problem-solving capabilities. While existing studies have demonstrated strong performance in tool-augmented Visual Question Answering (VQA), recent benchmarks reveal significant gaps in real-world tool-use proficiency, particularly in functionally diverse multimodal settings requiring multi-step reasoning. In this work, we introduce ToolVQA, a large-scale multimodal dataset compris...

ID: 2508.03284v1 cs.AI

arXiv PDF

📄 Investigating Gender Bias in LLM-Generated Stories via Psychological Stereotypes

2025-08-06

Авторы:

Shahed Masoudian, Gustavo Escobedo, Hannah Strauss, Markus Schedl

В статье исследуется проблема гендерных предубеждений в генеративном поведении Large Language Models (LLMs) при создании рассказов. Учитывая, что существующие исследования часто фокусируются на коротких текстах или явных гендерных признаках, авторы предлагают новый подход, основанный на психологических стереотипах. Они создают набор данных StereoBias-Stories, включающий рассказы, созданные на основе случайных атрибутов, связанных со стереотипами, и различных завершений. Результаты показывают, что: (1) в неусловных задачах LLMs демонстрируют высокую степень гендерного смещения в пользу мужских признаков, но это смещение уменьшается при использовании нестереотипичных атрибутов; (2) комбинирование атрибутов, связанных со стереотипами, усиливает эффект смещения; (3) степень соответствия модельного поведения психологическим стереотипам возрастает с ростом размера модели. Эти наблюдения подчеркивают необходимость психологически обоснованного оценивания LLMs для снижения гендерных предубеждений.

Annotation:

As Large Language Models (LLMs) are increasingly used across different applications, concerns about their potential to amplify gender biases in various tasks are rising. Prior research has often probed gender bias using explicit gender cues as counterfactual, or studied them in sentence completion and short question answering tasks. These formats might overlook more implicit forms of bias embedded in generative behavior of longer content. In this work, we investigate gender bias in LLMs using ge...

ID: 2508.03292v1 cs.CL, cs.AI

arXiv PDF

📄 NLP Methods May Actually Be Better Than Professors at Estimating Question Difficulty

2025-08-06

Авторы:

Leonidas Zotos, Ivo Pascal de Jong, Matias Valdenegro-Toro, Andreea Ioana Sburlea, Malvina Nissim, Hedderik van Rijn

**Резюме** Оценка сложности вопросов экзамена является ключевой задачей для создания качественных тестов, однако профессора часто сталкиваются с трудностями в точной оценке уровня сложности. Исследование сравнивает возможности профессоров с методами, основанными на Large Language Models (LLM), в задаче прогнозирования процента успешных ответов студентов на True/False-вопросы в областях нейронных сетей и машинного обучения. Результаты показывают, что профессоры имеют ограниченные возможности различать простые и сложные вопросы, в то время как LLM Gemini 2.5 преуспевает в этой задаче. Более того, применение LLM в супервизорском обучении с использованием данных неопределенности при решении задач показало ещё более точные результаты, даже при ограниченном наборе данных из 42 обучающих выборок. Исследование показывает, что LLM, обученные с использованием методов супервизорского обучения, могут значительно повысить точность оценки сложности вопросов, что в конечном счете улучшает качество оценки студентов.

Annotation:

Estimating the difficulty of exam questions is essential for developing good exams, but professors are not always good at this task. We compare various Large Language Model-based methods with three professors in their ability to estimate what percentage of students will give correct answers on True/False exam questions in the areas of Neural Networks and Machine Learning. Our results show that the professors have limited ability to distinguish between easy and difficult questions and that they a...

ID: 2508.03294v1 cs.CL, cs.AI

arXiv PDF

📄 Reliable Evaluation Protocol for Low-Precision Retrieval

2025-08-06

Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

В статье рассматривается проблема нестабильности оценки релевантности в низкоточностных системах поискового поиска, вызвана при использовании низкой точности вычислений. Уменьшение точности приводит к появлению случайных совпадений (spurious ties) между запросом и документами, что существенно влияет на результаты оценки. Для решения этой проблемы предложена новая протокол оценки, включающий два ключевых компонента: **High-Precision Scoring (HPS)** — применение высокоточных вычислений на последнем этапе оценки для разрешения случайных совпадений с минимальными затратами вычислений, и **Tie-aware Retrieval Metrics (TRM)** — метрики, которые учитывают вероятность совпадений и позволяют оценить неопределенность в результатах. Эксперименты на двух наборах данных показали, что HPS значительно снижает нестабильность, а TRM точно восстанавливают ожидаемые значения метрик. Объединение этих подходов обеспечивает более надежную и последовательную оценку в системах низкоточностного поиска.

Annotation:

Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation...

ID: 2508.03306v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 BaroPoser: Real-time Human Motion Tracking from IMUs and Barometers in Everyday Devices

2025-08-06

Авторы:

Libo Zhang, Xinyu Yi, Feng Xu

**Резюме:** Отслеживание человеческого движения с использованием данных из IMU-датчиков, встроенных в повседневные устройства, такие как смартфоны и смартчасы, становится все более популярным. Однако существующие методы сталкиваются с проблемами точности оценки позы, особенно на неровной местности, из-за недостаточной плотности данных и отсутствия соответствующих наборов данных. Для решения этой проблемы, авторы представляют метод BaroPoser, который использует сочетание данных IMU и барометрических датчиков, записанных со смартфона и смартчасами. Барометрические данные позволяют оценивать изменения высоты датчиков, что улучшает точность оценки позы и позволяет предсказывать глобальные изменения положения на неровной местности. Кроме того, авторы предлагают локальную систему координат бедра для разделения локальных и глобальных компонентов движения, что улучшает обучение модели. Результаты экспериментов на общедоступных датасетах и реальных записях показывают, что BaroPoser превосходит современные методы, основанные только на IMU, при использовании той же аппаратной конфигурации.

Annotation:

In recent years, tracking human motion using IMUs from everyday devices such as smartphones and smartwatches has gained increasing popularity. However, due to the sparsity of sensor measurements and the lack of datasets capturing human motion over uneven terrain, existing methods often struggle with pose estimation accuracy and are typically limited to recovering movements on flat terrain only. To this end, we present BaroPoser, the first method that combines IMU and barometric data recorded by ...

ID: 2508.03313v1 cs.CV, cs.AI

arXiv PDF

📄 Industrial LLM-based Code Optimization under Regulation: A Mixture-of-Agents Approach

2025-08-06

Авторы:

Mari Ashiga, Vardan Voskanyan, Fateme Dinmohammadi, Jingzhi Gong, Paul Brookes, Matthew Truscott, Rafail Giavrimis, Mike Basios, Leslie Kanthan, Wei Jie

Недавние усовершенствования Large Language Models (LLM) открыли новые возможности для автоматизации кодовой оптимизации на промышленном уровне. Однако для организаций в регулируемых отраслях существуют строгие ограничения на использование коммерческих моделей из-за требований конфиденциальности данных и соответствия нормативным требованиям. Для решения этой проблемы предлагается подход Mixture-of-Agents (MoA), который использует несколько специализированных LLMs для синтеза кода. Метод был протестирован на реальных промышленных кодовых базах и сравнивался с Генетическим Алгоритмом (GA) и индивидуальными LLM-оптимизаторами. Результаты показали, что MoA позволяет достичь значительных экономий (14,3-22,2%) и увеличить скорость оптимизации (28,6-32,2%) в регулируемых средах. GA оказался более эффективен с коммерческими моделями, но оба подхода превосходят индивидуальные LLMs. Эксперименты на 50 фрагментах кода и семи комбинациях LLMs подтвердили эффективность подхода в реальных условиях.

Annotation:

Recent advancements in Large Language Models (LLMs) for code optimization have enabled industrial platforms to automate software performance engineering at unprecedented scale and speed. Yet, organizations in regulated industries face strict constraints on which LLMs they can use - many cannot utilize commercial models due to data privacy regulations and compliance requirements, creating a significant challenge for achieving high-quality code optimization while maintaining cost-effectiveness. We...

ID: 2508.03329v1 cs.SE, cs.AI

arXiv PDF

📄 Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models

2025-08-06

Авторы:

He Xiao, Qingyao Yang, Dirui Xie, Wendong Xu, Wenyong Zhou, Haobo Liu, Zhengwu Liu, Ngai Wong

В статье рассматривается проблема эффективности информационного контента слоев в малых языковых моделях, где многие слои не несут значительного уникального вклада, но существенно влияют на память и энергопотребление во время вычислений. Для решения этой проблемы предлагается метод LieQ — метрический подход к пост-тренировочной квантизации, направленный на поддержание точности моделей менее 7 миллиардов параметров при крайне низкой битовой глубине. Метод основан на трех диагностических показателях: Perplexity Drop, Representational Compactness и Top-k Energy Gain, которые позволяют определить оптимальное распределение битовых ширин слоев без необходимости обновления градиентов. Эксперименты показывают, что LieQ достигает нового уровня сжатия-точности: для модели Qwen3-4B восстанавливается 95,9% производительности FP16 при 2,05-битной квантизации, превосходя GPTQ и AWQ на 19,7% и 18,1% соответственно. Для LLaMA3.2-3B достигается 98,2% точности при 2,07-битной квантизации, обеспечивая снижение потребления памяти в 4 раза. Эти результаты открывают новые возможности для развертывания малых языковых моделей на ресурсоограниченных устройствах.

Annotation:

Large language models with billions of parameters are often over-provisioned: many layers contribute little unique information yet dominate the memory and energy footprint during inference. We present LieQ, a metric-driven post-training quantization framework that addresses the critical challenge of maintaining accuracy in sub-7B models under extreme low-bit compression. Our method introduces three complementary layer-wise diagnostics-Perplexity Drop, Representational Compactness, and Top-k Ener...

ID: 2508.03332v1 cs.LG, cs.AI

arXiv PDF

📄 CTTS: Collective Test-Time Scaling

2025-08-06

Авторы:

Zhende Song, Shengji Tang, Peng Ye, Jiayuan Fan, Tao Chen

**Резюме** Test-time scaling (TTS) является перспедвидной областью исследований, направленной на повышение эффективности больших языковых моделей (LLMs) без дополнительного обучения. Однако существующие подходы, такие как Best-of-N и Self-Consistency, ограничены моделью с одним агентом, взаимодействующим с моделью вознаграждения (SA-SR), что не позволяет полностью реализовать потенциал метода. Недавние исследования показывают, что методы, основанные на коллективных агентах, могут преодолевать пределы производительности одноагентных систем за счёт координации разнообразных моделей. В данной работе предлагается новый подход Collective Test-Time Scaling (CTTS), охватывающий три основных парадигмы взаимодействия: один агент с несколькими моделями вознаграждения (SA-MR), несколько агентов с одной моделью вознаграждения (MA-SR) и несколько агентов с несколькими моделями вознаграждения (MA-MR). Результаты экспериментов показывают, что MA-MR является наиболее эффективной парадигмой. На этой основе разработан новый фреймворк CTTS-MM, который объединяет совместную работу нескольких агентов (Agent Collaboration Search, ACS) и нескольких моделей вознаграждения (Mixture of Reward Models, MoR) для оптимизации вывода. Эксперименты на семи популярных бенчмарках подтверждают превосходство CTTS-MM.

Annotation:

Test-time scaling (TTS) has emerged as a promising research field for enhancing the effectiveness of large language models (LLMs) without extra training. However, most existing approaches, e.g., Best-of-N and Self-Consistency rely on a single agent interacting with a reward model (SA-SR), constrained by limited capabilities of a single test-time scaling (STTS) paradigm. On the other hand, recent works demonstrate that collective-agent methods can break through the upper bound of single-agent sys...

ID: 2508.03333v1 cs.CL, cs.AI

arXiv PDF

📄 Nemori: Self-Organizing Agent Memory Inspired by Cognitive Science

2025-08-06

Авторы:

Jiayan Nan, Wenquan Ma, Wenlong Wu, Yize Chen

**Резюме:** В статье представлена архитектура Nemori — инновационная самоорганизующаяся система памяти для автономных агентов, вдохновленная принципами когнитивной науки. Существующие методы обработки памяти в моделях языка (LLMs) страдают от неспособности сохранять постоянную память в длинных контекстах и ограниченности пассивными, правилом управляемыми механизмами. Nemori решает эту проблему, используя два ключевых принципа: **Two-Step Alignment Principle**, основанный на Event Segmentation Theory, который разбивает неструктурированные диалоги на семантически единые эпизоды, и **Predict-Calibrate Principle**, вдохновленный Free-energy Principle, позволяющий агенту адаптивно обучаться из прогнозных разногласий. Эксперименты на LoCoMo и LongMemEval показывают, что Nemori значительно превосходит существующие системы, особенно в длинных контекстах, открывая путь к эффективным динамическим рабочим процессам автономных агентов.

Annotation:

Large Language Models (LLMs) demonstrate remarkable capabilities, yet their inability to maintain persistent memory in long contexts limits their effectiveness as autonomous agents in long-term interactions. While existing memory systems have made progress, their reliance on arbitrary granularity for defining the basic memory unit and passive, rule-based mechanisms for knowledge extraction limits their capacity for genuine learning and evolution. To address these foundational limitations, we pre...

ID: 2508.03341v1 cs.AI

arXiv PDF

1
2
1435
1436
1437
1438
1439
1442
1443

Показано 14361 - 14370 из 14425 записей