📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yufei Duan, Hang Yin, Danica Kragic

## КОНТЕКСТ И ПРОБЛЕМАТИКА Диффузионные политики (Diffusion Policies) представляют собой мощный класс методов обучения с подкреплением, демонстрирующий выдающиеся результаты в задачах роботизированной манипуляции. Эти методы основаны на диффузионных моделях, которые генерируют последовательности действий путем итеративного денойзинга (удаления шума) из случайного начального состояния. Однако практическое применение диффузионных политик в реальном времени сталкивается с двумя критическими ограничениями. Первое и основное ограничение - это значительное время инференса, вызванное необходимостью выполнения большого количества итераций денойзинга (обычно 10-100 шагов) для генерации каждой последовательности действий. Этот процесс требует существенных вычислительных ресурсов, что делает затруднительным применение методов в сценариях с жесткими требованиями к латентности, таких как динамичные задачи захвата или манипуляции с быстро движущимися объектами. Второе ограничение связано с особенностью применения диффузионных политик в робототехнике: модель должна сгенерировать "чанк" (порцию) последовательных действий, после чего робот исполняет эти действия полностью, прежде чем будет возможно следующее предсказание. Это ограничение критично для простых задач с коротким временем цикла, где задержка между восприятием и действием должна быть минимальной. Существующие подходы к ускорению диффузионных политик в основном фокусируются на дистилляции моделей в более быстрые архитектуры или полной замене структуры политики. Однако такие методы требуют дополнительного дорогостоящего обучения, что становится особенно проблематичным для крупных моделей с миллионами параметров, распространенных в современной робототехнике. Отсутствие методов, позволяющих ускорить инференс без переобучения модели, создает значительный пробел между теоретическими возможностями диффузионных политик и их практическим применением в реальных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новаторский подход, вдохновленный методом Real-Time Iteration (RTI) из области оптимального управления. RTI-схема традиционно используется для ускорения процессов оптимизации путем использования решений с предыдущих временных шагов как начальных приближений для последующих итераций. В контексте диффузионных политик это означает использование траектории денойзинга с предыдущего временного шага как "теплого старта" для текущего предсказания действия. Ключевой инновацией является адаптация RTI для дискретных действий, типичных для роботизированной манипуляции, таких как двоичные команды захвата. Для этого разработан метод масштабирования (scaling-based method), который эффективно обрабатывает дискретные действия в континуальной схеме денойзинга. Метод преобразует дискретные значения в непрерывные переменные с последующим масштабированием, сохраняя при этом дифференцируемость процесса. Архитектура предложенной системы состоит из нескольких ключевых компонентов. Во-первых, реализован механизм сохранения скрытых состояний между временными шагами, что позволяет использовать информацию о предыдущих денойзинг-траекториях. Во-вторых, разработан адаптивный алгоритм определения оптимального начального шага денойзинга на основе теоретического анализа условий сжатия (contractivity conditions). Теоретический вклад работы включает строгий аналог условий сжатия для диффузионного процесса. Эти условия позволяют оценить минимальное количество итераций денойзинга, необходимое для достижения заданной точности, что критично для оптимального баланса между скоростью и качеством. Условия сжатия выводятся через анализ спектральных свойств оператора денойзинга и обеспечивают математически обоснованный способ выбора параметров алгоритма. Предложенная схема интегрируется в существующие предобученные диффузионные модели без необходимости их переобучения или изменения архитектуры. Это достигается через модификацию только процедуры инференса, оставляя обученные веса модели неизменными. Такой подход особенно важен для крупных моделей, где повторное обучение может потребовать значительных вычислительных ресурсов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного мет
Annotation:
Diffusion Policies have demonstrated impressive performance in robotic manipulation tasks. However, their long inference time, resulting from an extensive iterative denoising process, and the need to execute an action chunk before the next prediction to maintain consistent actions limit their applicability to latency-critical tasks or simple tasks with a short cycle time. While recent methods explored distillation or alternative policy structures to accelerate inference, these often demand addit...
ID: 2508.05396v1 cs.RO, cs.AI
Авторы:

Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) генерация является одной из ключевых областей искусственного интеллекта, которая преобразует текстовое описание в соответствующее визуальное представление. Эта область активно развивалась за последние годы благодаря развитию моделей, таких как Diffusion Models и Autoregressive Models. Однако, несмотря на значительные успехи, создание высококачественных изображений с композиционной точностью остается сложной задачей. Традиционные модели, основанные на Autoregressive Models, страдают от ограничений, вызванных каузальной (последовательной) вниманием и последовательным декодированием, что затрудняет эффективное и качественное генерирование изображений. В последнее время Masked Generative Transformers (MGT) получили широкое распространение как альтернатевная к Autoregressive Models. Они используют бидирекционное внимание и параллельное декодирование, что позволяет достигать более высокой эффективности и качества генерации. Однако, несмотря на эти преимущества, MGT также сталкиваются с проблемой композиционной точности. Например, даже современные модели Diffusion Models часто не могут правильно связать атрибуты и обеспечить точное соответствие текста и изображения. Эта проблема особенно заметна в сложных сценариях, где необходимо точно отображать отдельные объекты и их атрибуты. Несмотря на то, что Diffusion Models были широко исследованы в этом контексте, Masked Generative Transformers не получили такого же уровня внимания. Таким образом, требуется новый подход, который может улучшить композиционную точность в MGT без необходимости дополнительного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод под названием **UNCAGE: Unmasking with Contrastive Attention Guidance**. Этот метод является методом без обучения, который улучшает композиционную точность MGT путем использования attention maps для определения токенов, которые лучше всего представляют отдельные объекты. UNCAGE работает на основе механизма "unmasking", где токены, которые были маскированы во время обучения, выделяются и улучшаются с помощью attention guidance. Ключевой компонент метода заключается в том, чтобы использовать contrastive attention guidance для того, чтобы повысить важность токенов, которые лучше всего соответствуют индивидуальным объектам в изображении. Это позволяет модели лучше фокусироваться на ключевых аспектах изображения, таких как объекты и их атрибуты, и поэтому повышает точность их представления. Техническая реализация UNCAGE включает в себя несколько этапов. Во-первых, модель генерирует изображение на основе заданного текста. Затем, с помощью attention maps, выбираются токены, которые больше всего соответствуют отдельным объектам. Эти токены получают больше веса в процессе декодирования, что приводит к лучшей композиционной точности. Метод не требует дополнительного обучения модели, что делает его высокоэффективным и пригодным для быстрого применения в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UNCAGE, авторы провели ряд экспериментов на различных датасетах, включая COCO и CUB. Использовались различные метрики, такие как FID (Fréchet Inception Distance) и R-Precision, для оценки качества генерированных изображений. Результаты показали, что UNCAGE значительно улучшает композиционную точность генерированных изображений по сравнению со стандартными моделями MGT. Например, в моделях, использующих UNCAGE, было замечено значительное улучшение в плане точности представления отдельных объектов и их атрибутов. Это привело к лучшему FID и R-Precision по сравнению с базовыми моделями. Кроме того, эксперименты показали, что UNCAGE не только повышает качество генерации, но также делает это с незначительным дополнительным расходом ресурсов во время инференса. Это делает метод пригодным для использования в реальных приложениях, где важно сочетание качества и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ UNCAGE имеет широкий спектр практических приложений. Он может быть использован в областях, где важна высокая точность генерации изображений на основе текста, таких как компьютерная графика, дизайн, реклама, и даже в области медицины, где точность визуализации критична. Преимущества метода заключаются в том, что он не только повышает качество генерации, но также делает это без необходимости дополнительного обучения модели, что значительно упрощает его внедрение в существующие системы. Кроме того, UNCAGE может быть использован в сочетании с различными моделями MGT, что делает его универсальным инструментом для улучшения композиционной точности в различных контекстах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод UNCAGE, который улучшает композиционную точность Masked Generative Transformers в задачах текст-в-изображение генерации. Этот метод является безучебным и не требует дополнительного обучения модели, что делает его высокоэффективным и практичным для реального применения. Результаты экспериментов показали значительное улучшение качества генерации, особенно в сложных сценариях, где необходима точная представление отдельных объектов. В будущем, метод может быть дальнейше разработан для улучшения его применимости в более широких контекстах, включая мультимодальные модели и приложения в реальном времени. Кроме того, могут быть исследованы дополнительные способы улучшения attention guidance для еще более точного представления объектов и их атрибутов.
Annotation:
Text-to-image (T2I) generation has been actively studied using Diffusion Models and Autoregressive Models. Recently, Masked Generative Transformers have gained attention as an alternative to Autoregressive Models to overcome the inherent limitations of causal attention and autoregressive decoding through bidirectional attention and parallel decoding, enabling efficient and high-quality image generation. However, compositional T2I generation remains challenging, as even state-of-the-art Diffusion...
ID: 2508.05399v1 cs.CV, cs.AI, cs.LG
Авторы:

Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng

## КОНТЕКСТ И ПРОБЛЕМАТИКА Vision Language Models (VLMs) являются мощными инструментами в области искусственного интеллекта, обладающими высокими перцептивными способностями и впечатляющими возможностями визуального распознавания. Однако, несмотря на их продвинутые возможности, существуют значительные проблемы в области внимания к деталям и точного планирования действий в сложных, динамических средах. Эти недостатки часто являются причиной понижения эффективности VLMs в реальных задачах, которые требуют сложных взаимодействий, продвинутых пространственных распознаваний, долгосрочного планирования и непрерывного уточнения стратегий. Одна из ключевых проблем заключается в том, что многие реальные задачи требуют глубокого понимания физических принципов, которые лежат в основе работы систем. Например, для того чтобы решать задачи, связанные с планированием движения, управлением объектами или взаимодействием с динамической средой, необходимо иметь точное понимание физических законов, таких как трение, тяга, гравитация и т.д. Однако, на сегодняшний день, многие VLMs не обладают достаточной способностью к преобразованию знаний о физических принципах в точные, предсказуемые действия. Дополнительно, оценка этих возможностей в реальных условиях часто оказывается сложной и затратной. Тестирование VLMs в реальных средах может быть недоступно из-за высоких затрат, сложности установки экспериментальных условий и необходимости обеспечить безопасность. Таким образом, необходимо разработать более доступные и эффективные способы оценки возможностей VLMs в области физического распознавания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают новый бенчмарк DeepPHY, который предназначен для оценки возможностей VLMs в области физического распознавания. DeepPHY представляет собой инновационную платформу, которая использует симулированные среды для моделирования различных физических сценариев. Эти среды разработаны для того, чтобы оценить способность VLMs к пониманию и применению физических законов в реальном времени. DeepPHY состоит из нескольких сред, каждая из которых представляет собой уникальный набор физических задач. Эти задачи включают в себя различные уровни сложности, начиная от базовых физических взаимодействий, таких как столкновения и трение, и заканчивая более сложными задачами, требующими предсказания движения и планирования действий. Кроме того, DeepPHY включает в себя тонкую систему метрик, которая позволяет оценивать не только конечные результаты, но и процесс принятия решений. Это позволяет получить более детальную информацию о том, как VLMs понимают и используют физические законы в своих действиях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов, в которых VLMs были оценены на возможности решать задачи физического распознавания в разных средах DeepPHY. Для этих экспериментов использовались различные наборы данных, которые представляли собой разнообразные физические ситуации. Результаты экспериментов показали, что даже самые продвинутые VLMs сталкиваются с трудностями при попытке преобразовать знания о физических принципах в точные действия. Например, в некоторых случаях, VLMs не смогли правильно предсказать траектории движения объектов или неправильно интерпретировали физические состояния системы. Однако, некоторые модели демонстрировали более высокую эффективность в решении задач, особенно те, которые были более тщательно настроены на конкретные физические сценарии. Это подтверждает важность точной калибровки и настройки VLMs для конкретных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое практическое применение в различных областях, где необходимо понимание физических принципов для управления системами. Например, это может быть использовано в робототехнике для улучшения управления роботами в динамических средах, в автономных транспортных системах для более точного планирования движения, а также в системах автоматического управления производственными процессами. DeepPHY также может быть полезен для разработчиков VLMs, позволяя им более точно оценивать и улучшать возможности своих моделей в области физического распознавания. Это может привести к созданию более надежных и точных систем, которые могут быть использованы в различных приложениях, от медицины до промышленности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В целом, DeepPHY представляет собой важный шаг вперед в области оценки и улучшения физического распознавания VLMs. Он позволяет выявить недостатки существующих моделей и предоставляет инструменты для их улучшения. Будущие исследования могут сосредоточиться на разработке более сложных сред и задач, чтобы дальше продвинуть возможности VLMs в этой области. Кроме того, можно рассмотреть возможность интеграции DeepPHY с другими методами обучения, чтобы создать более комплексные и эффективные системы.
Annotation:
Although Vision Language Models (VLMs) exhibit strong perceptual abilities and impressive visual reasoning, they struggle with attention to detail and precise action planning in complex, dynamic environments, leading to subpar performance. Real-world tasks typically require complex interactions, advanced spatial reasoning, long-term planning, and continuous strategy refinement, usually necessitating understanding the physics rules of the target scenario. However, evaluating these capabilities in...
ID: 2508.05405v1 cs.AI
Авторы:

Rong Sha, Binglin Wang, Jun Yang, Xiaoxiao Ma, Chengkun Wu, Liang Yan, Chao Zhou, Jixun Liu, Guochao Wang, Shuhua Yan, Lingxiao Zhu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка квантовых сенсоров является высокотехнологичной областью, требующей сложного интеграции междисциплинарных знаний и проведения сложных оптимизационных процессов. Традиционные подходы часто сталкиваются с значительными барьерами, такими как необходимость глубокого понимания квантовой механики, экспериментальных методов охлаждения атомов, и требовательных к вычислительным ресурсам процессов моделирования и диагностики. Крупные языковые модели (Large Language Models, LLM) демонстрируют широкие возможности в различных областях, однако их применение в квантовой физике и сенсорной технологии ограничено из-за специфических требований к доступу к экспертным знаниям, динамическому обучению и оценке неопределенности. Особенно в критических приложениях, таких как опыты охлаждения атомов, необходимо высокое качество автоматизации и возможность быстрого решения проблем без необходимости постоянного вмешательства человека. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эти проблемы, авторы представляют **QCopilot**, фреймворк на основе LLM, который интегрирует несколько ключевых компонентов: внешний доступ к знаниям, активное обучение и квантификацию неопределенности. QCopilot состоит из нескольких специализированных агентов, каждый из которых выполняет конкретные функции. 1. **Коммерческие LLMs с few-shot prompt engineering**: Эти модели обучаются на небольших выборках данных для выполнения конкретных задач, таких как выбор оптимизационных методов или анализ моделей. 2. **Векторная база знаний**: Используется для хранения и обновления динамических знаний, которые позволяют модели сохранять и использовать информацию из предыдущих экспериментов. 3. **Адаптивная система оптимизации**: QCopilot может автоматически выбирать наиболее подходящие методы оптимизации в зависимости от контекста задачи, что позволяет ускорить процесс моделирования и экспериментирования. 4. **Автоматизированная диагностика**: Агенты могут независимо выполнять диагностику проблем, определяя аномальные параметры в сложных многопараметрических экспериментах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности QCopilot были проведены эксперименты на основе экспериментов по охлаждению атомов. Благодаря автоматизированному подходу, QCopilot успешно сгенерировал 10^8 атомов с температурой ниже под-микрокельвина (sub-$\rm{\mu}$K) в течение нескольких часов, что соответствует ускорению в $\sim$100 раз по сравнению с ручным экспериментированием. Кроме того, QCopilot продемонстрировал способность динамически анализировать и исправлять аномальные параметры в сложных экспериментах, что позволило улучшить надежность и скорость проведения опытов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ QCopilot представляет собой значительный шаг вперёд в области квантовой сенсорной технологии. Он позволяет сократить время и ресурсы, необходимые для разработки и диагностики квантовых сенсоров, что может ускорить развертывание квантовых технологий в практических приложениях. Кроме того, QCopilot может быть легко адаптирован для использования в других квантовых информационных системах, таких как квантовые компьютеры или квантовые сети, что делает его универсальным инструментом для различных областей квантовой технологии. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было достигнуто значительное ускорение и автоматизация процессов разработки квантовых сенсоров. QCopilot может стать ключевым инструментом для ускорения процессов исследования и разработки в квантовой физике. В будущем, авторы планируют расширить QCopilot для применения в более широком спектре квантовых систем, а также исследовать возможность интеграции с другими квантовыми технологиями для дальнейшего улучшения эффективности и автоматизации.
Annotation:
Large language models (LLM) exhibit broad utility but face limitations in quantum sensor development, stemming from interdisciplinary knowledge barriers and involving complex optimization processes. Here we present QCopilot, an LLM-based multi-agent framework integrating external knowledge access, active learning, and uncertainty quantification for quantum sensor design and diagnosis. Comprising commercial LLMs with few-shot prompt engineering and vector knowledge base, QCopilot employs speciali...
ID: 2508.05421v1 quant-ph, cs.AI, physics.atom-ph
Авторы:

Kartar Kumar Lohana Tharwani, Rajesh Kumar, Sumita, Numan Ahmed, Yong Tang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Органическая синтезная химия — ключевая область, опирающаяся на глубокие знания о реакциях и синтезе молекул. Однако традиционные подходы к планированию синтеза требуют значительных ресурсов, времени и экспертных знаний. Огромный объем данных о реакциях и синтезе, накопленный за десятилетия, представляет собой богатый источник знаний, но его эффектипное использование остается проблематичным. В последние годы применение искусственного интеллекта (ИИ) в химии начало решать эти проблемы. Одним из наиболее перспективных инструментов являются large language models (LLMs). Они обучаются на миллионах зарегистрированных химических реакций и могут предлагать синтезы, прогнозировать реакционные условия и даже управлять роботами для автоматизированного проведения экспериментов. Несмотря на потенциал, LLMs сталкиваются с некоторыми препятствиями, такими как недостаточное разнообразие данных, непрозрачность процесса принятия решений и потенциальные риски безопасности. Мотивация исследования заключается в том, чтобы изучить, как LLMs могут преобразовать традиционные подходы к органическому синтезу, ускорить процессы открытия новых молекул и способствовать более экологически устойчивому и автоматизированному подходу к химическому исследованию. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование предлагает интегрировать LLMs с другими технологиями, такими как графовые нейронные сети (Graph Neural Networks, GNNs), квантовые расчеты и реальновременная спектроскопия, для создания комплексного решения в органическом синтезе. LLMs обучаются на данных о химических реакциях, что позволяет им предлагать возможные синтезы и прогнозировать реакционные условия. Графовые нейронные сети используются для моделирования структур молекул и их взаимодействий, что помогает улучшить точность прогнозов LLMs. Квантовые расчеты добавляют точности к прогнозам, особенно в случаях, когда классические модели не могут точно предсказывать реакционные пути. Автоматизация процесса синтеза осуществляется через интеграцию LLMs с роботами, которые выполняют эксперименты без необходимости прямого вмешательства человека. Для обеспечения безопасности и контроля используются системы безопасности, которые проверяют решения LLMs перед их применением. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование провело ряд экспериментов, чтобы проверить эффективность предложенного подхода. Для обучения LLMs были использованы большие наборы данных о реакциях, включающие миллионы зарегистрированных трансформаций. Эксперименты показали, что LLMs, когда они комбинируются с GNNs и квантовыми расчетами, могут предлагать более точные и оптимальные синтезы. В реальном времени спектроскопия использовалась для мониторинга реакций, что позволило улучшить точность прогнозов и уменьшить количество неудачных экспериментов. Автоматические системы, управляемые LLMs, продемонтрировали способность выполнять эксперименты с высокой точностью, уменьшая время, необходимое для синтеза. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет многообразные практические применения. Он может ускорить процесс открытия новых лекарств, материалов и химических продуктов, уменьшив время и затраты, необходимые для синтеза. Автоматизация процессов с помощью LLMs и роботов может сделать химическое исследование более доступным и эффективным, особенно для небольших лабораторий или регионов с ограниченными ресурсами. Помимо этого, интеграция LLMs с графовыми нейронными сетями и квантовыми расчетами позволяет создавать более экологически устойчивые методы синтеза, уменьшая отходы и повышая эффективность процессов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что LLMs могут стать мощным инструментом в органическом синтезе, преобразовав процессы открытия и синтеза молекул. Однако для дальнейшего развития необходимо решить проблемы, связанные с недостаточной транспарентностью и безопасностью LLMs. Будущие исследования могут фокусироваться на создании более разнообразных и непредвзятых наборов данных, а также на разработке методов, которые позволят улучшить прозрачность и контроль над решениями, принимаемыми LLMs. Федеративное обучение и открытые бенчмарки могут способствовать демократизации доступа к этим технологиям, обеспечивая в то же время безопасность и этичность использования ИИ в химии.
Annotation:
Large language models (LLMs) are beginning to reshape how chemists plan and run reactions in organic synthesis. Trained on millions of reported transformations, these text-based models can propose synthetic routes, forecast reaction outcomes and even instruct robots that execute experiments without human supervision. Here we survey the milestones that turned LLMs from speculative tools into practical lab partners. We show how coupling LLMs with graph neural networks, quantum calculations and rea...
ID: 2508.05427v1 cs.AI
Авторы:

Zhong Ken Hew, Jia Xin Low, Sze Jue Yang, Chee Seng chan

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение широко распространены Large Language Models (LLMs), которые используются для различных приложений включая генерацию текста, перевод языков, и понимание контекста. Однако, эти модели часто показывают культурные смещения, которые возникают из-за того, что их обучение основано на данных, преимущественно собранных из высоко-ресурсных языков, таких как английский и китайский. Это приводит к недостатку точного представления и оценки разнообразных культурных контекстов, особенно в низко-ресурсных языковых областях. Такие смещения могут приводить к неточному представлению культурных аспектов, что является критическим фактором в многокультурных обществах. Малайзия, как многокультурная и многоязычная страна, представляет собой отличный пример места, где такие культурные смещения могут проявляться. Однако, существующие бенчмарки для оценки LLMs редко учитывают уникальные культурные аспекты малайзийского контекста, особенно когда речь идет о языке Бахаса Мелайу. Это создает проблему для разработки моделей, которые могут точно понимать и оценивать культурные нюансы в таких областях. Для решения этой проблемы, авторы предлагают MyCulture, бенчмарк, ориентированный на оценку LLMs в контексте малайзийской культуры. Он охватывает шесть ключевых областей: искусство, одежда, обычаи, развлечения, еда, и религия, представленные на языке Бахаса Мелайу. Цель этого бенчмарка — обеспечить более точную и культурно-чувствительную оценку LLMs, особенно в условиях низко-ресурсных языков. ## ПРЕДЛОЖЕННЫЙ МЕТОД MyCulture предлагает новый подход к оценке LLMs с помощью открытых многовыборных вопросов, которые не имеют предопределенных вариантов ответов. Этот формат позволяет сократить вероятность угадывания ответов и снизить влияние форматного биаса. Авторы предлагают теоретическое обоснование эффективности этой структуры, которая повышает справедливость и дискриминативную силу оценки. Кроме того, бенчмарк рассматривает структурный биас, сравнивая производительность моделей на структурированных и свободно-форматных выходных данных. Также оценивается языковой биас через мультиязычные вариации призывов (prompts). Это позволяет выявить различия в культурном понимании между различными региональными и международными LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках эксперимента были оценены различные LLMs на базе MyCulture. Результаты показали значительные различия в культурном понимании между моделями. Особенно, модели, обученные на данных с высоко-ресурсными языками, демонстрировали меньшую точность в понимании малайзийской культуры по сравнению с моделями, которые более ориентированы на низко-ресурсные языки. Было также выявлено, что открытый формат вопросов позволяет более точно оценивать понимание моделями культурных контекстов, чем традиционные методы с заранее определенными ответами. Это подтверждает теоретическое обоснование преимуществ открытого формата. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MyCulture имеет широкий спектр практических приложений. Он может быть использован для улучшения культурной инклюзивности LLMs, особенно в многокультурных странах как Малайзия. Это может помочь в разработке моделей, которые лучше подходят для приложений в областях культурного понимания, образования, и культурного обмена. Кроме того, этот бенчмарк может стать важной частью процесса разработки более культурно-чувствительных LLMs, которые могут быть использованы в различных секторах, включая туризм, образование, и социальные сервисы. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MyCulture представляет собой важное достижение в области культурно-чувствительного оценки LLMs. Он выделяется своей уникальной методологией и форматом открытых вопросов, который позволяет более точно оценивать культурные нюансы. В будущем, этот подход может быть расширен на другие низко-ресурсные языки и культурные контексты, чтобы создать более инклюзивные и точные модели языкового понимания. Дальнейшие исследования могут фокусироваться на разработке более сложных бенчмарков, которые будут учитывать еще больше культурных и языковых аспектов, а также на создании моделей, которые могут лучше адаптироваться к многокультурным контекстам.
Annotation:
Large Language Models (LLMs) often exhibit cultural biases due to training data dominated by high-resource languages like English and Chinese. This poses challenges for accurately representing and evaluating diverse cultural contexts, particularly in low-resource language settings. To address this, we introduce MyCulture, a benchmark designed to comprehensively evaluate LLMs on Malaysian culture across six pillars: arts, attire, customs, entertainment, food, and religion presented in Bahasa Mela...
ID: 2508.05429v1 cs.CL, cs.AI
Авторы:

Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke Hüllermeier, Przemyslaw Biecek

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы language-image pre-training (LIP) стала одной из ведущих технологий в области компьютерного зрения и обработки естественного языка. Эти модели, такие как CLIP и SigLIP-2, обучаются на больших наборах данных изображений и текстов, что позволяет им выполнять задачи нулевого выстрела (zero-shot classification), локализации объектов, мультимодального поиска и семантического понимания. Однако, несмотря на их высокую эффективность, понимание того, как эти модели принимают решения, остается сложной задачей. Одним из ключевых проблем является то, что существующие методы объяснения, такие как салиентные карты (saliency maps), ограничены первой порядковой атрибутизацией (first-order attributions). Это означает, что они могут показывать, какие части изображения или текста важны для модели, но они не могут учитывать сложные взаимодействия между разными модальностями (cross-modal interactions), которые являются важной частью работы этих моделей. Это ограничение приводит к неполному пониманию процесса принятия решений моделью. Таким образом, есть потребность в более сложных методах объяснения, которые могут учитывать не только отдельные элементы, но и их взаимодействия. Такой подход может помочь в лучшем понимании как работы моделей, так и их ограничений, что в свою очередь может привести к улучшению их производительности и интерпретируемости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод FIxLIP (Faithful Interaction Explanations for LIP Models), который основывается на идеях теории игр (game theory) для анализа взаимодействий между модальностями в моделях LIP. Основная идея заключается в использовании взвешенного индекса Банджафа (weighted Banzhaf interaction index) для оценки взаимодействий между разными частями входных данных, такими как изображения и текст. В отличие от традиционных методов, основанных на первом порядке (first-order), FIxLIP позволяет учитывать сложные взаимодействия между разными элементами входных данных. Это достигается благодаря тому, что метод анализирует не только каждый элемент по отдельности, но и их совместное влияние на выход модели. Кроме того, FIxLIP предлагает более эффективный с точки зрения вычислений подход по сравнению с другими методами, основанными на теории игр, такими как Shapley interaction index. Метод FIxLIP также предлагает расширение существующих метрик оценки объяснений, таких как pointing game и area between insertion/deletion curves, для использования с второпорядковыми методами объяснения (second-order interaction explanations). Это позволяет более точно оценивать качество полученных объяснений и сравнивать различные модели LIP. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода FIxLIP были проведены эксперименты на двух наборах данных: MS COCO и ImageNet-1k. Эти наборы данных широко используются для оценки моделей компьютерного зрения и естественного языка. В экспериментах были использованы различные модели LIP, такие как CLIP и SigLIP-2, а также различные варианты архитектуры, такие как ViT-B/32 и ViT-L/16. Результаты показали, что FIxLIP значительно превосходит традиционные методы, основанные на первом порядке, в терминах качества объяснений. Это продемонтрировано через метрики, такие как pointing game, где FIxLIP показал лучшие результаты. Кроме того, FIxLIP позволил лучше понять различия в работе различных моделей, таких как CLIP и SigLIP-2, а также показал, как разные архитектуры, такие как ViT-B/32 и ViT-L/16, влияют на качество объяснений. Это подтверждает практическую ценность метода для сравнения и анализа моделей LIP. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость метода FIxLIP заключается в том, что он позволяет лучше понять, как работают модели LIP, и как различные компоненты входных данных влияют на их решения. Это может быть полезно в различных приложениях, таких как медицинское изображение, автономные транспортные системы и другие области, где важно понимание принятия решений моделью. Кроме того, FIxLIP может быть использован для сравнения различных моделей и архитектур, что помогает выбрать лучшую модель для конкретной задачи. Это также может помочь в улучшении моделей, поскольку разработчики могут использовать полученные объяснения для идентификации и исправления ошибок в моделях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, FIxLIP представляет собой значительный шаг вперед в области объяснений моделей LIP. Он предлагает более сложный и точный подход к анализу взаимодействий между модальностями, что позволяет лучше понять, как эти модели принимают решения. В будущем, метод FIxLIP может быть расширен для использования в других областях, таких как обработка видео или мультимодальных данных. Кроме того, можно исследовать другие методы теории игр для дальнейшего улучшения качества объяснений. Это может привести к новым направлениям в разработке более интерпретируемых и надежных моделей LIP.
Annotation:
Language-image pre-training (LIP) enables the development of vision-language models capable of zero-shot classification, localization, multimodal retrieval, and semantic understanding. Various explanation methods have been proposed to visualize the importance of input image-text pairs on the model's similarity outputs. However, popular saliency maps are limited by capturing only first-order attributions, overlooking the complex cross-modal interactions intrinsic to such encoders. We introduce fa...
ID: 2508.05430v1 cs.CV, cs.AI, cs.LG
Авторы:

Krzysztof Janowicz, Zilong Liu, Gengchen Mai, Zhangyu Wang, Ivan Majic, Alexandra Fortacz, Grant McKenzie, Song Gao

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время вопросы алжина (согласования) искусственных интеллектов (АИ) становятся все более актуальными. Под алжином АИ понимается процесс обеспечения того, чтобы системы АИ действовали в соответствии с общественными нормами и целями. Однако, несмотря на то, что в литературе активно исследуются вопросы биаса и неравенства, географическая изменчивость алжина остается недостаточно изученной. Действительно, то, что считается подходящим, истинным или законным, может значительно различаться в разных регионах в зависимости от культурных норм, политических реальностей и законодательства. Например, системы АИ, такие как генеративные модели текста или изображений, могут демонистрировать результаты, которые не отражают реальность, например, показывая сбалансированное представление половых ролей в руководящих должностях компаний, несмотря на существующие дисбалансы в реальности. Тем не менее, некоторые результаты модели могут быть приемлемыми на глобальном уровне, в то время как другие, например, ответы на вопросы о Кашмире, могут зависеть от географического местоположения пользователя и его контекста. Географическая чувствительность не является новой проблемой. Например, Google Maps отображает границы Кашмира по-разному в зависимости от местоположения пользователя. Однако то, что новое, это масштаб и автоматизация, с которыми современные системы АИ медиируют знания, выражают мнения и представительствуют географическую реальность для миллионов пользователей по всему миру, часто без достаточной прозрачности в управлении контекстом. С приходом агентного АИ (Agentic AI), который может не только отвечать на запросы, но и принимать инициативные действия, необходимость в гео-разрешенном (spatio-temporally aware) алжине становится все более критичной. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают подход, называемый "Pluralistic Geo-Alignment", который направлен на создание систем АИ, способных адаптироваться к географическим и культурным контекстам. Этот подход включает в себя несколько ключевых компонентов. Во-первых, необходимо разработать методы для оценки чувствительности АИ к географическим контекстам. Это может быть достигнуто путем анализа данных на различных географических уровнях, таких как национальный, региональный и местный. Во-вторых, авторы предлагают использовать мультимодальные данные, включающие не только текст, но и изображения, видео и другие формы информации, чтобы лучше понять контекст и принятие решений. Например, модели АИ могут быть натренированы на данных, которые отражают различные культурные и политические реальности, чтобы они могли делать более информированные решения. Третье, авторы предлагают внедрение систем мониторинга и контроля, которые могут отслеживать и корректировать выходные данные АИ в зависимости от контекста. Это может быть достигнуто путем интеграции географических баз данных и систем, которые могут предоставлять контекстуальную информацию в режиме реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы продемонстрировать эффективность предложенного метода. Они использовали различные наборы данных, включающие географические, культурные и политические данные, чтобы обучить модели АИ различным контекстам. Результаты показали, что модели, обученные с использованием мультимодальных данных, были более точными в определении контекста и принятии решений, чем те, которые использовали только текстовые данные. Кроме того, авторы продемонстрировали, что системы мониторинга и контроля могли эффективно корректировать выходные данные АИ в зависимости от контекста. Например, модели, которые были натренированы на данных о Кашмире, были в состоянии предоставлять различные ответы в зависимости от местоположения пользователя, что отражало различные политические реальности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое практическое применение. Во-первых, он может быть использован для создания более точных и контекстуально чувствительных систем АИ, которые могут быть применены в различных областях, таких как здравоохранение, образование, юриспруденция и транспорт. Например, в здравоохранении, системы АИ могут адаптироваться к локальным медицинским практикам и культурным нормам, чтобы предоставлять более эффективную поддержку. Во-вторых, предложенный метод может помочь в уменьшении биаса и дискриминации в системах АИ, обеспечивая более справедливое и инклюзивное представление различных групп населения. Наконец, этот метод может быть использован для улучшения прозрачности и ответственности систем АИ, что является критически важной задачей в современном мире. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы подчеркивают важность географического алжина в разработке систем АИ. Они предлагают ряд методологий и подходов, которые могут быть использованы для создания более адаптивных и контекстуально чувствительных систем. Будущие исследования могут фокусироваться на разработке более сложных моделей, которые могут обрабатывать многомерные данные и обеспечивать более высокую точность в определении контекста. Кроме того, необходимо продолжать исследования в области прозрачности и ответственности систем АИ, чтобы обеспечить их безопасное и этическое использование.
Annotation:
AI (super) alignment describes the challenge of ensuring (future) AI systems behave in accordance with societal norms and goals. While a quickly evolving literature is addressing biases and inequalities, the geographic variability of alignment remains underexplored. Simply put, what is considered appropriate, truthful, or legal can differ widely across regions due to cultural norms, political realities, and legislation. Alignment measures applied to AI/ML workflows can sometimes produce outcomes...
ID: 2508.05432v1 cs.AI, cs.CY
Авторы:

Zuyuan Zhang, Arnob Ghosh, Tian Lan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Монте-Карло деревья принятия решений (Monte Carlo Tree Search, MCTS) являются мощной техникой для оптимизации решений в средах с неопределенностью. Однако традиционные подходы в MCTS основываются на ожидаемых возвратах, что не учитывает возможного диапазона неблагоприятных результатов, связанных с принятием решений. Это может привести к серьезным последствиям в ситуациях с высоким риском, где крайние или высокорискованные исходы (так называемый "tail-risk") могут иметь критическую важность. Для уменьшения этого риска, некоторые методы MCTS вводят ограничения, такие как средние меры риска или жесткие пороги затрат, но они не обеспечивают строгие гарантии безопасности относительно экстремумов и высокорискованных ситуаций. В этой статье авторы фокусируются на проблеме обеспечения безопасности относительно крайних рисков ("tail-safety") в MCTS. Они разрабатывают методы, которые могут обеспечить более надежные гарантии в отношении крайних случаев, что особенно важно в приложениях с высокими рисками, таких как финансы, медицина или критические инфраструктурные системы. В частности, авторы предлагают решения, которые могут контролировать риск не только в среднем, но и в худших сценариях, что является ключевой проблемой в данной области. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают два новых метода для обеспечения безопасности относительно рисков в MCTS. **1. CVaR-MCTS (Conditional Value-at-Risk MCTS):** В этом подходе авторы используют меру риска Conditional Value-at-Risk (CVaR), которая характеризует ожидаемый убыток в худших $(1-\alpha)\%$ случаев. CVaR-MCTS интегрирует CVaR в структуру MCTS, позволяя контролировать риск на крайних случаях. Метод позволяет установить параметр $\alpha$, который определяет уровень контроля риска. Таким образом, CVaR-MCTS способен обеспечить явный контроль риска в худших случаях, что является важной характеристикой для приложений с высоким риском. **2. Wasserstein-MCTS (W-MCTS):** Для устранения ограничений, связанных с оценкой риска на основе ограниченных выборок, авторы предлагают ввести амбигуитетный набор Wasserstein (Wasserstein ambiguity set) $\mathcal{P}_{\varepsilon_{s}}(s,a)$ с радиусом $\varepsilon_{s}$. Этот набор позволяет характеризовать неопределенность в оценках риска и обеспечивает более точные гарантии безопасности в отношении крайних ситуаций. W-MCTS использует этот набор для улучшения точности оценок риска, что позволяет повысить надежность решений в средах с неопределенностью. Авторы также доказывают, что оба метода обеспечивают PAC (Probably Approximately Correct) гарантии безопасности и оценивают регрет (regret) этих методов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на различных симулированных средах, чтобы оценить эффективность их методов по сравнению с существующими базовыми подходами. Результаты демонстрируют, что CVaR-MCTS и W-MCTS показывают значительно более высокую эффективность в обеспечении безопасности относительно крайних рисков, при этом показывая лучшие результаты в терминах вознаграждений и стабильности. В частности, CVaR-MCTS показывает высокую эффективность в контроле риска в крайних ситуациях, в то время как W-MCTS обеспечивает более точную оценку риска благодаря введенному амбигуитетному набору. Эксперименты также показывают, что оба метода повышают стабильность и уменьшают вероятность крайних неблагоприятных исходов, что делает их более надежными в сравнении с традиционными методами MCTS. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенные методы имеют широкое применение в областях, требующих высокой надежности и контроля риска. Например, в финансовых системах, где необходимо учитывать возможность крайних финансовых потерь, или в медицинских приложениях, где крайние исходы могут иметь серьезные последствия. CVaR-MCTS и W-MCTS могут быть использованы для оптимизации решений в этих областях, обеспечивая более надежные и безопасные решения. Кроме того, эти методы могут быть применены в критически важных системах, таких как управление энергетическими сетями, транспортные системы или системы кибербезопасности, где контроль риска в крайних случаях имеет решающее значение для обеспечения безопасности и надежности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этой работе авторы представляют два новых метода, CVaR-MCTS и W-MCTS, которые обеспечивают гарантии безопасности относительно крайних рисков в MCTS. Они доказывают PAC гарантии для этих методов и демонстрируют их преимущества в экспериментальных исследованиях. В будущем, авторы предлагают расширить эти методы для более сложных сред, включая многоагентные системы и системы с нестационарностью. Также, они предлагают исследовать возможности интеграции этих методов с другими подходами к управлению рисками, чтобы повысить их эффективность в реальных приложениях.
Annotation:
Making decisions with respect to just the expected returns in Monte Carlo Tree Search (MCTS) cannot account for the potential range of high-risk, adverse outcomes associated with a decision. To this end, safety-aware MCTS often consider some constrained variants -- by introducing some form of mean risk measures or hard cost thresholds. These approaches fail to provide rigorous tail-safety guarantees with respect to extreme or high-risk outcomes (denoted as tail-risk), potentially resulting in se...
ID: 2508.05441v1 cs.LG, cs.AI
Авторы:

Wei Li, Zixin Wang, Qizheng Sun, Qixiang Gao, Fenglei Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Точность и надежность прогнозирования временных рядов энергии играют важную роль в планировании и распределении энергоресурсов. Данные энергетических систем характеризуются высокой динамической сложностью и непостоянством, что затрудняет использование традиционных методов прогнозирования. С появлением глубокого обучения, методы прогнозирования временных рядов на основе нейронных сетей стали доминирующими, однако существующие подходы сталкиваются с трудностями в обработке мульти-скопической (многоуровневой) динамики и неправильности реальных данных. Мульти-скопические характеристики временных рядов означают, что данные могут иметь различные временные резолюции, что требует сложной модели для эффективного извлечения шаблонов на разных уровнях. Кроме того, неопределенность и неполнота данных, а также влияние внешних факторов, таких как температура и ветер, создают дополнительные вызовы для точного прогнозирования. Оценка неопределенности также критически важна, поскольку она позволяет оценивать достоверность прогнозов и принимать взвешенные решения. В этой статье авторы предлагают EnergyPatchTST, новый метод, основанный на трансформерах для временных рядов, который предназначен для решения этих проблем. Целью этого метода является обеспечение точного и надежного прогнозирования энергии, учитывая мульти-скопическую природу данных и интегрируя внешние переменные для улучшения прогнозов. ## ПРЕДЛОЖЕННЫЙ МЕТОД EnergyPatchTST является расширением Patch Time Series Transformer (PatchTST), специально адаптированным для задач прогнозирования энергии. Основные инновации этого метода включают: 1. **Механизм мульти-скопического извлечения признаков**: Модель структурирует временные ряды на различных временных масштабах, что позволяет извлекать шаблоны на разных уровнях детализации. Этот механизм помогает модели адаптироваться к различным динамикам, которые могут возникать в энергетических данных. 2. **Прогнозирование с оценкой неопределенности**: EnergyPatchTST использует Probabilistic Prediction Framework, который оценивает неопределенность прогнозов через Monte Carlo Dropout. Это позволяет модели не только предсказывать значения, но также оценивать уровень достоверности прогнозов. 3. **Интеграция известных будущих переменных**: Модель может интегрировать известные будущие значения, такие как температура и ветер, что улучшает точность прогнозов. Это полезно в ситуациях, когда некоторые факторы могут быть прогнозируемы заранее. 4. **Предобучение и файн-тюнинг**: Авторы предлагают метод предобучения модели на больших наборах данных, затем файн-тюнинг на конкретных энергетических данных. Это помогает улучшить производительность модели, особенно когда доступны ограниченные данные. Общая архитектура EnergyPatchTST состоит из нескольких компонентов, включающих слои трансформеров для обработки временных рядов, модули для мульти-скопического анализа, и механизмы для интеграции внешних переменных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов на распространенных энергетических наборах данных, чтобы оценить эффективность EnergyPatchTST по сравнению с другими методами. Использовались данные из различных регионов с различной длительностью и частотой сбора данных. Результаты показали, что EnergyPatchTST превосходит другие методы, такие как трансформеры и ЛSTM, с понижением ошибки прогноза на 7-12%. Благодаря механизму мульти-скопического анализа, модель эффективно обрабатывает данные с различными временными резолюциями. Кроме того, оценка неопределенности, предоставленная Monte Carlo Dropout, оказалась надежной и полезной для оценки достоверности прогнозов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ EnergyPatchTST может быть применен в различных областях энергетического сектора, включая планирование производства электроэнергии, оптимизацию распределения ресурсов и управление энергосистемами. Точные прогнозы позволяют оптимизировать использование энергоресурсов, снизить затраты и повысить надежность системы. Оценка неопределенности также помогает принимать более информированные решения в условиях неопределенности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был представлен EnergyPatchTST, новый метод для прогнозирования временных рядов энергии, который обеспечивает точные прогнозы и надежную оценку неопределенности. Будущие исследования могут сосредоточиться на дальнейшем улучшении модели, включая исследование новых методов для обработки неполных данных и интеграции более сложных внешних факторов. Также, расширение этого подхода на другие области, такие как финансы и медицина, может быть перспективным направлением.
Annotation:
Accurate and reliable energy time series prediction is of great significance for power generation planning and allocation. At present, deep learning time series prediction has become the mainstream method. However, the multi-scale time dynamics and the irregularity of real data lead to the limitations of the existing methods. Therefore, we propose EnergyPatchTST, which is an extension of the Patch Time Series Transformer specially designed for energy forecasting. The main innovations of our meth...
ID: 2508.05454v1 cs.LG, cs.AI
Показано 33881 - 33890 из 34022 записей