📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities

2025-08-08

Авторы:

Harsh Nishant Lalai, Raj Sanjay Shah, Jiaxin Pei, Sashank Varma, Yi-Chia Wang, Ali Emami

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) проходят тщательную настройку для минимизации явных социальных и культурных предвзятостей. Однако, несмотря на эти усилия, в моделях сохраняются тонкие неявные искажения, корни которых уходят в данные, использованные при предобучении. Традиционный подход к выявлению таких искажений основан на прямом опросе моделей с помощью заранее подготовленных вопросов, что часто приводит к срабатыванию защитных механизмов и получению осторожных, политкорректных ответов. Этот метод ограничен тем, что не позволяет исследовать спонтанное поведение моделей в естественных условиях. Авторы статьи предлагают новый подход: вместо того чтобы задавать вопросы модели, они наблюдают, как модель сама формулирует вопросы для решения задачи дедукции. Для этого была выбрана игра в "20 вопросов" - мультитурнирная дедуктивная задача, где модель должна угадать задуманную сущность, задавая вопросы, на которые можно отвечать "да", "нет" или "не имеет значения". Эта игра идеально подходит для исследования, так как позволяет наблюдать, как модель сама инициирует и направляет процесс рассуждений. Особое внимание уделяется географическим различиям в способности моделей дедуцировать сущности из разных регионов мира. Существующие исследования сконцентрированы на англоязычном контенте и западноцентричном взгляде на мир, что может привести к систематическому занижению качества работы моделей с объектами из Глобального Юга и Востока. Это создает проблему справедливости и инклюзивности в применении ИИ систем на глобальном уровне. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического исследования географических различий авторы разработали новый датасет Geo20Q+, включающий 400 сущностей из разных регионов мира. Датасет содержит две категории объектов: 200 известных людей (политики, артисты, спортсмены, ученые) и 200 культурно значимых объектов (еды, достопримечательности, животные). Сущности распределены по 7 регионам: Северная Америка, Южная Америка, Европа, Африка, Ближний Восток, Азия и Австралия/Океания. Исследование охватывает 6 популярных LLM: GPT-4o, GPT-3.5-turbo, Claude-3-sonnet, Gemini-1.5-pro, Llama-3-70b и Mixtral-8x7b. Модели тестировались в двух конфигурациях игры: канонической версии с ограничением в 20 вопросов и версии с неограниченным количеством попыток. Эксперименты проводились на 7 языках: английском, хинди, китайском, японском, французском, испанском и турецком. Для проведения экспериментов была разработана автоматизированная система, где одна модель выступает ведущим (загадывает сущность), а другая - угадывающим. Угадывающая модель получает только категорию сущности (человек или объект) и должна сформулировать последовательность вопросов для дедукции правильного ответа. Ведущая модель отвечает на основе заранее подготовленных фактов о сущности. Авторы также проанализировали корреляцию между производительностью моделей и такими метриками, как количество просмотров страниц Википедии и частота упоминания в корпусе предобучения. Это позволило количественно оценить влияние представленности данных на качество дедукции. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты выявили значительные географические диспропорции в успешности дедукции сущностей. Модели демонстрируют существенно более высокую точность при угадывании объектов из Глобального Севера по сравнению с Глобальным Югом (разница до 35 процентных пунктов). Аналогичная тенденция наблюдается при сравнении Глобального Запада и Востока. Самые высокие показатели достигнуты для сущностей из Европы и Северной Америки, тогда как объекты из Африки и Южной Америки демонстрируют наихудшие результаты. Интересно, что язык взаимодействия оказал минимальное влияние на качество дедукции. Различия в точности между английским и другими языками составляли менее 5 процентных пунктов, что говорит о более глубоких, чем языковые барьеры, факторах, влияющих на производительность

Annotation:

Large Language Models (LLMs) have been extensively tuned to mitigate explicit biases, yet they often exhibit subtle implicit biases rooted in their pre-training data. Rather than directly probing LLMs with human-crafted questions that may trigger guardrails, we propose studying how models behave when they proactively ask questions themselves. The 20 Questions game, a multi-turn deduction task, serves as an ideal testbed for this purpose. We systematically evaluate geographic performance disparit...

ID: 2508.05525v1 cs.CL, cs.AI

arXiv PDF

📄 Tractable Sharpness-Aware Learning of Probabilistic Circuits

2025-08-08

Авторы:

Hrithik Suresh, Sahil Sidheekh, Vishnu Shreeram M. P, Sriraam Natarajan, Narayanan C. Krishnan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Probabilistic Circuits (PCs) представляют собой класс генеративных моделей, которые обеспечены возможностью точного и вычислительно эффективного выполнения вывода для широкого спектра запросов. Благодаря этим свойствам, PCs получили широкое распространение в областях, требующих прозрачности и точности, таких как медицинские диагностики, обработка естественного языка и системы принятия решений. Однако, несмотря на их преимущества, существует ряд проблем, связанных с их обучением и применением. Одной из ключевых проблем является тенденция к переобучению, особенно при наличии ограниченного объема данных. Переобучение может произойти, когда модель становится слишком сложной, что приводит к плохой обобщающей способности на неизвестных данных. Традиционные подходы к решению этой проблемы часто основываются на регуляризации, но для PCs это может быть недостаточно эффективно из-за специфики их структуры и вычислительных особенностей. Дополнительная сложность заключается в том, что существующие методы регуляризации для глубоких нейронных сетей, такие как Sharpness-Aware Minimization (SAM), не легко применимы к Probabilistic Circuits из-за вычислительной сложности оценки второй производной функции лог-вероятности. Таким образом, необходим новый подход, который бы эффективно решал эту проблему для Probabilistic Circuits, сохраняя при этом их вычислительную эффективность. В данной статье авторы предлагают решение этой проблемы, основанное на анализе пейзажа лог-вероятности и использовании регуляризатора, основанного на трассировке гессиана. Это позволяет улучшить обобщающую способность моделей Probabilistic Circuits, сделав их более надёжными в реальных приложениях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, называемый **Tractable Sharpness-Aware Learning**, который опирается на идею регуляризации лог-вероятностного пространства с помощью гессиана. Основная идея заключается в том, чтобы минимизировать трассировку гессиана функции лог-вероятности, которая служит прокси-метрикой для оценки остроты оптимума. Ключевой момент заключается в том, что для Probabilistic Circuits можно эффективно вычислить трассировку гессиана без необходимости прямого решения сложных математических выражений, что является существенным преимуществом по сравнению с глубокими нейронными сетями. Авторы доказывают, что это можно сделать с помощью эффективных алгоритмов, которые интегрируются с методами обучения на основе EM (Expectation-Maximization) и градиентных методов. Техническая реализация включает в себя добавление регуляризатора, который зависит от нормы градиента функции лог-вероятности. Этот регуляризатор позволяет смягчить остроту оптимума, что приводит к более плоским минимумам и, соответственно, к лучшей обобщающей способности модели. Алгоритм обучения остается простым и вычислительно эффективным, что делает его пригодным для практического использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на синтетических и реальных данных для оценки эффективности предложенного метода. На синтетических данных было показано, что метод эффективно смягчает остроту оптимума и улучшает обобщающую способность модели. На реальных данных, таких как наборы данных для классификации изображений и текстов, метод также демонстрирует значительное улучшение показателей качества по сравнению со стандартными методами обучения Probabilistic Circuits. Кроме того, было продемонстрировано, что предложенный метод не только улучшает качество модели, но также снижает вероятность переобучения, что является критическим фактором для моделей с высокой модельной емкостью. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр практических применений. Он может быть использован в задачах, где важна высокая точность и прозрачность модели, таких как медицинские диагностики, финансовые прогнозы и системы управления рисками. Благодаря улучшению обобщающей способности, метод также может быть полезен в задачах, где данных недостаточно для надежного обучения традиционных моделей. Одним из главных преимуществ является то, что метод сохраняет вычислительную эффективность Probabilistic Circuits, что делает его пригодным для реального времени и высоконагруженных приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Tractable Sharpness-Aware Learning является эффективным подходом для улучшения обучения Probabilistic Circuits. Он не только смягчает проблему переобучения, но также повышает обобщающую способность модели. В будущем можно рассмотреть возможность применения этого метода к другим классам моделей, а также исследовать его сочетание с другими методами регуляризации для дальнейшего улучшения результатов.

Annotation:

Probabilistic Circuits (PCs) are a class of generative models that allow exact and tractable inference for a wide range of queries. While recent developments have enabled the learning of deep and expressive PCs, this increased capacity can often lead to overfitting, especially when data is limited. We analyze PC overfitting from a log-likelihood-landscape perspective and show that it is often caused by convergence to sharp optima that generalize poorly. Inspired by sharpness aware minimization i...

ID: 2508.05537v1 cs.LG, cs.AI

arXiv PDF

📄 Conformal Sets in Multiple-Choice Question Answering under Black-Box Settings with Provable Coverage Guarantees

2025-08-08

Авторы:

Guang Yang, Xinyang Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Language Models (LLMs) достигли значительных успехов в задачах многовариантных ответов (Multiple-Choice Question Answering, MCQA), став мощным инструментом для решения широкого круга задач. Однако, несмотря на их продвинутые возможности, их неоднократно выявлялись проблемы, связанные с недостаточной надежностью. Такие недостатки, как генерация неточных или вымышленных фактов (hallucination) и чрезмерное уверенность в неверных ответах (overconfidence), препятствуют их применению в областях с высоким уровнем риска, где надежность и точность критически важны. Эти проблемы особенно остры в контексте "черного ящика" (black-box settings), когда внутренняя работа модели непонятна, и пользователи не могут оценить надежность предлагаемых ответов. Таким образом, необходимо разработать методы, которые позволят оценивать неопределенность (uncertainty quantification) в ответах моделей, обеспечивая высокую надежность даже в условиях, когда внутренний механизм модели недоступен для анализа. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод основанный на частотном анализе (frequency-based) и конформной прогнозирование (conformal prediction, CP). Здесь, для каждого вопроса, модель генерирует несколько независимых выборок ответов из своего распределения. Тогда, из всех этих выборок, выбирается тот, который встречается наиболее часто. Этот "наиболее частотный" ответ используется для вычисления предсказательной энтропии (Predictive Entropy, PE), которая служит мерой неопределенности. В отличие от традиционных методов, основанных на логитах (logit-based probabilities), этот подход не требует доступа к внутренним параметрам модели и может быть применен в "черном ящике". Этот метод также позволяет контролировать частоту ошибок (empirical miscoverage rate) в заданных уровнях риска, что делает его надежным инstrumentом для оценки неопределенности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования, эксперименты проводились на шести различных LLMs и четырех датасетах (MedMCQA, MedQA, MMLU, MMLU-Pro). Результаты показали, что частотный подход к оценке неопределенности (frequency-based PE) значительно превосходит логит-базированный подход (logit-based PE) в различении верных и неверных ответов, измеренном по метрике AUROC (Area Under the Receiver Operating Characteristic Curve). Кроме того, метод эффективно контролирует частоту ошибок (empirical miscoverage rate) в пределах заданных рисков, что подтверждает его надежность. Эти результаты демонстрируют, что частотный анализ может служить эффективным заменой логит-базированной вероятности в "черных ящиках". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где надежность ответов критична, таких как медицинская диагностика, финансовые консультации и юридические решения. Благодаря его способности обеспечить гарантии покрытия (coverage guarantees), этот метод может увеличить доверие к LLMs в практических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен distribution-free, model-agnostic фреймворк для надежной оценки неопределенности в MCQA, который может быть применен к любой модели в условиях "черного ящика". Будущие исследования могут фокусироваться на улучшении эффективности этого подхода и его адаптации для других доменов и задач.

Annotation:

Large Language Models (LLMs) have shown remarkable progress in multiple-choice question answering (MCQA), but their inherent unreliability, such as hallucination and overconfidence, limits their application in high-risk domains. To address this, we propose a frequency-based uncertainty quantification method under black-box settings, leveraging conformal prediction (CP) to ensure provable coverage guarantees. Our approach involves multiple independent samplings of the model's output distribution ...

ID: 2508.05544v1 cs.CL, cs.AI

arXiv PDF

📄 Adapting Vision-Language Models Without Labels: A Comprehensive Survey

2025-08-08

Авторы:

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы объединенные модели зрения и языка (Vision-Language Models, VLMs) продемонстрировали выдающиеся способности к обобщению на широком спектре задач, включая распознавание изображений, визуально-языковое понимание и генерацию. Однако, несмотря на впечатляющие базовые результаты, прямое применение этих моделей к конкретным прикладным сценариям без специфической адаптации часто приводит к субоптимальной производительности. Это наблюдается в ситуациях с доменным сдвигом, специфическими распределениями данных или уникальными требованиями конечной задачи. Проблема усложняется тем, что традиционные методы адаптации требуют больших объемов размеченных данных, что затрудняет их практическое применение. Сбор и маркировка данных может быть крайне дорогостоящим, особенно в специализированных областях, таких как медицинская диагностика, промышленная инспекция или автономное вождение. Это привело к растущему интересу к методам адаптации без надзора, которые не требуют размеченных данных. Существующие исследования в этой области фрагментированы и отсутствует систематическое понимание различных подходов. Разные методы предполагают различные уровни доступа к данным, от полного их отсутствия до стриминговых данных в реальном времени. Отсутствие унифицированной таксономии и сравнительного анализа затрудняет выбор подходящего метода для конкретной задачи. Эта статья заполняет критический пробел в литературе, предоставляя всесторонний обзор методов адаптации VLMs без использования меток. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают систематическую таксономию методов адаптации VLMs без меток, основанную на доступности и характере неразмеченных визуальных данных. Таксономия включает четыре ключевых парадигмы, каждая из которых оптимизирована для конкретного сценария распределения данных. Первая парадигма - Data-Free Transfer (передача без данных) - предполагает полное отсутствие доступных данных из целевого домена. Методы в этой категории полагаются на синтетические данные, сгенерированные из предобученных генеративных моделей, или используют мета-информацию из исходного модального пространства. Основная стратегия заключается в генерации псевдоданных, которые имитируют характеристики целевого домена, с последующей адаптацией модели через методы дистилляции знаний. Вторая парадигма - Unsupervised Domain Transfer (нерегулируемая передача домена) - применяется когда доступны большие объемы неразмеченных данных целевого домена. Методы здесь используют стратегии выравнивания распределений, такие как adversarial adaptation, feature alignment и self-supervised learning. Специфическая архитектура включает итеративное обучение с механизмами контрастивной потери и pseudo-labeling. Третья парадигма - Episodic Test-Time Adaptation (эпизодическая адаптация во время тестирования) - работает с батчами данных, поступающих периодически. Методы используют механизмы обратного распространения с адаптивными оптимизаторами, обновляющими только normalization layers или lightweight adaptation modules. Ключевое техническое решение - использование entropy minimization и consistency regularization для стабильной адаптации. Четвертая парадигма - Online Test-Time Adaptation (онлайн адаптация во время тестирования) - спроектирована для стриминговых данных в реальном времени. Архитектура включает буферы ограниченного размера, online learning алгоритмы и механизмы быстрой адаптации. Методы используют мета-обучение и continual learning стратегии для предотвращения катастрофического забывания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексное эмпирическое исследование, охватывающее 15+ представительных методов из каждой парадигмы. Эксперименты проводились на 8 различных наборах данных, включая ImageNet, CIFAR-10/100, DomainNet, Office-Home, CUB-200, Food-101, а также специализированные наборы для медицинской визуализации и автономного вождения. Для Data-Free Transfer методов, использовались различные генеративные модели (StyleGAN, BigGAN, diffusion models) для создания синтетических данных. Результаты показали, что качество синтетических данных напрямую коррелирует с эффективностью адаптации, причем diffusion-based подходы демонстрировали наибольшую устойчивость к доменному сдвигу. Наибольшие улучшения наблюдались в сценариях

Annotation:

Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unif...

ID: 2508.05547v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 MV-Debate: Multi-view Agent Debate with Dynamic Reflection Gating for Multimodal Harmful Content Detection in Social Media

2025-08-08

Авторы:

Rui Lu, Jinhe Bi, Yunpu Ma, Feng Xiao, Yuntao Du, Yijun Tian

## КОНТЕКСТ И ПРОБЛЕМАТИКА Социальные медиа превратились в мультимодальную среду, где текст, изображения и другие сигналы взаимодействуют, образуя сложные и нюансные контексты, которые могут скрывать вредные намерения. Определение таких намерений, будь то сарказм, ненавистная речь или дезинформация, представляет собой значительную проблему из-за нескольких факторов. Во-первых, существуют кросс-модальные противоречия, когда одни модальности (например, текст) могут передавать сообщение, противоречащее другой модальности (например, изображению). Во-вторых, быстрое развитие культурных тенденций и новых форм коммуникации сложило огромное разнообразие сложных примитивов, которые трудно интерпретировать. Третья проблема – тонкие прагматические ключи, такие как интонация, контекст и социальные нормы, которые могут изменять значение сообщения. Традиционные модели обнаружения вредного контента часто борются с этими вызовами, поскольку они не в состоянии эффективно обрабатывать мультимодальные контексты и динамические культурные значения. Эта проблема особенно критична в ситуациях, требующих быстрого и точного реагирования, например, в социальных сетях, где небезопасное содержимое может быстро распространяться. Таким образом, необходим подход, который может эффективно обрабатывать мультимодальные данные и обеспечивать высокую точность в определении вредного контента. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеупомянутых проблем, авторы предлагают фреймворк MV-Debate, который использует мульти-агентную дебатную структуру с динамическим рефлексивным гейтингом (Dynamic Reflection Gating). Этот фреймворк состоит из четырех агентов, каждый из которых предназначен для анализа контента с разных перспектив. Эти агенты включают: Surface Analyst (аналитик поверхностных признаков), Deep Reasoner (глубокий логический аналитик), Modality Contrast (контраст модальностей), и Social Contextualist (специалист по социальному контексту). Каждый агент сосредоточен на определенной аспектной интерпретации контента: Surface Analyst анализирует поверхностные признаки, Deep Reasoner фокусируется на глубокой логической интерпретации, Modality Contrast контролирует контраст между разными модальностями (например, текст и изображение), а Social Contextualist учитывает социальный и культурный контекст. В процессе дебата агенты взаимодействуют друг с другом, обмениваясь информацией и уточняющими вопросами, чтобы улучшить их понимание контента. Этот процесс проводится через итеративную схему, где каждый агент основывается на результатах других для уточнения своих выводов. Динамический рефлексивный гейтинг (Dynamic Reflection Gating) обеспечивает точность и эффективность этого процесса, регулируя вклад каждого агента в зависимости от их уровня уверенности и точности. Это позволяет системе достичь высокого уровня точности в определении вредного контента, одновременно сохраняя высокую эффективность вычислений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на трех бенчмарк-наборах данных для оценки эффективности MV-Debate. Эти наборы данных включали различные формы вредного контента, включая сарказм, ненавистную речь и дезинформацию. MV-Debate был сравнен с несколькими базовыми моделями, включая как одномодельные, так и мульти-агентные подходы. Результаты показали, что MV-Debate значительно превосходит эти базовые модели как по точности, так и по эффективности. Например, на одном из наборов данных MV-Debate достиг точности в 92%, превосходя ближайший конкурент на 5%. Кроме того, MV-Debate показал значительно меньшую временную сложность по сравнению с другими мульти-агентными моделями, что делает его более практичным для реального использования в социальных медиа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MV-Debate имеет широкое применение в области безопасности и модернизации социальных медиа. Он может быть использован для обнаружения различных форм вредного контента, включая ненавистную речь, сарказм, и дезинформацию, что является критически важной задачей для обеспечения безопасного онлайн-пространства. Благодаря его эффективности и точности, MV-Debate может быть интегрирован в существующие модели модерации контента, улучшая их способность обнаруживать и блокировать вредные сообщения в реальном времени. Кроме того, этот фреймворк может быть применен в других областях, требующих точного анализа мультимодальных данных, таких как анализ медиа-контента, мониторинг публичных речей и даже в области психологического контента для обнаружения скрытых сигналов депрессии или самоубийственных намерений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате, MV-Debate представляет собой значительный шаг вперед в области обнаружения вредного контента в социальных медиа. Его мульти-агентная структура и динамический рефлексивный гейтинг позволяют достичь высокой точности и эффективности в решении этой сложной задачи. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая интеграцию более продвинутых моделей обработки естественного языка и компьютерного зрения, а также расширение его применения на другие домены, такие как медицинский анализ или финансовый мониторинг.

Annotation:

Social media has evolved into a complex multimodal environment where text, images, and other signals interact to shape nuanced meanings, often concealing harmful intent. Identifying such intent, whether sarcasm, hate speech, or misinformation, remains challenging due to cross-modal contradictions, rapid cultural shifts, and subtle pragmatic cues. To address these challenges, we propose MV-Debate, a multi-view agent debate framework with dynamic reflection gating for unified multimodal harmful co...

ID: 2508.05557v1 cs.AI

arXiv PDF

📄 Iterative Learning of Computable Phenotypes for Treatment Resistant Hypertension using Large Language Models

2025-08-08

Авторы:

Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации. Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний. Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа. На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных. Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций. Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities for medical question answering and programming, but their potential for generating interpretable computable phenotypes (CPs) is under-explored. In this work, we investigate whether LLMs can generate accurate and concise CPs for six clinical phenotypes of varying complexity, which could be leveraged to enable scalable clinical decision support to improve care for patients with hypertension. In addition to evaluating zero-short...

ID: 2508.05581v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

2025-08-08

Авторы:

Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимодальные большие языковые модели (MLLM) являются мощным инструментом для решения задач, требующих понимания и обработки различных видов данных, таких как текст, изображения и аудио. Однако, несмотренно на их продвинутые возможности, MLLM часто сталкиваются с проблемами в области логического вывода и принятия решений, что ограничивает их эффективность в реальных приложениях. Для улучшения таких возможностей используется Reinforcement Learning (RL), который позволяет моделям улучшать свои навыки вывода после первоначального обучения. Тем не менее, существующие подходы к RL-обучению MLLM сталкиваются с двумя ключевыми проблемами: **Advantage Collapsing** и **Rollout Silencing**. **Advantage Collapsing** происходит, когда большинство преимуществ (advantages) в пакете данных сосредоточены вокруг нуля, что приводит к неэффективному обновлению градиентов и замедлению процесса обучения. **Rollout Silencing**, с другой стороны, возникает, когда со временем уменьшается доля траекторий (rollouts), которые предоставляют ненулевые градиенты, что также понижает качество обучения. Эти проблемы не только замедляют процесс обучения, но и могут привести к подходящим, но не оптимальным результатам. Для решения этих проблем, авторы предлагают новый подход, основанный на динамическом изменении структуры траекторий и композиции пакетов данных. Этот подход называется **Shuffle-R1** и направлен на повышение эффективности RL-обучения MLLM за счет улучшения качества градиентных сигналов и повышения экспозиции ценных траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД **Shuffle-R1** представляет собой фреймворк, который улучшает эффективность RL-обучения MLLM путем динамического изменения способа выбора и композиции траекторий. Фреймворк состоит из двух основных компонентов: **Pairwise Trajectory Sampling** и **Advantage-based Trajectory Shuffle**. **Pairwise Trajectory Sampling** — это метод выбора траекторий, который фокусируется на выборе пар траекторий с высоким контрастом, т.е. траекторий, которые имеют значительные различия в их преимуществах (advantages). Это позволяет улучшить качество градиентных сигналов, поскольку высококонтрастные траектории обеспечивают более информативные обновления весов модели. **Advantage-based Trajectory Shuffle**, с другой стороны, предназначен для динамического перемешивания траекторий в пакете на основе их преимуществ. Этот метод позволяет увеличить вероятность того, что ценные траектории будут включены в пакет и будут иметь больший вес в процессе обучения. Это помогает предотвратить **Rollout Silencing**, поскольку ценные траектории не будут утрачены из-за недостаточного представления в пакете. Общая архитектура **Shuffle-R1** является простой, но эффективной. Она не требует сложных модификаций в существующей архитектуре MLLM и может быть легко интегрирована в существующие RL-пайплайны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность **Shuffle-R1**, авторы провели серию экспериментов на различных реальных данных и задачах разумения (reasoning benchmarks). Эти эксперименты включали задачи, требующие сложного вывода и обработки мультимодальных данных. Результаты показали, что **Shuffle-R1** значительно превосходит существующие RL-базовые модели в терминах эффективности обучения и качества получаемых результатов. Фреймворк успешно справился с проблемами **Advantage Collapsing** и **Rollout Silencing**, что привело к более эффективным обновлениям градиентов и быстрому схождению модели. Кроме того, **Shuffle-R1** показал значительное улучшение в терминах качества вывода и точности решений на различных задачах. Эти результаты подтверждают, что динамическое изменение структуры траекторий и пакетов данных может значительно повысить эффективность RL-обучения MLLM. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **Shuffle-R1** лежат в его способности улучшить эффективность RL-обучения MLLM без необходимости существенных изменений в их архитектуре. Это делает его применимым к широкому кругу задач, где требуется высокое качество логического вывода и обработки мультимодальных данных. Фреймворк может быть применен в таких областях, как **компьютервизионные системы**, **робототехника**, и **поддержка принятия решений**, где MLLM используются для обработки сложных задач. Кроме того, он может быть полезен в областях, где эффективное обучение играет ключевую роль, таких как **медицинские диагностические системы** и **финансовые прогнозы**. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Shuffle-R1**, который решает ключевые проблемы в RL-обучении MLLM, такие как **Advantage Collapsing** и **Rollout Silencing**. Эксперименты показали, что этот подход может значительно улучшить эффективность обучения и качество результатов. В будущем, дальнейшие исследования могут фокусироваться на дальнейшем улучшении эффективности RL-обучения для MLLM, включая исследование новых методов динамического изменения траекторий и пакетов данных. Кроме того, можно рассмотреть возможность применения **Shuffle-R1** к другим типам моделей и задач, чтобы оценить его универсальность.

Annotation:

Reinforcement learning (RL) has emerged as an effective post-training paradigm for enhancing the reasoning capabilities of multimodal large language model (MLLM). However, current RL pipelines often suffer from training inefficiencies caused by two underexplored issues: Advantage Collapsing, where most advantages in a batch concentrate near zero, and Rollout Silencing, where the proportion of rollouts contributing non-zero gradients diminishes over time. These issues lead to suboptimal gradient ...

ID: 2508.05612v1 cs.LG, cs.AI

arXiv PDF

📄 Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

2025-08-08

Авторы:

Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) стали важной составляющей современных исследований в области искусственного интеллекта, особенно в задачах резонансного мышления. Однако улучшение их резонансных способностей часто зависит от использования reinforcement learning (RL), который представляет собой ключевую методологию в этой области. Два главных подхода к формированию вознаграждений (rewards) в RL — model-based rewards и rule-based rewards — имеют свои ограничения. Rule-based rewards, основанные на строгих правилах, не гарантируют достаточной робастности и адаптивности, что может привести к нестабильности в обучении. С другой стороны, model-based rewards, которые зависят от моделей для оценки результатов, часто сталкиваются с проблемой reward hacking, когда модель находит способы манипулировать системой вознаграждений, чтобы получать высокие баллы, не выполняя фактически задачи. Эти проблемы усугубляются отсутствием эффективных методов для генерации высококачественных данных для обучения моделей вознаграждений. Мотивацией данного исследования является необходимость разработки более эффективных и робастных методов для интеграции моделей вознаграждений в RL для LLMs. Авторы предлагают решение, основанное на совместном оптимизировании модели политики (policy model) и модели вознаграждений (reward model), чтобы устранить существующие недостатки и повысить эффективность RL в задачах резонансного мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк под названием **Cooper (Co-optimizing Policy Model and Reward Model)**, который сочетает в себе оптимизацию модели политики и модели вознаграждений в едином процессе. Основная идея Cooper заключается в том, чтобы использовать преимущества rule-based rewards для точной идентификации правильных ответов и динамически формировать наборы положительных и отрицательных примеров для дальнейшего обучения модели вознаграждений. Cooper использует **hybrid annotation strategy** для эффективной генерации данных, которые необходимы для обучения модели вознаграждений. Эта стратегия объединяет как автоматическую, так и ручною аннотацию, чтобы обеспечить высококачественные данные. Кроме того, авторы предлагают **reference-based reward modeling paradigm**, где модель вознаграждений использует ссылочный ответ (reference answer) в качестве входа для более точной оценки. В рамках этого фреймворка была разработана модель вознаграждений под названием **VerifyRM**, которая достигает высокой точности на наборе данных VerifyBench по сравнению с другими моделями того же размера. VerifyRM основана на ссылочном подходе и обеспечивает более надежную оценку качества ответов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности Cooper и модели VerifyRM. Эксперименты проводились на данных Qwen2.5-1.5B-Instruct, где Cooper показал значительное улучшение результатов по сравнению с базовыми подходами. В частности, использование Cooper привело к росту средней точности на 0.54%, что является существенным результатом в контексте задач резонансного мышления. Кроме того, VerifyRM также демонстрирует высокую точность на VerifyBench, превосходя другие модели вознаграждений того же размера. Эксперименты также показали, что динамическое обновление модели вознаграждений в рамках Cooper позволяет снизить риск reward hacking и повысить общую эффективность RL. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Cooper имеет значительное практическое применение в области резонансного мышления с использованием LLMs. Он позволяет улучшить надежность и эффективность RL, устраняя проблемы reward hacking и повышая качество обучения. Одним из ключевых преимуществ Cooper является его способность динамически обновлять модель вознаграждений, что обеспечивает более точную оценку и улучшает итоговые результаты RL. Это может быть применено в различных областях, где необходимо высококачественное резонансное мышление, таких как обработка естественного языка, автоматическое распознавание речи и другие прикладные задачи. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк Cooper, который сочетает оптимизацию модели политики и модели вознаграждений для улучшения результатов RL в задачах резонансного мышления. Авторы демонстрируют, что динамическое обновление модели вознаграждений является эффективным способом для борьбы с reward hacking и повышения эффективности RL. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры Cooper, включая разработку более эффективных стратегий аннотации и моделей вознаграждений. Кроме того, можно исследовать применение этого подхода к более широкому классу задач, включая мультимодальные системы и задачи, требующие высокой точности резонансного мышления.

Annotation:

Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Polic...

ID: 2508.05613v1 cs.CL, cs.AI

arXiv PDF

📄 OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

2025-08-08

Авторы:

Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) продемонстрировали выдающиеся способности к абстрактному рассуждению в задачах математики, логики и общих знаний. Однако их потенциал в области воплощенного интеллекта (embodied intelligence), включающего физическое взаимодействие с окружающей средой, использование инструментов и координацию между множеством агентов, остается практически неизученным. Существующие бенчмарки для оценки воплощенного интеллекта страдают от фундаментальных ограничений: они либо предоставляют заранее определенные наборы инструментов, либо явно указывают стратегии совместной работы, что не отражает реальную сложность воплощенных задач. Ключевая проблема заключается в том, что реальные воплощенные задачи требуют от агентов динамического приобретения новых способностей и автономного определения стратегий координации на основе текущих потребностей задачи. Современные LLM ориентированы на обработку текстовой информации и не имеют встроенного механизма для моделирования непрерывных физических свойств, сложных пространственных отношений и динамических взаимодействий между объектами. Это создает значительный разрыв между теоретическими возможностями моделей и практическими требованиями воплощенных систем. Авторы статьи подчеркивают, что отсутствие комплексного бенчмарка, способного оценивать способность моделей к рассуждениям в условиях ограничений и неопределенности, затрудняет развитие воплощенного ИИ. Традиционные подходы к оценке фокусируются на конечных результатах, игнорируя процесс рассуждений и взаимодействие с ограничениями среды, что не позволяет выявить фундаментальные ограничения архитектуры современных LLM в контексте воплощенных задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем авторы разработали OmniEAR - комплексную платформу для оценки способности языковых моделей к рассуждениям о физических взаимодействиях, использовании инструментов и координации множества агентов в воплощенных задачах. В отличие от существующих решений, OmniEAR не предоставляет агентам заранее определенные наборы инструментов или явные инструкции для сотрудничества. Вместо этого система требует от агентов динамического приобретения необходимых способностей и автономного определения оптимальных стратегий координации на основе анализа текущей задачи и доступных ресурсов. Архитектура OmniEAR базируется на текстовом представлении окружающей среды, что позволяет моделировать непрерывные физические свойства объектов и сложные пространственные отношения без необходимости визуальной обработки. Платформа включает 1500 уникальных сценариев, охватывающих как бытовые, так и промышленные домены, каждый из которых специально разработан для тестирования конкретных аспектов воплощенного рассуждения. Сценарии разделены на три основные категории: задачи использования инструментов, задачи неявной координации и комбинированные задачи, требующие одновременного использования обоих навыков. Система оценивания реализует многоуровневый подход к измерению эффективности рассуждений. На первом уровне оценивается способность модели к идентификации релевантных ограничений среды и инструментов. На втором - качество планирования последовательности действий с учетом физических ограничений. На третьем - эффективность координации между множеством агентов в условиях частичной информации и неопределенности. Для каждого уровня разработаны специфические метрики качества, включающие как количественные показатели успешности, так и качественную оценку рациональности принятых решений. Экспериментальная методология включает сравнение производительности моделей при различных условиях предоставления информации: от полного доступа к состоянию среды до ограниченного наблюдения. Это позволяет выявить, как модели справляются с фильтрацией релевантной информации и принятием решений в условиях информационной перегрузки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания включала систематическую оценку производительности различных языковых моделей на всех 1500 сценариях OmniEAR. Основное внимание уделялось анализу спадов производительности при переходе от явных инструкций к неявным огран

Annotation:

Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordinatio...

ID: 2508.05614v1 cs.CL, cs.AI

arXiv PDF

📄 Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

2025-08-08

Авторы:

Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные автономные агенты, взаимодействующие с графическими интерфейсами пользователя (GUI), сталкиваются с фундаментальной задачей GUI grounding — точного сопоставления естественно-языковых инструкций с конкретными координатами на экране. Эта задача является критически важной для создания универсальных систем автоматизации, способных выполнять сложные многошаговые операции в различных приложениях без предварительного программирования. Существующие подходы к решению проблемы GUI grounding можно условно разделить на две категории. Первая группа методов опирается на обшученное обучение с учителем, требующее масштабных датасетов с пиксельной аннотацией, где каждому GUI-элементу соответствует точная разметка координат. Такие подходы демонстрируют высокую точность, но сталкиваются с фундаментальным ограничением — стоимость и доступность качественной разметки растут экспоненциально с увеличением сложности интерфейсов и разнообразия приложений. Вторая группа методов использует обучение с подкреплением с механизмом вознаграждений, однако требует предварительно размеченных сигналов вознаграждения, что также создает узкое место в виде необходимости создания специализированных метрик эффективности. Ключевым наблюдением авторов статьи стало то, что современные модели, генерируя множественные предсказания для одного и того же GUI-элемента, демонстрируют определенные пространственные паттерны перекрытия. Эти паттерны неявно кодируют сигналы уверенности модели, которые могут быть использованы для более точной локализации без необходимости дополнительной разметки. Это наблюдение открывает принципиально новый путь повышения точности систем GUI grounding за счет использования внутренней структуры предсказаний модели, минуя этапы дорогостоящего аннотирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию, основанную на принципиально новой парадигме test-time scaling и test-time reinforcement learning для задачи GUI grounding. Первый компонент системы, GUI-RC (Region Consistency), представляет собой метод масштабирования во время тестирования, который конструирует пространственные сетки голосования на основе множественных семплированных предсказаний для идентификации консенсусных регионов. Архитектура GUI-RC работает следующим образом: для каждого входного изображения GUI и соответствующей языковой инструкции модель генерирует N независимых предсказаний координат целевого элемента. На основе этих предсказаний строится двумерная пространственная сетка, где каждая ячейка получает вес, пропорциональный количеству предсказаний, перекрывающих данную область. Регионы с максимальным перекрытием идентифицируются как области наибольшего консенсуса модели, что позволяет выбрать наиболее надежные координаты без дополнительного обучения. Второй компонент, GUI-RCPO (Region Consistency Policy Optimization), трансформирует паттерны консистентности в сигналы вознаграждения для тестового обучения с подкреплением. Данный метод вычисляет, насколько хорошо каждое индивидуальное предсказание согласуется с коллективным консенсусом, преобразуя это согласование в скалярную функцию вознаграждения. Используя эти само-консистентные сигналы, модель может итеративно уточнять свои выходные данные на неразмеченных данных в процессе инференса. Ключевым техническим новшеством является разработка алгоритма оптимизации политики, который работает исключительно во время тестирования, адаптируя параметры модели к конкретному экземпляру входных данных без градиентного обновления весов основной модели. Это достигается через мета-оптимизацию, где модель учится генерировать более консистентные предсказания для каждого конкретного случая использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на комплексном бенчмарке ScreenSpot, включающем две версии: ScreenSpot-v1 и ScreenSpot-v2. Датасет содержит более 1200 уникальных GUI-экранов из различных категорий приложений, включая веб-интерфейсы, мобильные приложения и настольные программы. Каждый экран аннотирован множеством естественно-языковых инструкций, точно указывающих на конкретные GUI-элементы, что позволяет проводить точную количественную оценку качества grounding. Базовые архитектуры для

Annotation:

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal...

ID: 2508.05615v1 cs.CV, cs.AI, cs.CL

arXiv PDF

1
2
3389
3390
3391
3392
3393
3402
3403

Показано 33901 - 33910 из 34022 записей