📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Harsh Nishant Lalai, Raj Sanjay Shah, Jiaxin Pei, Sashank Varma, Yi-Chia Wang, Ali Emami

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) проходят тщательную настройку для минимизации явных социальных и культурных предвзятостей. Однако, несмотря на эти усилия, в моделях сохраняются тонкие неявные искажения, корни которых уходят в данные, использованные при предобучении. Традиционный подход к выявлению таких искажений основан на прямом опросе моделей с помощью заранее подготовленных вопросов, что часто приводит к срабатыванию защитных механизмов и получению осторожных, политкорректных ответов. Этот метод ограничен тем, что не позволяет исследовать спонтанное поведение моделей в естественных условиях. Авторы статьи предлагают новый подход: вместо того чтобы задавать вопросы модели, они наблюдают, как модель сама формулирует вопросы для решения задачи дедукции. Для этого была выбрана игра в "20 вопросов" - мультитурнирная дедуктивная задача, где модель должна угадать задуманную сущность, задавая вопросы, на которые можно отвечать "да", "нет" или "не имеет значения". Эта игра идеально подходит для исследования, так как позволяет наблюдать, как модель сама инициирует и направляет процесс рассуждений. Особое внимание уделяется географическим различиям в способности моделей дедуцировать сущности из разных регионов мира. Существующие исследования сконцентрированы на англоязычном контенте и западноцентричном взгляде на мир, что может привести к систематическому занижению качества работы моделей с объектами из Глобального Юга и Востока. Это создает проблему справедливости и инклюзивности в применении ИИ систем на глобальном уровне. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического исследования географических различий авторы разработали новый датасет Geo20Q+, включающий 400 сущностей из разных регионов мира. Датасет содержит две категории объектов: 200 известных людей (политики, артисты, спортсмены, ученые) и 200 культурно значимых объектов (еды, достопримечательности, животные). Сущности распределены по 7 регионам: Северная Америка, Южная Америка, Европа, Африка, Ближний Восток, Азия и Австралия/Океания. Исследование охватывает 6 популярных LLM: GPT-4o, GPT-3.5-turbo, Claude-3-sonnet, Gemini-1.5-pro, Llama-3-70b и Mixtral-8x7b. Модели тестировались в двух конфигурациях игры: канонической версии с ограничением в 20 вопросов и версии с неограниченным количеством попыток. Эксперименты проводились на 7 языках: английском, хинди, китайском, японском, французском, испанском и турецком. Для проведения экспериментов была разработана автоматизированная система, где одна модель выступает ведущим (загадывает сущность), а другая - угадывающим. Угадывающая модель получает только категорию сущности (человек или объект) и должна сформулировать последовательность вопросов для дедукции правильного ответа. Ведущая модель отвечает на основе заранее подготовленных фактов о сущности. Авторы также проанализировали корреляцию между производительностью моделей и такими метриками, как количество просмотров страниц Википедии и частота упоминания в корпусе предобучения. Это позволило количественно оценить влияние представленности данных на качество дедукции. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты выявили значительные географические диспропорции в успешности дедукции сущностей. Модели демонстрируют существенно более высокую точность при угадывании объектов из Глобального Севера по сравнению с Глобальным Югом (разница до 35 процентных пунктов). Аналогичная тенденция наблюдается при сравнении Глобального Запада и Востока. Самые высокие показатели достигнуты для сущностей из Европы и Северной Америки, тогда как объекты из Африки и Южной Америки демонстрируют наихудшие результаты. Интересно, что язык взаимодействия оказал минимальное влияние на качество дедукции. Различия в точности между английским и другими языками составляли менее 5 процентных пунктов, что говорит о более глубоких, чем языковые барьеры, факторах, влияющих на производительность
Annotation:
Large Language Models (LLMs) have been extensively tuned to mitigate explicit biases, yet they often exhibit subtle implicit biases rooted in their pre-training data. Rather than directly probing LLMs with human-crafted questions that may trigger guardrails, we propose studying how models behave when they proactively ask questions themselves. The 20 Questions game, a multi-turn deduction task, serves as an ideal testbed for this purpose. We systematically evaluate geographic performance disparit...
ID: 2508.05525v1 cs.CL, cs.AI
Авторы:

Guang Yang, Xinyang Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Language Models (LLMs) достигли значительных успехов в задачах многовариантных ответов (Multiple-Choice Question Answering, MCQA), став мощным инструментом для решения широкого круга задач. Однако, несмотря на их продвинутые возможности, их неоднократно выявлялись проблемы, связанные с недостаточной надежностью. Такие недостатки, как генерация неточных или вымышленных фактов (hallucination) и чрезмерное уверенность в неверных ответах (overconfidence), препятствуют их применению в областях с высоким уровнем риска, где надежность и точность критически важны. Эти проблемы особенно остры в контексте "черного ящика" (black-box settings), когда внутренняя работа модели непонятна, и пользователи не могут оценить надежность предлагаемых ответов. Таким образом, необходимо разработать методы, которые позволят оценивать неопределенность (uncertainty quantification) в ответах моделей, обеспечивая высокую надежность даже в условиях, когда внутренний механизм модели недоступен для анализа. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод основанный на частотном анализе (frequency-based) и конформной прогнозирование (conformal prediction, CP). Здесь, для каждого вопроса, модель генерирует несколько независимых выборок ответов из своего распределения. Тогда, из всех этих выборок, выбирается тот, который встречается наиболее часто. Этот "наиболее частотный" ответ используется для вычисления предсказательной энтропии (Predictive Entropy, PE), которая служит мерой неопределенности. В отличие от традиционных методов, основанных на логитах (logit-based probabilities), этот подход не требует доступа к внутренним параметрам модели и может быть применен в "черном ящике". Этот метод также позволяет контролировать частоту ошибок (empirical miscoverage rate) в заданных уровнях риска, что делает его надежным инstrumentом для оценки неопределенности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования, эксперименты проводились на шести различных LLMs и четырех датасетах (MedMCQA, MedQA, MMLU, MMLU-Pro). Результаты показали, что частотный подход к оценке неопределенности (frequency-based PE) значительно превосходит логит-базированный подход (logit-based PE) в различении верных и неверных ответов, измеренном по метрике AUROC (Area Under the Receiver Operating Characteristic Curve). Кроме того, метод эффективно контролирует частоту ошибок (empirical miscoverage rate) в пределах заданных рисков, что подтверждает его надежность. Эти результаты демонстрируют, что частотный анализ может служить эффективным заменой логит-базированной вероятности в "черных ящиках". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где надежность ответов критична, таких как медицинская диагностика, финансовые консультации и юридические решения. Благодаря его способности обеспечить гарантии покрытия (coverage guarantees), этот метод может увеличить доверие к LLMs в практических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен distribution-free, model-agnostic фреймворк для надежной оценки неопределенности в MCQA, который может быть применен к любой модели в условиях "черного ящика". Будущие исследования могут фокусироваться на улучшении эффективности этого подхода и его адаптации для других доменов и задач.
Annotation:
Large Language Models (LLMs) have shown remarkable progress in multiple-choice question answering (MCQA), but their inherent unreliability, such as hallucination and overconfidence, limits their application in high-risk domains. To address this, we propose a frequency-based uncertainty quantification method under black-box settings, leveraging conformal prediction (CP) to ensure provable coverage guarantees. Our approach involves multiple independent samplings of the model's output distribution ...
ID: 2508.05544v1 cs.CL, cs.AI
Авторы:

Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации. Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний. Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа. На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных. Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций. Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,
Annotation:
Large language models (LLMs) have demonstrated remarkable capabilities for medical question answering and programming, but their potential for generating interpretable computable phenotypes (CPs) is under-explored. In this work, we investigate whether LLMs can generate accurate and concise CPs for six clinical phenotypes of varying complexity, which could be leveraged to enable scalable clinical decision support to improve care for patients with hypertension. In addition to evaluating zero-short...
ID: 2508.05581v1 cs.LG, cs.AI, cs.CL
Авторы:

Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) стали важной составляющей современных исследований в области искусственного интеллекта, особенно в задачах резонансного мышления. Однако улучшение их резонансных способностей часто зависит от использования reinforcement learning (RL), который представляет собой ключевую методологию в этой области. Два главных подхода к формированию вознаграждений (rewards) в RL — model-based rewards и rule-based rewards — имеют свои ограничения. Rule-based rewards, основанные на строгих правилах, не гарантируют достаточной робастности и адаптивности, что может привести к нестабильности в обучении. С другой стороны, model-based rewards, которые зависят от моделей для оценки результатов, часто сталкиваются с проблемой reward hacking, когда модель находит способы манипулировать системой вознаграждений, чтобы получать высокие баллы, не выполняя фактически задачи. Эти проблемы усугубляются отсутствием эффективных методов для генерации высококачественных данных для обучения моделей вознаграждений. Мотивацией данного исследования является необходимость разработки более эффективных и робастных методов для интеграции моделей вознаграждений в RL для LLMs. Авторы предлагают решение, основанное на совместном оптимизировании модели политики (policy model) и модели вознаграждений (reward model), чтобы устранить существующие недостатки и повысить эффективность RL в задачах резонансного мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк под названием **Cooper (Co-optimizing Policy Model and Reward Model)**, который сочетает в себе оптимизацию модели политики и модели вознаграждений в едином процессе. Основная идея Cooper заключается в том, чтобы использовать преимущества rule-based rewards для точной идентификации правильных ответов и динамически формировать наборы положительных и отрицательных примеров для дальнейшего обучения модели вознаграждений. Cooper использует **hybrid annotation strategy** для эффективной генерации данных, которые необходимы для обучения модели вознаграждений. Эта стратегия объединяет как автоматическую, так и ручною аннотацию, чтобы обеспечить высококачественные данные. Кроме того, авторы предлагают **reference-based reward modeling paradigm**, где модель вознаграждений использует ссылочный ответ (reference answer) в качестве входа для более точной оценки. В рамках этого фреймворка была разработана модель вознаграждений под названием **VerifyRM**, которая достигает высокой точности на наборе данных VerifyBench по сравнению с другими моделями того же размера. VerifyRM основана на ссылочном подходе и обеспечивает более надежную оценку качества ответов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности Cooper и модели VerifyRM. Эксперименты проводились на данных Qwen2.5-1.5B-Instruct, где Cooper показал значительное улучшение результатов по сравнению с базовыми подходами. В частности, использование Cooper привело к росту средней точности на 0.54%, что является существенным результатом в контексте задач резонансного мышления. Кроме того, VerifyRM также демонстрирует высокую точность на VerifyBench, превосходя другие модели вознаграждений того же размера. Эксперименты также показали, что динамическое обновление модели вознаграждений в рамках Cooper позволяет снизить риск reward hacking и повысить общую эффективность RL. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Cooper имеет значительное практическое применение в области резонансного мышления с использованием LLMs. Он позволяет улучшить надежность и эффективность RL, устраняя проблемы reward hacking и повышая качество обучения. Одним из ключевых преимуществ Cooper является его способность динамически обновлять модель вознаграждений, что обеспечивает более точную оценку и улучшает итоговые результаты RL. Это может быть применено в различных областях, где необходимо высококачественное резонансное мышление, таких как обработка естественного языка, автоматическое распознавание речи и другие прикладные задачи. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк Cooper, который сочетает оптимизацию модели политики и модели вознаграждений для улучшения результатов RL в задачах резонансного мышления. Авторы демонстрируют, что динамическое обновление модели вознаграждений является эффективным способом для борьбы с reward hacking и повышения эффективности RL. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры Cooper, включая разработку более эффективных стратегий аннотации и моделей вознаграждений. Кроме того, можно исследовать применение этого подхода к более широкому классу задач, включая мультимодальные системы и задачи, требующие высокой точности резонансного мышления.
Annotation:
Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Polic...
ID: 2508.05613v1 cs.CL, cs.AI
Авторы:

Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) продемонстрировали выдающиеся способности к абстрактному рассуждению в задачах математики, логики и общих знаний. Однако их потенциал в области воплощенного интеллекта (embodied intelligence), включающего физическое взаимодействие с окружающей средой, использование инструментов и координацию между множеством агентов, остается практически неизученным. Существующие бенчмарки для оценки воплощенного интеллекта страдают от фундаментальных ограничений: они либо предоставляют заранее определенные наборы инструментов, либо явно указывают стратегии совместной работы, что не отражает реальную сложность воплощенных задач. Ключевая проблема заключается в том, что реальные воплощенные задачи требуют от агентов динамического приобретения новых способностей и автономного определения стратегий координации на основе текущих потребностей задачи. Современные LLM ориентированы на обработку текстовой информации и не имеют встроенного механизма для моделирования непрерывных физических свойств, сложных пространственных отношений и динамических взаимодействий между объектами. Это создает значительный разрыв между теоретическими возможностями моделей и практическими требованиями воплощенных систем. Авторы статьи подчеркивают, что отсутствие комплексного бенчмарка, способного оценивать способность моделей к рассуждениям в условиях ограничений и неопределенности, затрудняет развитие воплощенного ИИ. Традиционные подходы к оценке фокусируются на конечных результатах, игнорируя процесс рассуждений и взаимодействие с ограничениями среды, что не позволяет выявить фундаментальные ограничения архитектуры современных LLM в контексте воплощенных задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем авторы разработали OmniEAR - комплексную платформу для оценки способности языковых моделей к рассуждениям о физических взаимодействиях, использовании инструментов и координации множества агентов в воплощенных задачах. В отличие от существующих решений, OmniEAR не предоставляет агентам заранее определенные наборы инструментов или явные инструкции для сотрудничества. Вместо этого система требует от агентов динамического приобретения необходимых способностей и автономного определения оптимальных стратегий координации на основе анализа текущей задачи и доступных ресурсов. Архитектура OmniEAR базируется на текстовом представлении окружающей среды, что позволяет моделировать непрерывные физические свойства объектов и сложные пространственные отношения без необходимости визуальной обработки. Платформа включает 1500 уникальных сценариев, охватывающих как бытовые, так и промышленные домены, каждый из которых специально разработан для тестирования конкретных аспектов воплощенного рассуждения. Сценарии разделены на три основные категории: задачи использования инструментов, задачи неявной координации и комбинированные задачи, требующие одновременного использования обоих навыков. Система оценивания реализует многоуровневый подход к измерению эффективности рассуждений. На первом уровне оценивается способность модели к идентификации релевантных ограничений среды и инструментов. На втором - качество планирования последовательности действий с учетом физических ограничений. На третьем - эффективность координации между множеством агентов в условиях частичной информации и неопределенности. Для каждого уровня разработаны специфические метрики качества, включающие как количественные показатели успешности, так и качественную оценку рациональности принятых решений. Экспериментальная методология включает сравнение производительности моделей при различных условиях предоставления информации: от полного доступа к состоянию среды до ограниченного наблюдения. Это позволяет выявить, как модели справляются с фильтрацией релевантной информации и принятием решений в условиях информационной перегрузки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания включала систематическую оценку производительности различных языковых моделей на всех 1500 сценариях OmniEAR. Основное внимание уделялось анализу спадов производительности при переходе от явных инструкций к неявным огран
Annotation:
Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordinatio...
ID: 2508.05614v1 cs.CL, cs.AI
Авторы:

Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные автономные агенты, взаимодействующие с графическими интерфейсами пользователя (GUI), сталкиваются с фундаментальной задачей GUI grounding — точного сопоставления естественно-языковых инструкций с конкретными координатами на экране. Эта задача является критически важной для создания универсальных систем автоматизации, способных выполнять сложные многошаговые операции в различных приложениях без предварительного программирования. Существующие подходы к решению проблемы GUI grounding можно условно разделить на две категории. Первая группа методов опирается на обшученное обучение с учителем, требующее масштабных датасетов с пиксельной аннотацией, где каждому GUI-элементу соответствует точная разметка координат. Такие подходы демонстрируют высокую точность, но сталкиваются с фундаментальным ограничением — стоимость и доступность качественной разметки растут экспоненциально с увеличением сложности интерфейсов и разнообразия приложений. Вторая группа методов использует обучение с подкреплением с механизмом вознаграждений, однако требует предварительно размеченных сигналов вознаграждения, что также создает узкое место в виде необходимости создания специализированных метрик эффективности. Ключевым наблюдением авторов статьи стало то, что современные модели, генерируя множественные предсказания для одного и того же GUI-элемента, демонстрируют определенные пространственные паттерны перекрытия. Эти паттерны неявно кодируют сигналы уверенности модели, которые могут быть использованы для более точной локализации без необходимости дополнительной разметки. Это наблюдение открывает принципиально новый путь повышения точности систем GUI grounding за счет использования внутренней структуры предсказаний модели, минуя этапы дорогостоящего аннотирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию, основанную на принципиально новой парадигме test-time scaling и test-time reinforcement learning для задачи GUI grounding. Первый компонент системы, GUI-RC (Region Consistency), представляет собой метод масштабирования во время тестирования, который конструирует пространственные сетки голосования на основе множественных семплированных предсказаний для идентификации консенсусных регионов. Архитектура GUI-RC работает следующим образом: для каждого входного изображения GUI и соответствующей языковой инструкции модель генерирует N независимых предсказаний координат целевого элемента. На основе этих предсказаний строится двумерная пространственная сетка, где каждая ячейка получает вес, пропорциональный количеству предсказаний, перекрывающих данную область. Регионы с максимальным перекрытием идентифицируются как области наибольшего консенсуса модели, что позволяет выбрать наиболее надежные координаты без дополнительного обучения. Второй компонент, GUI-RCPO (Region Consistency Policy Optimization), трансформирует паттерны консистентности в сигналы вознаграждения для тестового обучения с подкреплением. Данный метод вычисляет, насколько хорошо каждое индивидуальное предсказание согласуется с коллективным консенсусом, преобразуя это согласование в скалярную функцию вознаграждения. Используя эти само-консистентные сигналы, модель может итеративно уточнять свои выходные данные на неразмеченных данных в процессе инференса. Ключевым техническим новшеством является разработка алгоритма оптимизации политики, который работает исключительно во время тестирования, адаптируя параметры модели к конкретному экземпляру входных данных без градиентного обновления весов основной модели. Это достигается через мета-оптимизацию, где модель учится генерировать более консистентные предсказания для каждого конкретного случая использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на комплексном бенчмарке ScreenSpot, включающем две версии: ScreenSpot-v1 и ScreenSpot-v2. Датасет содержит более 1200 уникальных GUI-экранов из различных категорий приложений, включая веб-интерфейсы, мобильные приложения и настольные программы. Каждый экран аннотирован множеством естественно-языковых инструкций, точно указывающих на конкретные GUI-элементы, что позволяет проводить точную количественную оценку качества grounding. Базовые архитектуры для
Annotation:
Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal...
ID: 2508.05615v1 cs.CV, cs.AI, cs.CL
Авторы:

Brandon Jaipersaud, David Krueger, Ekdeep Singh Lubana

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено феномену убеждения человека крупными языковыми моделями (LLM), которое стало особенно актуальным с появлением моделей нового поколения, демонстрирующих репликуемую способность формировать мнения и влиять на поведение пользователей. Несмотря на рост практического применения таких систем в маркетинге, образовании, политике и психологии, научное сообщество до сих пор не обладает инструментами, позволяющими объективно оценить и детально объяснить механизмы, с помощью которых LLM добиваются убеждения. Традиционные подходы, опирающиеся на дорогостоящие методы с опросами пользователей или затратные промпт-эксперименты, не масштабируются и не дают динамической картины изменений в процессе многоходовых диалогов. Ключевой проблемой является отсутствие методов сплошного мониторинга внутренних представлений модели в ходе диалога, что делает невозможным определить момент перелома — мгновение, когда адресат фактически соглашается с аргументами LLM. Также неизвестно, насколько типология личности собеседника и выбор тактики убеждения отражаются в активациях нейросети в реальном времени. Отсутствие прозрачности не позволяет ни предотвращать вредоносное применение технологии, ни улучшать полезные сценарии, требующие этичного убеждения. Работа ставит целью заполнить этот пробел, предложив легковесный, но информативный способ изучения динамики убеждения в естественных многоходовых разговорах, где каждый ход может менять вероятность успеха и требует точечной диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы адаптировали линейные зонды (linear probes) — простейшие логистические регрессоры, обучаемые на замороженных активациях скрытых слоёв LLM — для количественной оценки трёх когнитивных компонентов убеждения: успешности убеждения (success), личностных характеристик собеседника (personality) и тактики убеждения (strategy). Идея состоит в том, что активации на любом слое содержат сжатую информацию, достаточную для линейного классификатора, чтобы предсказать целевую переменную. Процедура обучения включает два этапа. Сначала на фиксированном наборе диалогов вычисляются активации на промежуточных слоях модели (обычно на уровнях, близких к последнему слою энкодера или первому слою декодера). Затем для каждого слоя обучается отдельный зонд, минимизирующий кросс-энтропию между предсказанной меткой и истинной (например, «успех»/«неуспех»). Для надёжности авторы использовали k-fold кросс-валидацию и контролировали переобучение регуляризацией L2. Для задачи «success» метка формировалась на основе явного согласия пользователя или изменения его позиции в анкете до и после диалога. В задаче «personality» использовались психометрические шкалы Большой пятёрки (OCEAN), полученные из предварительного опроса участников. Метки «strategy» кодировались экспертами по 12-ти предопределённым категориям, включая апелляции к авторитету, эмоциональные ловушки, социальное доказательство и т. д. Особенность метода — возможность применять зонд к каждому токену или к усреднённым активациям целого хода, что позволяет отслеживать, в какой именно момент модель «осознаёт» успех убеждения или меняет тактику. В отличие от промптинга, зонды не требуют генерации новых текстов и работают на порядки быстрее, что критично для анализа крупных корпусов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: 1) 12 000 англоязычных диалогов, собранных на Amazon Mechanical Turk, где модель GPT-3.5-turbo убеждала людей поддержать конкретную политическую позицию; 2) 4 500 диалогов по продуктовому маркетингу в сети Reddit, где целью было склонить пользователя к покупке. Для каждого диалога был доступен полный лог реплик, временные метки и метаданные собеседника. Базовым сравнением служил zero-shot промптинг с инструкцией «Определи, было ли достигнуто согласие» и few-shot цепочка мыслей с 5 примерами. Зонды обучались на
Annotation:
Large Language Models (LLMs) have started to demonstrate the ability to persuade humans, yet our understanding of how this dynamic transpires is limited. Recent work has used linear probes, lightweight tools for analyzing model representations, to study various LLM skills such as the ability to model user sentiment and political perspective. Motivated by this, we apply probes to study persuasion dynamics in natural, multi-turn conversations. We leverage insights from cognitive science to train p...
ID: 2508.05625v1 cs.CL, cs.AI, cs.LG
Авторы:

Mehrdad Zakershahrak, Samira Ghodratnama

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области языковых моделей (LM) на байтовом уровне существует серьезная проблема, связанная с обработкой языков с богатой морфологией (MRLs). Традиционные модели, основанные на байтовых последовательностях, сталкиваются с высокой вычислительной сложностью, так как слова в таких языках часто занимают большое количество байтов. Кроме того, сложность увеличивается из-за необходимости обрабатывать характеристики морфологии, такие как сложные словоформы и артефакты, например, неразрывные пробелы (ZWNJ) в персидском языке. Существующие решения, такие как BPE-based GPT-2-fa, используют предварительную токенизацию, что приводит к жесткой структуре и ухудшению адаптации к динамически изменяющимся структурам текста. Таким образом, необходимо разработать модель, способную обрабатывать морфологические особенности MRLs без токенизации, сохраняя при этом высокую эффективность вычислений. Данная проблематика мотивирует поиск новых подходов к морфологическому анализу и динамической сегментации последовательностей, которые могут улучшить качество модели, особенно на задачах, требующих высокой точности и робастности к шумам в данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД H-NET++ предлагает инновационный подход к моделированию языков без токенизации, основанный на иерархическом динамическом чанкинге (segmentation). Основные компоненты модели включают: 1. **Легковесный Transformer-контекстный миксер (1.9M параметров)**: этот модуль обеспечивает эффективное взаимодействие между чанками (подпоследовательностями), позволяя модели учитывать контекст на различных уровнях. 2. **Двухуровневая латентная гиперприора (two-level latent hyper-prior)**: этот механизм поддерживает согласованность на уровне документа, что критично для обработки длинных текстовых последовательностей. 3. **Специализированная обработка ортографических артефактов**: модель учитывает специфические особенности персидского языка, такие как ZWNJ, что повышает робастность модели к потенциальным коррупциям в данных. 4. **Куррикулум-басисное обучение (curriculum-based training)**: обучение проводится поэтапно с постепенным увеличением длины последовательностей, что позволяет модели эффективнее адаптироваться к сложности задач. Архитектура H-NET++ построена таким образом, чтобы учитывать морфологические границы без явного наложения супервизии, что демонстрирует возможность извлечения лексических единиц на основе динамического анализа. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на корпусе из 1.4 миллиардов токенов персидского языка. H-NET++ достигла значительных улучшений по сравнению с BPE-based GPT-2-fa: - **Снижение BPB (Bits Per Byte)**: на 0.159 BPB (12% лучшая степень сжатия). - **Повышение результатов на ParsGLUE**: на 5.4 процентных пункта. - **Улучшение робастности**: модель показала 53% выше устойчивости к коррупции ZWNJ. - **Точность морфологического анализа**: F1-мера достигла 73.8% на золотых границах морфологии. Полученные результаты показывают, что H-NET++ эффективно адаптируется к морфологической структуре языка, не требуя явной токенизации, и обеспечивает высокую эффективность вычислений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ H-NET++ открывает новые возможности для обработки MRLs в различных приложениях, таких как машинный перевод, анализ текста и поиск информации. Благодаря ее способности обрабатывать морфологические особенности естественного языка без необходимости токенизации, модель может быть использована в задачах, требующих высокой точности и адаптивности к контексту. Кроме того, легковесная архитектура и высокая эффективность вычислений делают H-NET++ приемлемой для развертывания в ресурсоемких средах, где важна быстрая обработка больших объемов текста. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ H-NET++ представляет собой эффективное решение для моделирования языков без токенизации, особенно в MRLs. Ее иерархический динамический чанкинг позволяет обеспечить высокую точность и робастность, одновременно сохраняя вычислительную эффективность. Будущие исследования могут фокусироваться на расширении данного подхода на другие MRLs, а также на интеграции дополнительных механизмов для улучшения интерпретируемости и адаптации модели к нестандартным контекстам.
Annotation:
Byte-level language models eliminate fragile tokenizers but face computational challenges in morphologically-rich languages (MRLs), where words span many bytes. We propose H-NET++, a hierarchical dynamic-chunking model that learns linguistically-informed segmentation through end-to-end training. Key innovations include: (1) a lightweight Transformer context-mixer (1.9M parameters) for cross-chunk attention, (2) a two-level latent hyper-prior for document-level consistency, (3) specialized handli...
ID: 2508.05628v1 cs.CL, cs.AI
Авторы:

Zhuang Chen, Guanqun Bi, Wen Zhang, Jiawei Hu, Aoyun Wang, Xiyao Xiao, Kun Feng, Minlie Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Депрессия представляет собой одно из наиболее распространенных психических расстройств, затрагивающее миллионы людей по всему миру и оказывающее значительное влияние на качество жизни, социальную адаптацию и экономическое благополучие общества. Несмотря на активное развитие методов автоматической диагностики психических расстройств, современные исследования в области автоматизированной оценки депрессии сталкиваются с рядом критических проблем. Во-первых, большинство существующих работ опираются на ограниченные или непроверенные клиническим сообществом наборы данных, что подрывает достоверность и обобщаемость получаемых результатов. Во-вторых, исследователи часто делают акцент на разработке сложных моделей машинного обучения, жертвуя при этом клинической значимостью и практической применимостью в реальных условиях медицинской практики. Существующий разрыв между академическими исследованиями и клинической реальностью проявляется в отсутствии стандартизированных протоколов диагностики, недостаточной валидации методов на репрезентативных когортах пациентов и ограниченном использовании мультимодальных данных, которые могут отражать комплексную картину психического состояния пациента. Традиционные подходы часто игнорируют важность поведенческих маркеров, которые могут быть выявлены через структурированные клинические задания, а также недооценивают роль экспертного клинического заключения в процессе формирования диагноза. Эти проблемы требуют комплексного решения, включающего создание достоверных клинических наборов данных, разработку методов, учитывающих специфику психиатрического диагностического процесса, и переосмысление роли искусственного интеллекта в контексте клинического мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют C-MIND — инновационный клинический нейропсихиатрический мультимодальный диагностический набор данных, собранный в течение двух лет в условиях реальных стационарных обращений. Каждый участник проходил три структурированных психиатрических задания, разработанных для выявления специфических поведенческих паттернов, связанных с депрессией. В процессе выполнения заданий фиксировались аудио- и видеосигналы, создавались расшифровки речи, а также регистрировались данные функциональной ближней инфракрасной спектроскопии (fNIRS), позволяющие оценить активность префронтальной коры мозга. Финальный диагноз каждого пациента формировался коллективом экспертов-клиницистов на основе полного клинического обследования. Методология исследования включает несколько этапов. На первом этапе проводится глубокий анализ поведенческих маркеров, релевантных для диагностики депрессии, включая особенности речевой продукции, мимические выражения, двигательную активность и паттерны межличностного взаимодействия. На втором этапе исследуется вклад различных модальностей данных в общую диагностическую точность путем обучения и сравнения классических моделей машинного обучения на отдельных и комбинированных наборах признаков. Третий этап посвящен изучению способности больших языковых моделей (LLM) воспроизводить логику психиатрического рассуждения, характерную для клинической практики. Для преодоления выявленных ограничений авторы разрабатывают метод направленного клиническим знанием обучения, который интегрирует экспертные знания в процесс рассуждения LLM, обеспечивая более точную и клинически обоснованную диагностику. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования была проведена на основе C-MIND набора данных, включающего данные, собранные в течение двух лет в клинических условиях. В исследовании участвовали пациенты, проходившие диагностическое обследование в стационарных условиях, с подтвержденным диагнозом депрессии или отсутствием такового после полного клинического обследования. Каждый участник выполнял три структурированных психиатрических задания, специально разработанных для активации специфических поведенческих паттернов, связанных с депрессивными расстройствами. В процессе выполнения заданий регистрировались мультимодальные данные: аудиозаписи речи, видеозаписи поведения, расшифровки вербального контента и дан
Annotation:
Depression is a widespread mental disorder that affects millions worldwide. While automated depression assessment shows promise, most studies rely on limited or non-clinically validated data, and often prioritize complex model design over real-world effectiveness. In this paper, we aim to unveil the landscape of clinical depression assessment. We introduce C-MIND, a clinical neuropsychiatric multimodal diagnosis dataset collected over two years from real hospital visits. Each participant complet...
ID: 2508.04531v1 cs.CL, cs.AI
Авторы:

Nuo Chen, Yicheng Tong, Jiaying Wu, Minh Duc Duong, Qian Wang, Qingyun Zou, Bryan Hooi, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация научных идей является фундаментальной задачей в процессе исследовательской деятельности, определяющей направление развития науки и технологий. Современные системы искусственного интеллекта демонстрируют растущий потенциал в автоматизированной генерации научных концепций, однако большинство существующих фреймворков ограничиваются использованием одиночных агентов, работающих в изоляции. Такой подход сталкивается с фундаментальными ограничениями, связанными с ограниченностью знаний и перспектив отдельного агента, что приводит к снижению креативности и инновационности предлагаемых идей. В реальном научном процессе прорывные идеи редко возникают в результате индивидуального размышления. Напротив, они формируются в ходе коллаборативных обсуждений между учеными с различным опытом, экспертизой и точками зрения. Эта социальная природа научного творчества остаётся недостаточно исследованной в контексте разработки систем ИИ для генерации научных идей. Существующие исследования фокусируются преимущественно на улучшении способностей отдельных агентов, в то время как коллективная динамика и структурные аспекты командной работы остаются вне поля зрения. Ключевой проблемой является отсутствие систематического понимания того, как различные параметры многоагентного взаимодействия влияют на качество генерируемых научных предложений. Вопросы оптимального размера команды, наличия или отсутствия лидерства, уровня междисциплинарности и сочетания опыта участников остаются открытыми. Без такого понимания разработка эффективных систем ИИ для научной генерации идей будет продолжать полагаться на интуитивные и эмпирические подходы, а не на строгое научное обоснование. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают кооперативный многоагентный фреймворк, специально разработанный для генерации научных исследовательских предложений. Система построена на принципах структурированного взаимодействия между агентами, каждый из которых представляет собой языковую модель с определённым набором характеристик и экспертизой. Архитектура фреймворка включает несколько ключевых компонентов, обеспечивающих эффективную коллаборацию. Первым компонентом является механизм назначения ролей, где каждый агент получает чётко определённую персону с уникальной комбинацией опыта (младший/старший исследователь) и дисциплинарной принадлежности (биология, информатика, физика и др.). Это позволяет моделировать различные конфигурации команд, включая однородные и гетерогенные составы. Вторым важным элементом является система управления дискуссией, которая может функционировать как в лидерском режиме (с назначенным лидером-агентом), так и в безлидерском формате. Процесс генерации идей происходит в несколько этапов. На начальном этапе агенты независимо генерируют предварительные идеи на основе общей тематики. Затем следует фаза структурированной дискуссии, где агенты обмениваются мнениями, критикуют идеи друг друга и предлагают улучшения. В лидерской конфигурации лидер-агент координирует обсуждение, направляет внимание команды на ключевые аспекты и интегрирует предложения в единое целостное предложение. В безлидерской конфигурации используется консенсусный подход с автоматическим обнаружением и разрешением конфликтов. Для оценки качества генерируемых идей разработан комплексный протокол, включающий как автоматизированную, так и человеческую оценку. Автоматизированная система использует специально обученных агентов-оценщиков, которые анализируют предложения по нескольким измерениям: новизна, стратегическое видение, глубина интеграции концепций, практическая применимость и теоретическая обоснованность. Человеческая экспертиза привлекается для валидации результатов автоматической оценки и обеспечения научной достоверности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала систематическое сравнение различных конфигураций многоагентных систем с одиночными агентами-базовыми линиями. Всего было протестировано более 30 различных конфигураций, варьирующихся по размеру команды (от
Annotation:
While AI agents show potential in scientific ideation, most existing frameworks rely on single-agent refinement, limiting creativity due to bounded knowledge and perspective. Inspired by real-world research dynamics, this paper investigates whether structured multi-agent discussions can surpass solitary ideation. We propose a cooperative multi-agent framework for generating research proposals and systematically compare configurations including group size, leaderled versus leaderless structures, ...
ID: 2508.04575v1 cs.CL, cs.AI, cs.CY
Показано 7471 - 7480 из 7506 записей