📚 Саммари научных статей из arXiv

Найдено 7506 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History

2025-08-09

Авторы:

Tommaso Tosato, Saskia Helbling, Yorguin-Jose Mantilla-Ramos, Mahmood Hegazy, Alberto Tosato, David John Lemay, Irina Rish, Guillaume Dumas

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие больших языковых моделей (LLM) сталкивается с фундаментальной проблемой предсказуемости и стабильности поведения систем искусственного интеллекта. В контексте стремительного внедрения LLM в критически важные области - от медицинской диагностики до финансового консультирования и образовательных платформ - последовательность поведения становится не просто технической характеристикой, а фактором общественной безопасности. Однако понимание "личностных" характеристик этих моделей остаётся крайне ограниченным, что создаёт риск непредсказуемых последствий при масштабном развертывании. Существующие подходы к оценке поведения LLM фокусируются преимущественно на задачах классификации или генерации текста, упуская фундаментальный аспект стабильности личностных проявлений. Традиционные психологические инструменты, такие как Big Five Inventory (BFI-44) и Short Dark Triad (SD3), были разработаны для измерения стабильных черт личности у человека, но их применимость к искусственным системам вызывает серьёзные сомнения. Более того, предполагается, что модели большего масштаба должны демонстрировать более стабильное поведение благодаря большей "объёмности" знаний, однако эмпирическое подтверждение этой гипотезы отсутствует. Критической проблемой является отсутствие систематической методологии для оценки стабильности личностных характеристик LLM в различных условиях. Исследователи не располагают данными о том, насколько мелкие изменения в формулировках запросов, порядке вопросов или контексте взаимодействия влияют на измеряемые "личностные" характеристики моделей. Это создаёт потенциальный риск для разработчиков и пользователей, которые могут полагаться на кажущуюся стабильность поведения системы, не осознавая её чувствительности к тривиальным изменениям входных данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали комплексную оценочную рамку PERSIST (PERsonality Stability in Synthetic Text), которая представляет собой многомерный аналитический комплекс для систематического изучения стабильности личностных измерений в LLM. Рамка охватывает более 25 открытых моделей с количеством параметров от 1 до 671 миллиарда, что позволяет провести масштабный анализ зависимости стабильности от размера модели. В рамках исследования было собрано более 500,000 ответов моделей, что обеспечивает статистическую значимость полученных результатов. Методология включает два типа инструментов для измерения личностных характеристик: традиционные психологические шкалы (BFI-44 для оценки "Большой пятёрки" и SD3 для измерения "тёмной триады" личности) и специально адаптированные для LLM инструменты. Это двойное применение позволило исследовать гипотезу о том, что нестабильность может быть вызвана несоответствием человекоцентричных инструментов особенностям искусственных систем. Систематическое варьирование параметров включало четыре ключевых фактора: порядок вопросов, парафразирование формулировок, задание конкретных персон модели, и режимы рассуждений (включая chain-of-thought подход). Каждый фактор тестировался в изоляции и в комбинациях для выявления синергетических эффектов. Особое внимание уделялось влиянию истории предыдущих взаимодействий на текущие измерения, что имитирует реальные сценарии использования, где модели работают в контексте продолжительных диалогов. Аналитический аппарат включал статистические методы оценки вариативности ответов, корреляционный анализ между различными условиями тестирования, и разработку метрик для количественной оценки стабильности. Для каждой модели и условия рассчитывались стандартные отклонения показателей личности, коэффициенты корреляции между повторными измерениями, и индекс чувствительности к изменениям входных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов продемонстрировали удивительно высокий уровень вариативности в личностных измерениях даже у самых крупных моделей. Модели с 400+ миллиардами параметров показывали стандартное отклонение показателей личности более 0.4 по шкале от 0 до 1, что указывает на существенную нестабильность. Это опровергает распространённое представление о том, что увеличение размера модели автоматически приводит к более предсказу

Annotation:

Large language models require consistent behavioral patterns for safe deployment, yet their personality-like traits remain poorly understood. We present PERSIST (PERsonality Stability in Synthetic Text), a comprehensive evaluation framework testing 25+ open-source models (1B-671B parameters) across 500,000+ responses. Using traditional (BFI-44, SD3) and novel LLM-adapted personality instruments, we systematically vary question order, paraphrasing, personas, and reasoning modes. Our findings chal...

ID: 2508.04826v1 cs.CL, cs.AI

arXiv PDF

📄 Fine-Tuning Small Language Models (SLMs) for Autonomous Web-based Geographical Information Systems (AWebGIS)

2025-08-09

Авторы:

Mahdi Nazari Ashani, Ali Asghar Alesheikh, Saba Kazemi, Kimya Kheirkhah, Yasin Mohammadi, Fatemeh Rezaie, Amir Mahdi Manafi, Hedieh Zarkesh

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные веб-ориентированные географические информационные системы (WebGIS) стремятся к максимальной автоматизации и упрощению взаимодействия с пользователем. Традиционные интерфейсы WebGIS требуют от пользователя знания специализированных инструментов и терминологии, что существенно ограничивает доступность систем для широкой аудитории. В ответ на эту проблему развивается новое направление — автономные веб-ориентированные географические информационные системы (AWebGIS), способные выполнять геопространственные операции на основе естественно-языковых запросов. Основная проблема, стоящая перед разработчиками AWebGIS, заключается в необходимости обеспечить точное понимание и исполнение сложных пространственных запросов в условиях ограниченных вычислительных ресурсов. Большинство современных решений полагаются на облачные большие языковые модели (LLM), которые, несмотря на высокую точность, имеют ряд критических недостатков. Во-первых, они требуют постоянного подключения к интернету, что делает невозможным работу в офлайн-режиме. Во-вторых, централизованная обработка на серверах создает серьезные проблемы масштабируемости при увеличении числа пользователей. В-третьих, передача персональных данных и геолокационной информации в облако вызывает обоснованные опасения относительно конфиденциальности пользователей. Существующие offline-решения, основанные на классических алгоритмах машинного обучения, демонстрируют недостаточную точность интерпретации сложных пространственных запросов и не способны адаптироваться к новым типам задач без переобучения. Это создает технологический разрыв между потребностями пользователей в интуитивном и приватном взаимодействии с геоинформационными системами и возможностями существующих технологий. Необходимость разработки эффективного решения, способного работать локально без потери функциональности и точности, стала ключевым мотиватором проведенного исследования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают революционный подход к созданию AWebGIS, основанный на использовании мелких языковых моделей (SLM), специально обученных для обработки геопространственных запросов в браузерной среде. В качестве базовой модели выбран T5-small — компактная версия архитектуры Text-to-Text Transfer Transformer, отличающаяся оптимальным соотношением между размером модели (60 миллионов параметров) и качеством обработки естественного языка. Процесс fine-tuning включал несколько этапов. На первом этапе был создан обширный датасет из 50 тысяч примеров естественно-языковых запросов и соответствующих им пространственных операций на языке SQL-геозапросов. Датасет охватывал разнообразные типы операций: фильтрацию по местоположению, расчет расстояний, определение пересечений, буферизацию, пространственные соединения и агрегацию данных. Каждый пример прошел ручную валидацию экспертами в области ГИС для исключения ошибок и неоднозначностей. На втором этапе модель была адаптирована под специфику геопространственного домена через технику instruction tuning. Добавлены специальные токены для обозначения типов геометрий (точка, линия, полигон), координатных систем и пространственных отношений. Архитектура модели была модифицирована для работы в браузерной среде через WebAssembly и TensorFlow.js. Для оптимизации производительности применены техники квантования (8-битное целочисленное представление весов) и последовательного выполнения операций для минимизации использования оперативной памяти. Третий этап включал интеграцию скриптов пред-обработки запросов для нормализации географических названий через локальный геокодер и обработку неоднозначностей в запросах. Модель также обучена генерировать не только SQL-запросы, но и метаданные о типе ожидаемого результата (карта, таблица, график), что позволяет системе автоматически выбирать оптимальный способ визуализации данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода была разработана комплексная экспериментальная методология, включающая сравнение трех подходов к реализации AWebGIS. Первый подход представлял собой полностью автоматизированную онлайн-систему с использованием облачной LLM Cohere Command. Второй подход использовал офлайн-классификаторы на основе SVM и Random Forest для отображения естественно-языковых запросов в пространствен

Annotation:

Autonomous web-based geographical information systems (AWebGIS) aim to perform geospatial operations from natural language input, providing intuitive, intelligent, and hands-free interaction. However, most current solutions rely on cloud-based large language models (LLMs), which require continuous internet access and raise users' privacy and scalability issues due to centralized server processing. This study compares three approaches to enabling AWebGIS: (1) a fully-automated online method using...

ID: 2508.04846v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

2025-08-09

Авторы:

Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Multi-agent large language model (LLM) systems представляют собой мощное средство для решения сложных задач резонуирования и коллаборативного принятия решений. Однако существующие подходы к координации таких систем характеризуются рядом недостатков. Традиционные схемы маршрутизации контекста, такие как статические или полнотекстовые стратегии, часто приводят к избыточному потреблению токенов, излишнему обращению к памяти и ограниченной адаптивности в рамках различных этапов взаимодействия. Эти проблемы усугубляются тем, что современные LLMs требовательны к вычислительным ресурсам, а неэффективное использование контекста может привести к существенным накладным расходам. Дополнительной проблемой является отсутствие механизмов динамической адаптации контекста к конкретной роли или задаче, что может приводить к потере релевантности информации в процессе взаимодействия агентов. Также, существующие метрики оценки качества ответов часто ограничиваются простыми мерами точности (QA accuracy), не учитывая более глубокие аспекты генерируемых объяснений. Таким образом, необходим новый подход, который обеспечивал бы эффективную, адаптивную и ресурсоэкономичную координацию в мульти-агентных системах LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД RCR-Router представляет собой инновационный модульный фреймворк для контекстной маршрутизации в мульти-агентных системах LLMs. Он основывается на концепции ролево-ориентированного контекстного роутинга, где для каждого агента динамически выбирается релевантный подмножество памяти в зависимости от его роли и текущего этапа задачи. Это позволяет сократить количество обрабатываемых токенов, сохраняя при этом высокое качество ответов. Ключевым элементом RCR-Router является легковесная скоринговая политика, которая определяет релевантность памяти для каждого агента. Помимо этого, выходные данные агентов интегрируются в общую память в процессе итеративного обращения, что позволяет достичь прогрессивного уточнения контекста. Этот подход не только сокращает избыточность, но также повышает адаптивность системы в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RCR-Router проведены эксперименты на трех бенчмарках мульти-хоп QA: HotPotQA, MuSiQue и 2WikiMultihop. Результаты демонстрируют значительное сокращение потребления токенов (до 30%) без ухудшения, и в некоторых случаях даже с улучшением, качества ответов. Благодаря динамическому контекстному роутингу, система показывает высокую эффективность в использовании ресурсов, особенно в сравнении со статическими методами. Для более глубокого анализа была также предложена метрика Answer Quality Score, которая учитывает качество генерируемых объяснений в дополнение к стандартной мере точности. Это позволяет более полно оценить вклад системы в решение сложных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RCR-Router открывает новые возможности для применения мульти-агентных LLMs в областях, требующих высокоэффективное использование вычислительных ресурсов. Он может быть использован в таких сферах, как сложные системы рекомендаций, интеллектуальные поисковые системы и автоматизированные системы поддержки принятия решений. Преимущества этого метода заключаются в его способности адаптироваться к конкретным задачам и ролям агентов, что повышает эффективность взаимодействия и сокращает излишние расходы. Также, предложенная метрика Answer Quality Score может стать важным инструментом для оценки качества решений в будущих системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RCR-Router является первым шагом к созданию более эффективных и адаптивных мульти-агентных систем на основе LLMs. Будущие исследования могут фокусироваться на дальнейшем улучшении механизмов контекстного роутинга, расширении области применения и интеграции с другими модулями для повышения общей производительности. Также, развитие метрик оценки качества, основанных на объяснениях, может стать ключевым направлением в будущем.

Annotation:

Multi-agent large language model (LLM) systems have shown strong potential in complex reasoning and collaborative decision-making tasks. However, most existing coordination schemes rely on static or full-context routing strategies, which lead to excessive token consumption, redundant memory exposure, and limited adaptability across interaction rounds. We introduce RCR-Router, a modular and role-aware context routing framework designed to enable efficient, adaptive collaboration in multi-agent LL...

ID: 2508.04903v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 ConfAgents: A Conformal-Guided Multi-Agent Framework for Cost-Efficient Medical Diagnosis

2025-08-09

Авторы:

Huiya Zhao, Yinghao Zhu, Zixiang Wang, Yasha Wang, Junyi Gao, Liantao Ma

```yaml ## КОНТЕКСТ И ПРОБЛЕМАТИКА Искусственные интеллектуальные (ИИ) агенты в области здравоохранения обладают большим потенциалом для улучшения диагностики и лечения. Однако существующие решения характеризуются существенными ограничениями. Традиционные ИИ-агенты работают на основе статичных, предопределённых стратегий, что ограничивает их способность адаптироваться к сложным, непредвиденным ситуациям. Это приводит к тому, что агенты могут эффективно использовать инструменты, но не могут развивать стратегическое мышление, необходимое для решения сложных задач в области здравоохранения. Проблематика заключается в том, что современные фреймворки ИИ недостаточно адаптивны для динамических и сложных сред, таких как клинические исследования и обработка электронных медицинских карт (ЭМК). Это ограничение становится критичным в контексте решения задач, требующих высокого уровня автономии и адаптивности. Таким образом, необходимо разработать методологии, позволяющие ИИ-агентам не только улучшать свои навыки взаимодействия с инструментами, но и развивать высокоуровневые стратегические навыки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлен HealthFlow, фреймворк, основанный на концепции конформально-ориентированного управления множеством агентов (ConfAgents). HealthFlow предлагает новую методологию, которая позволяет агентам развиваться самостоятельно на мета-уровне. Это достигается за счёт механизма мета-эволюции, который позволяет агентам анализировать свои собственные успехи и неудачи в решении задач, формируя на их основе прочную стратегическую базу знаний. Архитектура HealthFlow включает в себя несколько ключевых компонентов: 1. **Мета-уровень эволюции**: Агенты используют мета-оптимизацию для адаптации своих стратегий на основе прошлых опытов. 2. **Динамическая адаптация**: Агенты могут модифицировать свои поведенческие модели в реальном времени, основываясь на новых данных и обратной связи. 3. **Интеграция с клиническими данными**: Фреймворк предназначен для работы с реальными клиническими данными, включая данные из электронных медицинских карт. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности HealthFlow авторы разработали новый бенчмарк под названием EHRFlowBench. Этот бенчмарк содержит реалистичные клинические задачи, основанные на данных из пиер-ревьюированных исследований. Эксперименты показали, что HealthFlow значительно превосходит современные фреймворки ИИ в сложных задачах анализа клинических данных. Ключевые результаты: - **Превосходство в стратегическом планировании**: HealthFlow достигает высокого уровня автономии и эффективности в решении сложных клинических задач. - **Адаптивность и самостоятельное обучение**: Агенты, основанные на HealthFlow, показали значительно более высокие показатели адаптивности по сравнению с традиционными подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр применений в области здравоохранения. HealthFlow может быть использован для: - **Оптимизации диагностики**: Автоматизация процесса диагностики на основе данных ЭМК. - **Персонализация лечения**: Адаптация лечебных стратегий к конкретным пациентам на основе их медицинской истории. - **Улучшение исследовательских процессов**: Автоматизация анализа данных в клинических исследованиях, что позволяет ускорить процесс научных открытий. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HealthFlow является пионерским фреймворком, который сдвигает фокус с создания ИИ-агентов-инструментов на разработку самостоятельно эволюционирующих систем. Это открывает новые возможности для автономных и эффективных решений в области здравоохранения. Будущие исследования могут фокусироваться на дальнейшей оптимизации методологии мета-эволюции и расширении области применения HealthFlow в других сферах медицинских исследований. ```

Annotation:

The efficacy of AI agents in healthcare research is hindered by their reliance on static, predefined strategies. This creates a critical limitation: agents can become better tool-users but cannot learn to become better strategic planners, a crucial skill for complex domains like healthcare. We introduce HealthFlow, a self-evolving AI agent that overcomes this limitation through a novel meta-level evolution mechanism. HealthFlow autonomously refines its own high-level problem-solving policies by ...

ID: 2508.04915v1 cs.AI, cs.CL, cs.MA

arXiv PDF

📄 Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

2025-08-09

Авторы:

Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальная распознавательная система для распознавания действий является важной областью исследований в области компьютерного зрения и языковых технологий. Однако, оценка эффективности таких систем сталкивается с некоторыми проблемами, связанными с неоднозначностью семантики глаголов и разнообразием точек зрения на изображения. Например, одно и то же действие может быть описано разными синонимичными глаголами (например, "brushing" и "grooming") или может иметь различные описания в зависимости от контекста (например, "piloting" vs. "operating"). Традиционные методы оценки, основанные на точном совпадении с единственным "золотым" ответом, не могут учитывать эту неоднозначность, что приводит к неполной и неточной оценке производительности моделей. Данная проблематика становится особенно актуальной при работе с большими наборами данных, где изображения могут быть интерпретированы по-разному в зависимости от контекста или цели. Таким образом, необходимо разработать более гибкий и точный метод оценки, который учитывал бы различные толкования действий и обеспечил бы более корректную оценку моделей распознавания действий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать визуально-языковой кластеринговый фреймворк для решения проблемы неоднозначности семантики глаголов. Этот фреймворк построен на основе создания кластеров смыслов (sense clusters) для глаголов, которые представляют различные интерпретации действий. Каждый кластер соответствует определенному перспективному виду на действие, который может быть выражен разными глаголами. Метод включает в себя анализ набора данных imSitu, где для каждого изображения определяется среднее количество кластеров, соответствующих разным интерпретациям. Например, для одного изображения может быть определено 2,8 кластера, каждый из которых представляет отдельный взгляд на действие. Авторы также проводят сравнение различных моделей распознавания действий, используя кластеризацию смыслов в качестве более точного метода оценки, по сравнению с традиционными подходами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на базе данных imSitu. Результаты показали, что каждое изображение может быть описано с помощью нескольких кластеров, что подтверждает наличие неоднозначности в интерпретации действий. Авторы также провели сравнение результатов различных моделей распознавания действий, используя как традиционный подход, так и кластеризацию смыслов. Результаты показали, что кластеризация смыслов лучше согласуется с человеческим суждением, что делает этот подход более точным и надежным. Кроме того, авторы провели анализ выравнивания моделей с человеческим опытом, который показал, что кластеризация смыслов лучше отражает различные точки зрения на действия, чем традиционные методы оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод кластеризации смыслов имеет широкое применение в области распознавания действий, особенно в ситуациях, где необходимо учитывать неоднозначность семантики. Этот подход может быть использован в различных приложениях, таких как распознавание действий в реальном времени, автоматическая аннотация изображений, а также в системах поддержки принятия решений, где точное понимание контекста играет ключевую роль. Преимуществом данного подхода является его способность учитывать различные перспективы и толкования действий, что позволяет получить более точную и контекстуальную оценку. Это может привести к улучшению качества распознавания действий и увеличению доверия к таким системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предложенный метод кластеризации смыслов для глаголов предлагает более гибкий и точный способ оценки моделей распознавания действий. Этот подход не только улучшает точность оценки, но также лучше согласуется с человеческим суждением. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода, включая расширение его применения на другие наборы данных и доработку алгоритмов кластеризации для еще более точного анализа. Также, можно рассмотреть возможность использования этого подхода в сочетании с другими методами оценки, такими как нейронные сети и глубокое обучение, для создания еще более надежных и точных систем распознавания действий.

Annotation:

Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessme...

ID: 2508.04945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 A Multi-Stage Large Language Model Framework for Extracting Suicide-Related Social Determinants of Health

2025-08-09

Авторы:

Song Wang, Yishu Wei, Haotian Ma, Max Lovitt, Kelly Deng, Yuan Meng, Zihan Xu, Jingze Zhang, Yunyu Xiao, Ying Ding, Xuhai Xu, Joydeep Ghosh, Yifan Peng

## КОНТЕКСТ И ПРОБЛЕМАТИКА Раскрытие социальных детерминантов здоровья (SDoH), связанных с суицидальностью, является ключевым для ранней идентификации рисков и разработки эффективных программ профилактики. SDoH включают в себя широкий спектр факторов, таких как социально-экономические условия, доступность медицинских услуг, социальные поддерживающие сети и психологические условия, которые могут существенно повлиять на риск суицидального поведения. Однако исследования в этой области сталкиваются с рядом проблем. Во-первых, распределение SDoH-факторов характеризуется длиннохвостым распределением, где некоторые факторы являются редкими, но крайне важными. Это создает сложности для традиционных моделей, которые часто не могут эффективно обрабатывать редкие факторы. Во-вторых, анализ ключевых стрессоров, которые предшествуют суицидальным инцидентам, представляет собой трудную задачу из-за неструктурированности данных, таких как клинические записи, социальные медиа-посты и другие текстовые источники. Наконец, проблема объяснимости моделей остается критической, так как для эффективного применения необходимо, чтобы результаты модели были интерпретируемыми и понятными для клиницистов и исследователей. Целью данного исследования является разработка эффективного подхода для извлечения SDoH-факторов из неструктурированных текстов, с целью улучшения точности, эффективности и объяснимости таких моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают многоступенчатый фреймворк на основе больших языковых моделей (LLM) для извлечения SDoH-факторов. Этот фреймворк состоит из нескольких этапов, начиная с предварительной обработки данных, затем идет фильтрация и извлечение ключевых фрагментов текста, содержащих потенциальные SDoH-факторы. Затем применяется модель файн-тюнинга, специально адаптированная для задачи извлечения SDoH. Ключевой особенностью этого фреймворка является его многоступенчатая архитектура, которая позволяет постепенно уточнять результаты. На каждом этапе модель выполняет более глубокий анализ текста, с тем чтобы выявить все более тонкие и контекстуальные факторы. Для этого используются различные модели, включая BioBERT, GPT-3.5-turbo и DeepSeek-R1. Кроме того, фреймворк включает механизмы для генерации объяснений, которые помогают пользователям понять, почему модель выделила определенные факторы. Также исследование сравнивает производительность этого фреймворка с другими современными моделями, такими как BioBERT и GPT-3.5-turbo, чтобы оценить его эффективность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. Эксперименты включали автоматические оценки на больших наборах данных, а также пилотное исследование с участием пользователей. В результате, предложенный фреймворк показал значительное улучшение по сравнению с другими моделями в задаче извлечения SDoH-факторов. Он не только повысил точность извлечения, но и предоставил более подробные объяснения, что способствовало быстрому и точному аннотированию данных. Использование файн-тюнинга для меньшей, задаче-специфической модели также показало хорошие результаты, сократившие затраты на вычисления при сохранении высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет значительное практическое применение в области психического здоровья и профилактики суицидов. Благодаря высокой точности и объяснимости модели, он может быть использован для ранней идентификации людей, находящихся в рисковой группе. Это может повлиять на разработку более эффективных стратегий профилактики и поддержки людей, которые могут быть подвержены суицидальным мыслям. Кроме того, фреймворк может быть применен в клинической практике для анализа клинических записей и других текстовых данных, что позволит клиницистам быстрее и точнее определять факторы риска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех многоступенчатого фреймворка для извлечения SDoH-факторов, связанных с суицидальностью. Он не только повышает точность и эффективность извлечения, но и улучшает объяснимость модели, что является критическим для клинического применения. В будущем, исследователи могут расширить этот подход, включив более широкие наборы данных и разработав более продвинутые методы для анализа контекста и взаимосвязей между различными факторами. Это может привести к еще более точным и информативным моделям, которые будут играть важную роль в снижении суицидального риска.

Annotation:

Background: Understanding social determinants of health (SDoH) factors contributing to suicide incidents is crucial for early intervention and prevention. However, data-driven approaches to this goal face challenges such as long-tailed factor distributions, analyzing pivotal stressors preceding suicide incidents, and limited model explainability. Methods: We present a multi-stage large language model framework to enhance SDoH factor extraction from unstructured text. Our approach was compared to...

ID: 2508.05003v1 cs.CL, cs.AI

arXiv PDF

📄 R-Zero: Self-Evolving Reasoning LLM from Zero Data

2025-08-09

Авторы:

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие ИИ привело к появлению мощных Large Language Models (LLMs), которые могут выполнять сложные задачи резонанса и логического вывода. Однако, несмотря на их способность к общению и решению задач, эти модели ограничены тем, что их обучение требует больших объемов человеческих данных, включая тщательно отмеченные наборы данных и человеческие образцы. Это создает серьезную проблему для развития ИИ, поскольку создание таких данных требует значительных ресурсов и человеческого вмешательства. Традиционные подходы, такие как fine-tuning и reinforcement learning, хорошо работают для доработки моделей, но они не могут обеспечить полностью автономное развитие моделей. Это становится ключевым ограничением для достижения супер-интеллектуальных систем, которые могли бы развиваться самостоятельно, не завися от человеческого вмешательства. Более того, большинство существующих подходов к обучению LLMs ограничены использованием данных, созданных человеком, что ограничивает возможности моделей в решении задач, которые выходят за рамки представленных данных. Мотивацией для разработки R-Zero является необходимость преодоления этого ограничения. Исследователи стремятся создать систему, которая может создавать, оптимизировать и улучшать свои собственные данные, без необходимости во внешних источниках. Такой подход может позволить LLMs развиваться в независимости от предоставленных человеком данных, что, в свою очередь, может привести к более сильным и автономным ИИ-системам. ## ПРЕДЛОЖЕННЫЙ МЕТОД R-Zero представляет собой новый фреймворк для автономного обучения LLMs, основанный на концепции самоэволюции. Он включает в себя два независимых модели: Challenger и Solver. Обе модели инициализируются на основе одной базовой LLM, но имеют разные роли. Challenger отвечает за генерацию задач, которые находятся на границе возможностей Solver, тогда как Solver пытается решить эти задачи. Процесс обучения основан на механизме взаимодействия между Challenger и Solver. Challenger получает награду за генерацию задач, которые Solver не может решить, но которые находятся на пределе его способностей. Это побуждает Challenger создавать все более сложные задачи. С другой стороны, Solver получает награду за успешное решение этих задач, что стимулирует его к постоянному улучшению. Этот процесс создает автономный куррикулум, который позволяет моделям эволюционировать вместе. Благодаря этому, R-Zero может работать без необходимости во внешних наборах данных, поскольку она генерирует свои собственные данные в процессе взаимодействия. Это позволяет моделям совершенствоваться в решении задач, которые имеют отношение к резонансу и логическому выводу, не требуя никаких внешних меток или человеческого вмешательства. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследователи провели эксперименты, чтобы оценить эффективность R-Zero. Они использовали разные базовые модели LLMs, включая Qwen3-4B-Base, для проверки улучшений в решении задач резонанса и логического вывода. Результаты показали, что R-Zero значительно улучшил результаты моделей в различных задачах. Например, на математических задачах резонанса, Qwen3-4B-Base показала улучшение на +6.49 по сравнению с базовой моделью. Также, на задачах общего домена, улучшение составило +7.54. Эти результаты демонстрируют, что R-Zero эффективен в улучшении способностей резонанса моделей, даже при отсутствии внешних данных. Это подтверждает, что метод самоэволюции может быть использован для повышения способностей LLMs в решении сложных задач, не требуя больших наборов данных или человеческого вмешательства. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ R-Zero имеет потенциал применения в различных областях, где необходимо улучшение способностей резонанса и логического вывода LLMs. Также, он может быть использован в задачах, где требуется автономная разработка данных или обучение моделей в условиях отсутствия внешних источников данных. Это может быть полезно в таких областях, как образование, медицина, финансы и другие сферы, где необходимо решать сложные задачи, не имея доступа к большим наборам данных. Преимущества R-Zero в том, что он позволяет создавать модели, которые могут развиваться самостоятельно, не требуя больших инвестиций в создание данных. Это может существенно упростить процесс разработки и обучения моделей, особенно в ситуациях, где человеческие ресурсы ограничены. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ R-Zero является важной шагом в развитии автономных LLMs, которые могут развиваться без необходимости во внешних данных. Он показывает, что самоэволюция может быть эффективным методом для улучшения способностей моделей в решении задач резонанса и логического вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении этой методологии, включая расширение ее применимости к другим типам задач и моделей, а также исследование возможностей для применения этого подхода в реальных ситуациях.

Annotation:

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully a...

ID: 2508.05004v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Can Large Language Models Integrate Spatial Data? Empirical Insights into Reasoning Strengths and Computational Weaknesses

2025-08-09

Авторы:

Bin Han, Robert Wolfe, Anat Caspi, Bill Howe

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Интеграция пространственных данных представляет собой ключевую задачу в области геоинформатики и городского планирования. Традиционные подходы, основанные на правилах, не в состоянии охватить все случаи на практике, что приводит к необходимости ручной проверки и исправления. Методы машинного обучения также сталкиваются с трудностями, требуя сбора и аннотирования больших объемов зависимых от задачи данных. В этой связи Large Language Models (LLMs) становятся перспективным решением, способным обрабатывать гетерогенные и шумные пространственные данные. Однако до сих пор неясно, насколько эффективно LLMs могут выполнять пространственное рассуждение и интегрировать данные на макро- и микроуровнях. В данном исследовании авторы сосредоточились на понимании способности LLMs к пространственному рассуждению, особенно в контексте взаимосвязей между элементами городской среды, такими как дороги и тротуары. Целью было оценить, могут ли LLMs эффективно интегрировать пространственные данные, связанные с человеческим опытом, и какие проблемы могут возникнуть при этом. Исследование также рассматривает возможности улучшения результатов при использовании дополнительных функций и методов, таких как подход "проверить и уточнить". ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предложили методологию, основанную на использовании LLMs для интеграции пространственных данных. Исследование включает в себя анализ способности LLMs к рассуждению о пространственных отношениях, особенно тех, которые возникают в городских средах. Для этого использовались запросы, описывающие связи между различными элементами городской инфраструктуры. При обнаружении несоответствий или логических противоречий в ответах LLMs, исследователи применили метод "проверить и уточнить". Этот подход позволяет исправлять ошибочные первоначальные ответы, сохраняя точные результаты. Архитектура метода включает в себя пошаговую модификацию запросов, чтобы снизить зависимость LLMs от пространственного рассуждения и увеличить точность результатов. Дополнительно, исследование рассматривает возможности интеграции многомодальных данных и поддержки различных форматов данных в реальных приложениях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на базе различных пространственных наборов данных, охватывающих городские среды. Результаты показали, что LLMs обладают определенными пространственными способностями к рассуждению, но сталкиваются с трудностями при попытке соединить макро- и микроуровни данных. Например, LLMs могут продемонстрировать понимание связей между дорогами и тротуарами, но затрудняются в выполнении точных вычислительных задач, связанных с геометрией. При использовании дополнительных функций, таких как геометрические данные и контекстуальные описания, LLMs показали высокую эффективность в создании результатов. Метод "проверить и уточнить" также демонстрирует высокую эффективность в исправлении ошибок, сохраняя при этом точные ответы. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование показывает, что LLMs могут стать ценным инструментом для интеграции пространственных данных в реальных приложениях. Они предлагают гибкую альтернативу традиционным правилам и подходам машинного обучения, которые требуют большого объема ручной работы. Это может быть особенно полезно в областях городского планирования, геоинформатики и управления пространственными данными. Преимущества LLMs заключаются в их способности адаптироваться к различным форматам данных и обрабатывать шумные, неструктурированные данные. Кроме того, метод "проверить и уточнить" может быть использован для повышения точности и надежности результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что LLMs имеют большой потенциал для интеграции пространственных данных, но требуют дополнительных улучшений для решения проблем, связанных с пространственным рассуждением. Будущие исследования могут фокусироваться на разработке методов пост-обучения, интеграции многомодальных данных и поддержке различных форматов данных. Эти усовершенствования могут позволить LLMs стать еще более эффективными инструментами для решения сложных пространственных задач в различных прикладных областях.

Annotation:

We explore the application of large language models (LLMs) to empower domain experts in integrating large, heterogeneous, and noisy urban spatial datasets. Traditional rule-based integration methods are unable to cover all edge cases, requiring manual verification and repair. Machine learning approaches require collecting and labeling of large numbers of task-specific samples. In this study, we investigate the potential of LLMs for spatial data integration. Our analysis first considers how LLMs ...

ID: 2508.05009v1 cs.AI, cs.CL

arXiv PDF

📄 Making Prompts First-Class Citizens for Adaptive LLM Pipelines

2025-08-09

Авторы:

Ugur Cetintemel, Shu Chen, Alexander W. Lee, Deepti Raghavan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные конвейеры больших языковых моделей (LLM) становятся все более похожими на данные, управляемые системы. Они извлекают внешний контекст, компонуют промежуточные результаты, проверяют выводы и адаптируются в зависимости от отзывов, полученных во время выполнения. Однако ключевым элементом, руководящим этим процессом, является **промпт** (запрос или контекст, передаваемый модели), который часто остается хрупким и непрозрачным. Промпты часто представляют собой неструктурированные строки, которые не интегрированы с окружающим процессом выполнения. Это создает серьезные ограничения на возможности повторного использования, оптимизации и управления процессом в реальном времени. Проблема заключается в том, что традиционные подходы к управлению промптами не обеспечивают достаточной гибкости и контроля над их динамическим поведением. В результате разработчики сталкиваются с трудностями при модификации промптов в ответ на изменяющиеся условия выполнения, такие как низкая уверенность модели, высокая задержка или отсутствие необходимого контекста. Кроме того, отсутствие структурированного управления промптами затрудняет их версионирование, отладку и анализ. Предлагаемое решение должно решить эту проблему, превратив промпты в **структурированные, адаптивные и первоклассные компоненты** конвейера выполнения. Такой подход позволит динамически изменять промпты в зависимости от сигналов, полученных во время выполнения, а также обеспечит возможность их структурированного хранения и оптимизации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Решение, предложенное в работе, называется **SPEAR** — язык и среда выполнения, предназначенные для заполнения пробела в управлении промптами. SPEAR делает промпты структурированными, адаптивными и первоклассными элементами модели выполнения. SPEAR вводит **алгебру промптов**, которая определяет правила построения и адаптации промптов в конвейере. Эта алгебра поддерживает различные режимы уточнения (ручной, помощью пользователя и автоматический), обеспечивая баланс между контролем разработчика и автоматизацией процесса. Ключевыми компонентами SPEAR являются: 1. **Динамическая адаптация промптов**: SPEAR позволяет модифицировать промпты в реальном времени в ответ на сигналы, такие как низкая уверенность модели, высокая задержка или отсутствие контекста. Это обеспечивает более гибкое и реактивное поведение конвейера. 2. **Структурированное управление промптами**: SPEAR организует фрагменты промптов в версионируемые представления (views), которые могут быть инспектированы и записаны в логи. Это облегчает отладку, версионирование и повторное использование промптов. 3. **Оптимизации на уровне промптов**: Используя структурированный подход, SPEAR позволяет применять оптимизации, такие как слияние операторов (operator fusion), кэширование префиксов и повторное использование представлений, что повышает эффективность конвейера. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты для оценки эффективности SPEAR в сравнении с традиционными статическими промптами и агентскими повторными попытками (agentic retries). Результаты показали, что динамическая адаптация промптов позволяет значительно повысить точность и эффективность конвейера. Кроме того, эксперименты показали положительное влияние оптимизаций, таких как слияние операторов и кэширование префиксов, на производительность системы. Результаты демонстрируют, что SPEAR не только повышает качество вывода моделей, но и позволяет оптимизировать время выполнения и ресурсы. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SPEAR имеет широкое применение в областях, требующих высокого уровня адаптивности и контроля над промптами. Это может включать: - **Конвейеры обработки естественного языка**: Где необходима динамическая модификация запросов в зависимости от контекста. - **Автоматизированные системы**: Где критична оптимизация времени выполнения и ресурсов. - **Системы с открытым контекстом**: Где важна возможность интеграции внешних данных и их динамического использования. Преимущества SPEAR включают в себя повышенную эффективность, улучшенную отладку и повторное использование кода, что делает его привлекательным для разработчиков сложных систем на основе LLM. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SPEAR предлагает передовой подход к управлению промптами, превращая их в структурированные и адаптивные компоненты конвейера выполнения. Это позволяет решить многие проблемы, связанные с традиционными неструктурированными промптами, такие как низкая повторяемость, сложность отладки и ограниченные возможности оптимизации. Будущие исследования могут фокусироваться на расширении SPEAR для поддержки более широкого спектра режимов адаптации и оптимизации, а также на интеграции с другими системами управления данными для создания еще более гибких и эффективных конвейеров.

Annotation:

Modern LLM pipelines increasingly resemble data-centric systems: they retrieve external context, compose intermediate outputs, validate results, and adapt based on runtime feedback. Yet, the central element guiding this process -- the prompt -- remains a brittle, opaque string, disconnected from the surrounding dataflow. This disconnect limits reuse, optimization, and runtime control. In this paper, we describe our vision and an initial design for SPEAR, a language and runtime that fills this ...

ID: 2508.05012v1 cs.DB, cs.AI, cs.CL

arXiv PDF

📄 Dialogues Aspect-based Sentiment Quadruple Extraction via Structural Entropy Minimization Partitioning

2025-08-09

Авторы:

Kun Peng, Cong Cao, Hao Peng, Zhifeng Hao, Lei Jiang, Kongjing Gu, Yanbing Liu, Philip S. Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема извлечения четырёхкомпонентных структур (target-aspect-opinion-sentiment quadruple) в рамках диалогов представляет собой одну из ключевых задач в области анализа настроения (sentiment analysis). Диалоги, в отличие от текстов с единым авторством, характеризуются многокруглыми обсуждениями, в которых участвуют несколько интерлокуторов, часто с неявными или контекстуальными связями. Традиционные методы анализа настроения в диалогах строятся на предположении, что существует единое распределение элементов настроения в рамках всего диалога. Однако это предположение часто не соответствует действительности. Диалоги могут содержать несколько семантически независимых поддиалогов, соотношение между которыми не всегда очевидно. Такая сложность приводит к значительному увеличению шума при извлечении элементов настроения, так как модели пытаются установить связи между словами, которые фактически не относятся друг к другу. Это может привести к неточным результатам и понижению качества извлечения. Кроме того, существующие методы часто не учитывают структурную и семантическую комплексность диалогов, что делает задачу извлечения четырёхкомпонентных структур ещё более сложной. Ключевой проблемой является необходимость разделения диалога на семантически независимые части, чтобы уменьшить шум и повысить точность извлечения. Однако простое разделение диалога на основе ответов или последовательных сообщений не гарантирует сохранение семантической целостности. Таким образом, необходимо разработать более информированный подход, который мог бы оптимально разделять диалоги на поддиалоги, сохраняя в то же время важные семантические связи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный подход, основанный на алгоритме структурного энтропийного минимизации (structural entropy minimization) для разделения диалогов на семантически независимые поддиалоги. Этот метод позволяет выделить те утверждения (utterances), которые несут релевантную информацию, отделяя их от несвязанных или менее важных частей. Алгоритм оптимизирует разделение, минимизируя энтропию, что гарантирует максимальное сохранение связанной информации и исключение шума. Помимо разделения, авторы предлагают двухступенчатый фреймворк для извлечения четырёхкомпонентных структур. На первом этапе выделяются отдельные элементы настроения (target, aspect, opinion, sentiment) на уровне каждого утверждения. На втором этапе производится сопоставление этих элементов на уровне поддиалогов, что позволяет формировать полные четырёхкомпонентные структуры. Ключевой архитектурной особенностью этого метода является его способность сохранить контекстуальные связи между элементами настроения в рамках поддиалогов, избегая ошибок, вызванных несвязанными утверждениями. Такой подход позволяет существующим моделям извлечения настроения работать более эффективно и точно, снижая влияние шума. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели широкий спектр экспериментов на датасетах, предназначенных для задачи DiaASQ. Эти датасеты включают диалоги с несколькими интерлокуторами и несколькими раундами обсуждения. Результаты показали, что предложенный метод значительно превосходит существующие подходы по метрикам точности и полноты извлечения четырёхкомпонентных структур. Кроме того, эксперименты показали, что использование алгоритма структурного энтропийного минимизации для разделения диалогов на поддиалоги значительно сокращает время вычислений и снижает вычислительные затраты. Это делает метод более эффективным с точки зрения ресурсов, необходимых для обработки больших диалогов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих детального анализа диалогов, таких как обработка естественного языка (NLP), анализ медиа-контента, и анализ отзывов клиентов. Благодаря его способности точно извлекать четырёхкомпонентные структуры, он может быть использован для автоматического мониторинга отзывов, определения ключевых тем обсуждения, и повышения качества взаимодействия в чат-ботах. Преимущества этого метода заключаются в его высокой точности, низких вычислительных затратах и способности эффективно обрабатывать сложные структуры диалогов. Это делает его применимым в различных отраслевых приложениях, где необходимо понимание контекста и точное извлечение элементов настроения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод значительно улучшает качество извлечения четырёхкомпонентных структур в диалогах, обеспечивая высокую точность и низкие вычислительные затраты. Однако дальнейшие исследования могут быть направлены на улучшение алгоритма структурного энтропийного минимизации для ещё более тонкого разделения диалогов. Кроме того, могут быть исследованы возможности применения этого подхода к другим типам текстовых данных, таким как социальные медиа или мультимодальные диалоги.

Annotation:

Dialogues Aspect-based Sentiment Quadruple Extraction (DiaASQ) aims to extract all target-aspect-opinion-sentiment quadruples from a given multi-round, multi-participant dialogue. Existing methods typically learn word relations across entire dialogues, assuming a uniform distribution of sentiment elements. However, we find that dialogues often contain multiple semantically independent sub-dialogues without clear dependencies between them. Therefore, learning word relationships across the entire ...

ID: 2508.05023v1 cs.CL, cs.AI

arXiv PDF

1
2
743
744
745
746
747
750
751

Показано 7441 - 7450 из 7506 записей