📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Situated Epistemic Infrastructures: A Diagnostic Framework for Post-Coherence Knowledge

2025-08-09

Авторы:

Matthew Kelly

## КОНТЕКСТ И ПРОБЛЕМАТИКА Статья Мэтью Келли "Situated Epistemic Infrastructures" адресует фундаментальный кризис современных знаний, вызванный массовым распространением больших языковых моделей (LLM) вроде ChatGPT. Автор утверждает, что LLM продемонстрировали хрупкость традиционных эпистемических инфраструктур - систем, которые раньше гарантировали достоверность знаний через цитирование, экспертную валидацию и институты авторитета. Проблема заключается в том, что LLM способны генерировать убедительную когерентность текста без подлинного понимания или подтверждения источников, тем самым разрушая классические механизмы эпистемического доверия. Келли описывает наступление "пост-когерентных условий" - эпохи, когда когерентность текста больше не гарантирует его достоверность. Это создает парадоксальную ситуацию: мы имеем доступ к беспрецедентному объему информации, но лишены надежных способов отделения достоверных знаний от убедительно сформулированных фантазий. Традиционные модели академического знания, основанные на стабильных дисциплинарных доменах и ограниченных сообществах практики, оказываются неадекватными в условиях гибридных человеко-машинных систем. Автор подчеркивает, что проблема выходит за рамки просто технической достоверности или информационной безопасности. Речь идет о фундаментальном пересмотре того, как знание становится авторитетным в эпоху ИИ. Существующие подходы к управлению знаниями опираются на репрезентационалистские модели, которые предполагают стабильность и очевидность границ между достоверным и недостоверным. Однако LLM демонстрируют, что когерентность может быть смоделирована без какой-либо связи с реальностью, что требует принципиально новых подходов к эпистемическому управлению. ## ПРЕДЛОЖЕННЫЙ МЕТОД Келли разрабатывает фреймворк Situated Epistemic Infrastructures (SEI) как диагностический инструмент для анализа того, как знания становятся авторитетными в условиях пост-когерентности. В отличие от традиционных подходов, которые фокусируются на классификации источников по их достоверности, SEI делает акцент на координации различных акторов и процессов в эпистемических системах. Фреймворк интегрирует три ключевых теоретических направления: исследования инфраструктур (infrastructure studies), теорию платформ и эпистемологию. Это позволяет рассматривать достоверность не как свойство отдельных источников, а как результат сложных взаимодействий между институциональными, вычислительными и временными аранжировками. SEI трассирует, как кредибилити медиируется через эти разнородные элементы, выявляя уязвимые места и точки возможного вмешательства. Методология SEI базируется на трех ключевых принципах. Во-первых, отказ от репрезентационалистской модели в пользу процессуального подхода, где знание рассматривается как постоянно пересматриваемый результат координационных усилий. Во-вторых, акцент на ситуированности - понимание того, что авторитетность знания зависит от конкретного контекста использования и временных рамок. В-третьих, разработка предвосхищающих и адаптивных моделей эпистемического управления, способных реагировать на быстро меняющиеся условия. Фреймворк предлагает диагностические категории для анализа эпистемических инфраструктур: стабильность/нестабильность координационных механизмов, степень открытости для внешнего аудита, способность к адаптации под новые условия, и наличие механизмов коллективного контроля качества. Эти категории позволяют не просто оценивать, является ли конкретное знание "истинным", но анализировать, как различные элементы системы способствуют или препятствуют его становлению авторитетным. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Хотя статья не содержит традиционных экспериментов в естественнонаучном понимании, Келли представляет серию концептуальных кейс-стади и диагностических применений фреймворка SEI для анализа существующих эпистемических систем. Автор иллюстрирует применение фреймворка на примере трех различных контекстов: академического peer-review, медицинских диагностических систем на базе ИИ, и новостных агрегаторов. В контексте академического peer-review, SEI выявляет, как традиционная модель двой

Annotation:

Large Language Models (LLMs) such as ChatGPT have rendered visible the fragility of contemporary knowledge infrastructures by simulating coherence while bypassing traditional modes of citation, authority, and validation. This paper introduces the Situated Epistemic Infrastructures (SEI) framework as a diagnostic tool for analyzing how knowledge becomes authoritative across hybrid human-machine systems under post-coherence conditions. Rather than relying on stable scholarly domains or bounded com...

ID: 2508.04995v1 cs.HC, cs.AI, cs.DL, K.4.1; K.3; K.2

arXiv PDF

📄 AgenticData: An Agentic Data Analytics System for Heterogeneous Data

2025-08-09

Авторы:

Ji Sun, Guoliang Li, Peiyao Zhou, Yihui Ma, Jingzhe Xu, Yuan Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире управления данными традиционные системы анализа неструктурированных данных требуют значительных усилий со стороны экспертов для написания кода и управления сложными рабочими процессами. Это делает такие системы затратными и медленными в применении, особенно когда речь идет о работе с данными разного типа, включая как структурированные, так и неструктурированные. Кроме того, существующие решения часто не обладают достаточной способностью к самостоятельному анализу и оптимизации, что увеличивает временные и финансовые затраты на анализ данных. Возрастающий объем и сложность данных в различных отраслях подчеркивают необходимость в разработке новых подходов, которые могли бы автоматизировать и упростить процесс анализа. Одной из ключевых проблем является необходимость в создании систем, которые могли бы эффективно обрабатывать запросы на естественном языке (NL) и обеспечивали бы высокую точность, не требуя постоянного вмешательства человека. Такие системы должны быть в состоянии работать с разными типами данных, поддерживать итеративное оптимизационное планирование и обеспечивать эффективное управление контекстом. AgenticData предлагает решение этих проблем, предлагая инновационный подход к анализу данных, основанный на использовании агентских систем и естественного языка. Основной целью этой системы является предоставление пользователям возможности задавать запросы на естественном языке, при этом система самостоятельно выполняет анализ данных, оптимизируя их поиск и обработку в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД AgenticData использует трехуровневую систему агентов для автоматизации и оптимизации процесса анализа данных. Первый уровень — **данные**, которые поступают из различных источников, включая структурированные и неструктурированные данные. Для обработки этих данных используется **дата-профайлинговый агент**, который отвечает за идентификацию и выборку релевантных данных. Второй уровень — **семантический кросс-валидационный агент**, который работает на основе обратной связи от пользователя. Этот агент выполняет итеративную оптимизацию семантических планов, улучшая точность и эффективность запросов. Третий уровень — **смарт-мемори агент**, который отвечает за управление контекстом. Он хранит краткосрочную информацию и долгосрочные знания, что позволяет системе адаптироваться к последовательным запросам и улучшать качество результатов. Для обработки запросов AgenticData использует **семантическую оптимизационную модель**, которая преобразует запросы на естественном языке в семантические планы, состоящие из реляционных и семантических операторов. Эти планы последовательно оптимизируются и выполняются, обеспечивая высокую точность и скорость выполнения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ AgenticData была протестирована на трех различных бенчмарках. Результаты показали, что система достигает значительно высокой точности как на простых, так и на сложных запросах. В сравнении с современными методами AgenticData показала значительное преимущество в точности и скорости выполнения задач. Благодаря своей функциональности и автоматизации, AgenticData показала способность эффективно работать в условиях сложности и гетерогенности данных, превзойдя существующие методы в области анализа данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AgenticData имеет широкий спектр применения в различных областях, где необходим анализ данных различных типов. Она может быть использована в бизнесе для анализа клиентских данных, в медицине для обработки медицинских записей, в образовании для анализа учебных материалов, а также в других областях, требующих эффективного управления и анализа данных. Преимущества AgenticData включают в себя снижение затрат на анализ данных, повышение точности результатов и ускорение процесса анализа. Это делает систему привлекательной для компаний и организаций, желающих оптимизировать свои процессы работы с данными. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AgenticData является передовым решением для анализа данных, которое обеспечивает высокую точность и эффективность работы с различными типами данных. Будущие исследования могут быть направлены на дальнейшее улучшение модели, включая расширение ее способностей к работе с большими наборами данных и улучшение ее адаптивности к новым типам запросов. Кроме того, можно рассмотреть возможность интеграции AgenticData с другими системами анализа данных для создания еще более мощных инструментов анализа.

Annotation:

Existing unstructured data analytics systems rely on experts to write code and manage complex analysis workflows, making them both expensive and time-consuming. To address these challenges, we introduce AgenticData, an innovative agentic data analytics system that allows users to simply pose natural language (NL) questions while autonomously analyzing data sources across multiple domains, including both unstructured and structured data. First, AgenticData employs a feedback-driven planning techn...

ID: 2508.05002v1 cs.DB, cs.AI

arXiv PDF

📄 A Multi-Stage Large Language Model Framework for Extracting Suicide-Related Social Determinants of Health

2025-08-09

Авторы:

Song Wang, Yishu Wei, Haotian Ma, Max Lovitt, Kelly Deng, Yuan Meng, Zihan Xu, Jingze Zhang, Yunyu Xiao, Ying Ding, Xuhai Xu, Joydeep Ghosh, Yifan Peng

## КОНТЕКСТ И ПРОБЛЕМАТИКА Раскрытие социальных детерминантов здоровья (SDoH), связанных с суицидальностью, является ключевым для ранней идентификации рисков и разработки эффективных программ профилактики. SDoH включают в себя широкий спектр факторов, таких как социально-экономические условия, доступность медицинских услуг, социальные поддерживающие сети и психологические условия, которые могут существенно повлиять на риск суицидального поведения. Однако исследования в этой области сталкиваются с рядом проблем. Во-первых, распределение SDoH-факторов характеризуется длиннохвостым распределением, где некоторые факторы являются редкими, но крайне важными. Это создает сложности для традиционных моделей, которые часто не могут эффективно обрабатывать редкие факторы. Во-вторых, анализ ключевых стрессоров, которые предшествуют суицидальным инцидентам, представляет собой трудную задачу из-за неструктурированности данных, таких как клинические записи, социальные медиа-посты и другие текстовые источники. Наконец, проблема объяснимости моделей остается критической, так как для эффективного применения необходимо, чтобы результаты модели были интерпретируемыми и понятными для клиницистов и исследователей. Целью данного исследования является разработка эффективного подхода для извлечения SDoH-факторов из неструктурированных текстов, с целью улучшения точности, эффективности и объяснимости таких моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают многоступенчатый фреймворк на основе больших языковых моделей (LLM) для извлечения SDoH-факторов. Этот фреймворк состоит из нескольких этапов, начиная с предварительной обработки данных, затем идет фильтрация и извлечение ключевых фрагментов текста, содержащих потенциальные SDoH-факторы. Затем применяется модель файн-тюнинга, специально адаптированная для задачи извлечения SDoH. Ключевой особенностью этого фреймворка является его многоступенчатая архитектура, которая позволяет постепенно уточнять результаты. На каждом этапе модель выполняет более глубокий анализ текста, с тем чтобы выявить все более тонкие и контекстуальные факторы. Для этого используются различные модели, включая BioBERT, GPT-3.5-turbo и DeepSeek-R1. Кроме того, фреймворк включает механизмы для генерации объяснений, которые помогают пользователям понять, почему модель выделила определенные факторы. Также исследование сравнивает производительность этого фреймворка с другими современными моделями, такими как BioBERT и GPT-3.5-turbo, чтобы оценить его эффективность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. Эксперименты включали автоматические оценки на больших наборах данных, а также пилотное исследование с участием пользователей. В результате, предложенный фреймворк показал значительное улучшение по сравнению с другими моделями в задаче извлечения SDoH-факторов. Он не только повысил точность извлечения, но и предоставил более подробные объяснения, что способствовало быстрому и точному аннотированию данных. Использование файн-тюнинга для меньшей, задаче-специфической модели также показало хорошие результаты, сократившие затраты на вычисления при сохранении высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет значительное практическое применение в области психического здоровья и профилактики суицидов. Благодаря высокой точности и объяснимости модели, он может быть использован для ранней идентификации людей, находящихся в рисковой группе. Это может повлиять на разработку более эффективных стратегий профилактики и поддержки людей, которые могут быть подвержены суицидальным мыслям. Кроме того, фреймворк может быть применен в клинической практике для анализа клинических записей и других текстовых данных, что позволит клиницистам быстрее и точнее определять факторы риска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех многоступенчатого фреймворка для извлечения SDoH-факторов, связанных с суицидальностью. Он не только повышает точность и эффективность извлечения, но и улучшает объяснимость модели, что является критическим для клинического применения. В будущем, исследователи могут расширить этот подход, включив более широкие наборы данных и разработав более продвинутые методы для анализа контекста и взаимосвязей между различными факторами. Это может привести к еще более точным и информативным моделям, которые будут играть важную роль в снижении суицидального риска.

Annotation:

Background: Understanding social determinants of health (SDoH) factors contributing to suicide incidents is crucial for early intervention and prevention. However, data-driven approaches to this goal face challenges such as long-tailed factor distributions, analyzing pivotal stressors preceding suicide incidents, and limited model explainability. Methods: We present a multi-stage large language model framework to enhance SDoH factor extraction from unstructured text. Our approach was compared to...

ID: 2508.05003v1 cs.CL, cs.AI

arXiv PDF

📄 R-Zero: Self-Evolving Reasoning LLM from Zero Data

2025-08-09

Авторы:

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие ИИ привело к появлению мощных Large Language Models (LLMs), которые могут выполнять сложные задачи резонанса и логического вывода. Однако, несмотря на их способность к общению и решению задач, эти модели ограничены тем, что их обучение требует больших объемов человеческих данных, включая тщательно отмеченные наборы данных и человеческие образцы. Это создает серьезную проблему для развития ИИ, поскольку создание таких данных требует значительных ресурсов и человеческого вмешательства. Традиционные подходы, такие как fine-tuning и reinforcement learning, хорошо работают для доработки моделей, но они не могут обеспечить полностью автономное развитие моделей. Это становится ключевым ограничением для достижения супер-интеллектуальных систем, которые могли бы развиваться самостоятельно, не завися от человеческого вмешательства. Более того, большинство существующих подходов к обучению LLMs ограничены использованием данных, созданных человеком, что ограничивает возможности моделей в решении задач, которые выходят за рамки представленных данных. Мотивацией для разработки R-Zero является необходимость преодоления этого ограничения. Исследователи стремятся создать систему, которая может создавать, оптимизировать и улучшать свои собственные данные, без необходимости во внешних источниках. Такой подход может позволить LLMs развиваться в независимости от предоставленных человеком данных, что, в свою очередь, может привести к более сильным и автономным ИИ-системам. ## ПРЕДЛОЖЕННЫЙ МЕТОД R-Zero представляет собой новый фреймворк для автономного обучения LLMs, основанный на концепции самоэволюции. Он включает в себя два независимых модели: Challenger и Solver. Обе модели инициализируются на основе одной базовой LLM, но имеют разные роли. Challenger отвечает за генерацию задач, которые находятся на границе возможностей Solver, тогда как Solver пытается решить эти задачи. Процесс обучения основан на механизме взаимодействия между Challenger и Solver. Challenger получает награду за генерацию задач, которые Solver не может решить, но которые находятся на пределе его способностей. Это побуждает Challenger создавать все более сложные задачи. С другой стороны, Solver получает награду за успешное решение этих задач, что стимулирует его к постоянному улучшению. Этот процесс создает автономный куррикулум, который позволяет моделям эволюционировать вместе. Благодаря этому, R-Zero может работать без необходимости во внешних наборах данных, поскольку она генерирует свои собственные данные в процессе взаимодействия. Это позволяет моделям совершенствоваться в решении задач, которые имеют отношение к резонансу и логическому выводу, не требуя никаких внешних меток или человеческого вмешательства. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследователи провели эксперименты, чтобы оценить эффективность R-Zero. Они использовали разные базовые модели LLMs, включая Qwen3-4B-Base, для проверки улучшений в решении задач резонанса и логического вывода. Результаты показали, что R-Zero значительно улучшил результаты моделей в различных задачах. Например, на математических задачах резонанса, Qwen3-4B-Base показала улучшение на +6.49 по сравнению с базовой моделью. Также, на задачах общего домена, улучшение составило +7.54. Эти результаты демонстрируют, что R-Zero эффективен в улучшении способностей резонанса моделей, даже при отсутствии внешних данных. Это подтверждает, что метод самоэволюции может быть использован для повышения способностей LLMs в решении сложных задач, не требуя больших наборов данных или человеческого вмешательства. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ R-Zero имеет потенциал применения в различных областях, где необходимо улучшение способностей резонанса и логического вывода LLMs. Также, он может быть использован в задачах, где требуется автономная разработка данных или обучение моделей в условиях отсутствия внешних источников данных. Это может быть полезно в таких областях, как образование, медицина, финансы и другие сферы, где необходимо решать сложные задачи, не имея доступа к большим наборам данных. Преимущества R-Zero в том, что он позволяет создавать модели, которые могут развиваться самостоятельно, не требуя больших инвестиций в создание данных. Это может существенно упростить процесс разработки и обучения моделей, особенно в ситуациях, где человеческие ресурсы ограничены. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ R-Zero является важной шагом в развитии автономных LLMs, которые могут развиваться без необходимости во внешних данных. Он показывает, что самоэволюция может быть эффективным методом для улучшения способностей моделей в решении задач резонанса и логического вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении этой методологии, включая расширение ее применимости к другим типам задач и моделей, а также исследование возможностей для применения этого подхода в реальных ситуациях.

Annotation:

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully a...

ID: 2508.05004v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 The Docking Game: Loop Self-Play for Fast, Dynamic, and Accurate Prediction of Flexible Protein--Ligand Binding

2025-08-09

Авторы:

Youzhi Zhang, Yufei Li, Gaofeng Meng, Hongbin Liu, Jiebo Luo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Молекулярный докинг является ключевой задачей в области разработки лекарственных препаратов. Он заключается в прогнозировании взаимодействий между малыми молекулами (лигандами) и пространствами в протеинах (портами), что позволяет идентифицировать потенциальные лекарственные соединения. Распространенные мультизадачные модели докинга часто демонстрируют низкую точность в задаче докинга лигандов по сравнению с докингом протеинов. Это различие связано с фундаментальными отличиями в структурной сложности лигандов и протеинов. Лиганды представляют собой малые молекулы, обладающие высокой гибкостью, в то время как протеины имеют более стабильные и сложные трехмерные структуры. Традиционные подходы часто не могут эффективно учитывать это динамическое взаимодействие, что приводит к неточностям в прогнозировании. Эта проблема особенно актуальна в контексте высокой скорости и точности, необходимых для современных процессов разработки лекарств. Таким образом, необходимо разработать новый метод, который бы учитывал сложность обеих компонент — лигандов и протеинов — и обеспечивал бы более точное и динамичное прогнозирование их взаимодействий. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается инновационный подход, основанный на теоретических основах теории игр. Рассматривается процесс докинга как двухигроковая игра, называемая "Docking Game". В этой игре один игрок представляет лиганд, а другой — протеин. Для решения этой игры разработан алгоритм Loop Self-Play (LoopPlay). LoopPlay работает на двух уровнях: внешний и внутренний циклы. На внешнем цикле игроки (лиганд и протеин) обмениваются прогнозными положениями, позволяя каждому из них адаптироваться к прогнозам другого. На внутреннем цикле каждый игрок уточняет свои предсказания, включая в модель собственные предсказанные положения. Этот подход позволяет достигать взаимодействия и адаптации между моделями лиганда и протеина, обеспечивая более точные результаты. Алгоритм LoopPlay гарантирует сходимость процесса, что подтверждается теоретическим анализом. Это обеспечивает стабильность и эффективность оптимизации, необходимые для достижения высокой точности модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода проведены эксперименты на публичных наборах данных, специально разработанных для задач молекулярного докинга. Результаты показали, что LoopPlay превосходит существующие методы примерно на 10% по точности предсказания точных положений связывания. Эксперименты также показали высокую стабильность и скорость работы предлагаемого метода. LoopPlay успешно справляется с высокой сложностью структур лигандов и протеинов, обеспечивая более точные результаты в сравнении с предыдущими подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в области разработки лекарственных препаратов. Улучшенная точность прогнозирования взаимодействий между лигандами и протеинами позволяет ускорить процесс поиска новых лекарств, снизить затраты на экспериментальные исследования и повысить эффективность разработки. Потенциальное влияние LoopPlay может быть ощутимо в таких областях, как персонализированная медицина, разработка лекарственных препаратов для редких заболеваний и борьба с антимикробной резистенцией. Также этот метод может быть использован в академических исследованиях для глубинного анализа взаимодействий молекул. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Представленный метод LoopPlay значительно улучшает точность прогнозирования взаимодействий между лигандами и протеинами, предлагая новый уровень точности и динамичности в задачах молекулярного докинга. Будущие исследования могут фокусироваться на расширении этого подхода для более сложных молекулярных систем, а также на интеграции этого метода с другими технологиями в области компьютерного моделирования в химии и биологии.

Annotation:

Molecular docking is a crucial aspect of drug discovery, as it predicts the binding interactions between small-molecule ligands and protein pockets. However, current multi-task learning models for docking often show inferior performance in ligand docking compared to protein pocket docking. This disparity arises largely due to the distinct structural complexities of ligands and proteins. To address this issue, we propose a novel game-theoretic framework that models the protein-ligand interaction ...

ID: 2508.05006v1 cs.AI

arXiv PDF

📄 Can Large Language Models Integrate Spatial Data? Empirical Insights into Reasoning Strengths and Computational Weaknesses

2025-08-09

Авторы:

Bin Han, Robert Wolfe, Anat Caspi, Bill Howe

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Интеграция пространственных данных представляет собой ключевую задачу в области геоинформатики и городского планирования. Традиционные подходы, основанные на правилах, не в состоянии охватить все случаи на практике, что приводит к необходимости ручной проверки и исправления. Методы машинного обучения также сталкиваются с трудностями, требуя сбора и аннотирования больших объемов зависимых от задачи данных. В этой связи Large Language Models (LLMs) становятся перспективным решением, способным обрабатывать гетерогенные и шумные пространственные данные. Однако до сих пор неясно, насколько эффективно LLMs могут выполнять пространственное рассуждение и интегрировать данные на макро- и микроуровнях. В данном исследовании авторы сосредоточились на понимании способности LLMs к пространственному рассуждению, особенно в контексте взаимосвязей между элементами городской среды, такими как дороги и тротуары. Целью было оценить, могут ли LLMs эффективно интегрировать пространственные данные, связанные с человеческим опытом, и какие проблемы могут возникнуть при этом. Исследование также рассматривает возможности улучшения результатов при использовании дополнительных функций и методов, таких как подход "проверить и уточнить". ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предложили методологию, основанную на использовании LLMs для интеграции пространственных данных. Исследование включает в себя анализ способности LLMs к рассуждению о пространственных отношениях, особенно тех, которые возникают в городских средах. Для этого использовались запросы, описывающие связи между различными элементами городской инфраструктуры. При обнаружении несоответствий или логических противоречий в ответах LLMs, исследователи применили метод "проверить и уточнить". Этот подход позволяет исправлять ошибочные первоначальные ответы, сохраняя точные результаты. Архитектура метода включает в себя пошаговую модификацию запросов, чтобы снизить зависимость LLMs от пространственного рассуждения и увеличить точность результатов. Дополнительно, исследование рассматривает возможности интеграции многомодальных данных и поддержки различных форматов данных в реальных приложениях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на базе различных пространственных наборов данных, охватывающих городские среды. Результаты показали, что LLMs обладают определенными пространственными способностями к рассуждению, но сталкиваются с трудностями при попытке соединить макро- и микроуровни данных. Например, LLMs могут продемонстрировать понимание связей между дорогами и тротуарами, но затрудняются в выполнении точных вычислительных задач, связанных с геометрией. При использовании дополнительных функций, таких как геометрические данные и контекстуальные описания, LLMs показали высокую эффективность в создании результатов. Метод "проверить и уточнить" также демонстрирует высокую эффективность в исправлении ошибок, сохраняя при этом точные ответы. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование показывает, что LLMs могут стать ценным инструментом для интеграции пространственных данных в реальных приложениях. Они предлагают гибкую альтернативу традиционным правилам и подходам машинного обучения, которые требуют большого объема ручной работы. Это может быть особенно полезно в областях городского планирования, геоинформатики и управления пространственными данными. Преимущества LLMs заключаются в их способности адаптироваться к различным форматам данных и обрабатывать шумные, неструктурированные данные. Кроме того, метод "проверить и уточнить" может быть использован для повышения точности и надежности результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что LLMs имеют большой потенциал для интеграции пространственных данных, но требуют дополнительных улучшений для решения проблем, связанных с пространственным рассуждением. Будущие исследования могут фокусироваться на разработке методов пост-обучения, интеграции многомодальных данных и поддержке различных форматов данных. Эти усовершенствования могут позволить LLMs стать еще более эффективными инструментами для решения сложных пространственных задач в различных прикладных областях.

Annotation:

We explore the application of large language models (LLMs) to empower domain experts in integrating large, heterogeneous, and noisy urban spatial datasets. Traditional rule-based integration methods are unable to cover all edge cases, requiring manual verification and repair. Machine learning approaches require collecting and labeling of large numbers of task-specific samples. In this study, we investigate the potential of LLMs for spatial data integration. Our analysis first considers how LLMs ...

ID: 2508.05009v1 cs.AI, cs.CL

arXiv PDF

📄 Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation

2025-08-09

Авторы:

Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время AI-driven lyric-to-song generation представляет собой одну из наиболее перспективных областей в музыкальном генеративном искусстве. На основе аудио-ориентированных генеративных языковых моделей (Generative Audio-based Language Models, GALMs), эти системы способны превращать тексты песен в полноценные музыкальные композиции. Однако, несмотря на значительные успехи в этой области, существует серьезная проблема, связанная с content hallucination. Это явление заключается в том, что модели часто генерируют выходные данные, которые не соотносятся с входными текстами песен, что приводит к потере смысловой согласованности и нарушению музыкальной когеренции. Традиционные подходы к решению этой проблемы, такие как supervised fine-tuning (SFT), оказываются ограниченными в своей эффективности. Они заключаются в пассивном подстройке модели под заранее определенные ярлыки, что не позволяет модели самостоятельно улучшаться и активно решать проблемы с Hallucination. Таким образом, требуется более динамичный и адаптивный метод, который бы мог не только минимизировать несоответствие между текстом и музыкой, но и повысить общую качественную согласованность генерируемых композиций. Решение этой проблемы требует разработки новых методологий, которые могли бы обеспечить более высокую точность и соответствие генерируемых музыкальных треков оригинальным текстам. Здесь важным аспектом является не только уменьшение ошибок в контексте текста, но также сохранение музыкальной качественности и эстетического выразительного потенциала композиции. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы content hallucination, авторы предлагают инновационный reinforcement learning (RL) framework, основанный на preference optimization. Основная идея заключается в том, чтобы использовать reinforcement learning для улучшения выравнивания между текстом и генерируемым музыкальным контентом. Ключевым элементом этого подхода является разработка robust hallucination preference dataset. Этот набор данных строится на основе phoneme error rate (PER) и rule-based filtering, что позволяет лучше захватить ожидания человека относительно качества и соответствия текста. PER служит ключевым показателем для измерения несоответствия между входным текстом и генерируемым аудио. В рамках RL-framework предлагаются три различных preference optimization стратегии: 1. **Direct Preference Optimization (DPO)**: Этот подход работает в off-policy режиме и направлен на увеличение вероятности положительных токенов, что приводит к существенному снижению PER на 7.4%. 2. **Proximal Policy Optimization (PPO)**: Этот метод использует on-policy подход, где модель обучается с помощью PER-based reward model. Этот подход стремится максимизировать награду и регуляризировать модель с помощью KL-divergence, что приводит к снижению PER на 4.9%. 3. **Group Relative Policy Optimization (GRPO)**: Этот подход также основан на on-policy методах и использует групповую оптимизацию, что позволяет достичь PER снижения на 4.7%. Общая архитектура RL-framework включает в себя не только обучение на основе PER, но также регуляризацию для поддержания музыкального качества, что является важной составляющей для поддержания гармонии и когерентности генерируемых композиций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены объективные и субъективные эксперименты. Объективные эксперименты включали измерение PER для оценки уровня hallucination в генерируемых музыкальных треках. Результаты показали, что DPO достигает наибольшего снижения PER (7.4%), в то время как PPO и GRPO также демонстрируют значительные улучшения (4.9% и 4.7% соответственно). Субъективные оценки, проведенные с помощью панели экспертов, подтвердили, что предложенные методы не только эффективны в снижении hallucination, но также сохраняют высокое качество музыкальных композиций. Это подтверждает, что предложенный RL-framework не только эффективен в контроле Hallucination, но также поддерживает высокий уровень музыкальной качественности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр практических применений в области генеративного музыкального искусства. Он может быть использован для создания более точных и когерентных музыкальных композиций, основанных на текстах песен. Этот подход также может быть применен для улучшения стилевой привязки и музыкальной выразительности генерируемых треков. Кроме того, данный фреймворк может быть интегрирован в различные музыкальные приложения и платформы, что позволит создавать более качественные и личностно-ориентированные музыкальные продукты. Это открывает новые возможности для исследования и развития музыкальных генеративных моделей, особенно в контексте улучшения качества и соответствия текстам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный RL-based framework является важной отправной точкой для решения проблемы content hallucination в AI-driven lyric-to-song generation. Он не только эффективен в снижении ошибок, но также поддерживает высокое качество музыкальных композиций. В будущем, этот подход может быть расширен для улучшения музыкальной стилевой привязки и дальнейшего повышения качества генерируемых композиций. Также, можно исследовать возможности интеграции этого метода с другими генеративными моделями для создания более сложных и совершенных музыкальных продуктов. Открываются также перспективы для исследования адаптивности данного подхода к различным жанрам и стилям музыки, что может привести к новым открытиям в области музыкального генеративного искусства.

Annotation:

Recent advances in audio-based generative language models have accelerated AI-driven lyric-to-song generation. However, these models frequently suffer from content hallucination, producing outputs misaligned with the input lyrics and undermining musical coherence. Current supervised fine-tuning (SFT) approaches, limited by passive label-fitting, exhibit constrained self-improvement and poor hallucination mitigation. To address this core challenge, we propose a novel reinforcement learning (RL) f...

ID: 2508.05011v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Making Prompts First-Class Citizens for Adaptive LLM Pipelines

2025-08-09

Авторы:

Ugur Cetintemel, Shu Chen, Alexander W. Lee, Deepti Raghavan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные конвейеры больших языковых моделей (LLM) становятся все более похожими на данные, управляемые системы. Они извлекают внешний контекст, компонуют промежуточные результаты, проверяют выводы и адаптируются в зависимости от отзывов, полученных во время выполнения. Однако ключевым элементом, руководящим этим процессом, является **промпт** (запрос или контекст, передаваемый модели), который часто остается хрупким и непрозрачным. Промпты часто представляют собой неструктурированные строки, которые не интегрированы с окружающим процессом выполнения. Это создает серьезные ограничения на возможности повторного использования, оптимизации и управления процессом в реальном времени. Проблема заключается в том, что традиционные подходы к управлению промптами не обеспечивают достаточной гибкости и контроля над их динамическим поведением. В результате разработчики сталкиваются с трудностями при модификации промптов в ответ на изменяющиеся условия выполнения, такие как низкая уверенность модели, высокая задержка или отсутствие необходимого контекста. Кроме того, отсутствие структурированного управления промптами затрудняет их версионирование, отладку и анализ. Предлагаемое решение должно решить эту проблему, превратив промпты в **структурированные, адаптивные и первоклассные компоненты** конвейера выполнения. Такой подход позволит динамически изменять промпты в зависимости от сигналов, полученных во время выполнения, а также обеспечит возможность их структурированного хранения и оптимизации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Решение, предложенное в работе, называется **SPEAR** — язык и среда выполнения, предназначенные для заполнения пробела в управлении промптами. SPEAR делает промпты структурированными, адаптивными и первоклассными элементами модели выполнения. SPEAR вводит **алгебру промптов**, которая определяет правила построения и адаптации промптов в конвейере. Эта алгебра поддерживает различные режимы уточнения (ручной, помощью пользователя и автоматический), обеспечивая баланс между контролем разработчика и автоматизацией процесса. Ключевыми компонентами SPEAR являются: 1. **Динамическая адаптация промптов**: SPEAR позволяет модифицировать промпты в реальном времени в ответ на сигналы, такие как низкая уверенность модели, высокая задержка или отсутствие контекста. Это обеспечивает более гибкое и реактивное поведение конвейера. 2. **Структурированное управление промптами**: SPEAR организует фрагменты промптов в версионируемые представления (views), которые могут быть инспектированы и записаны в логи. Это облегчает отладку, версионирование и повторное использование промптов. 3. **Оптимизации на уровне промптов**: Используя структурированный подход, SPEAR позволяет применять оптимизации, такие как слияние операторов (operator fusion), кэширование префиксов и повторное использование представлений, что повышает эффективность конвейера. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты для оценки эффективности SPEAR в сравнении с традиционными статическими промптами и агентскими повторными попытками (agentic retries). Результаты показали, что динамическая адаптация промптов позволяет значительно повысить точность и эффективность конвейера. Кроме того, эксперименты показали положительное влияние оптимизаций, таких как слияние операторов и кэширование префиксов, на производительность системы. Результаты демонстрируют, что SPEAR не только повышает качество вывода моделей, но и позволяет оптимизировать время выполнения и ресурсы. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SPEAR имеет широкое применение в областях, требующих высокого уровня адаптивности и контроля над промптами. Это может включать: - **Конвейеры обработки естественного языка**: Где необходима динамическая модификация запросов в зависимости от контекста. - **Автоматизированные системы**: Где критична оптимизация времени выполнения и ресурсов. - **Системы с открытым контекстом**: Где важна возможность интеграции внешних данных и их динамического использования. Преимущества SPEAR включают в себя повышенную эффективность, улучшенную отладку и повторное использование кода, что делает его привлекательным для разработчиков сложных систем на основе LLM. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SPEAR предлагает передовой подход к управлению промптами, превращая их в структурированные и адаптивные компоненты конвейера выполнения. Это позволяет решить многие проблемы, связанные с традиционными неструктурированными промптами, такие как низкая повторяемость, сложность отладки и ограниченные возможности оптимизации. Будущие исследования могут фокусироваться на расширении SPEAR для поддержки более широкого спектра режимов адаптации и оптимизации, а также на интеграции с другими системами управления данными для создания еще более гибких и эффективных конвейеров.

Annotation:

Modern LLM pipelines increasingly resemble data-centric systems: they retrieve external context, compose intermediate outputs, validate results, and adapt based on runtime feedback. Yet, the central element guiding this process -- the prompt -- remains a brittle, opaque string, disconnected from the surrounding dataflow. This disconnect limits reuse, optimization, and runtime control. In this paper, we describe our vision and an initial design for SPEAR, a language and runtime that fills this ...

ID: 2508.05012v1 cs.DB, cs.AI, cs.CL

arXiv PDF

📄 SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models

2025-08-09

Авторы:

Dai Do, Manh Nguyen, Svetha Venkatesh, Hung Le

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Проблематика исследования заключается в недостаточной эффективности процессов fine-tuning больших языковых моделей (Large Language Models, LLMs) с помощью reinforcement learning (RL). Несмотря на высокую способность LLMs к решению задач логического вывода, применение RL требует значительных вычислительных ресурсов и больших объемов данных. Это делает такой подход малоэффективным для меньших моделей, которые могли бы пользоваться преимуществами RL без необходимости в таких объемах вычислений. Традиционные методы curriculum learning или выбора данных в основном опираются на гейстерические подходы, которые не всегда обеспечивают оптимальное использование ресурсов. Имеющиеся методы требуют значительных вычислительных затрат, что ограничивает их масштабируемость и применимость в реальных условиях. Таким образом, необходимо разработать более эффективный метод, позволяющий адаптировать процесс обучения к возможностям модели, оптимизируя выбор данных и время их использования. Задача состоит в том, чтобы создать фреймворк, который может решать эту проблему, обеспечивая высокую эффективность обучения за счет оптимизации выбора и порядка применения данных для обучения. Такой подход должен уменьшить количество необходимых выборок для достижения высоких результатов, что может быть критически важно для применения LLMs в реальных задачах с ограниченными вычислительными мощностями. # ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод **SPaRFT** (Self-Paced Reinforcement Fine-Tuning), который представляет собой фреймворк для эффективного обучения LLMs с помощью RL, основанный на принципе self-paced learning. Основная идея заключается в том, чтобы оптимизировать выбор данных и порядок их использования в зависимости от текущих возможностей модели. В первую очередь, используется **кластеризация данных** (cluster-based data reduction), которая позволяет разделить обучающий набор на кластеры на основе семантических и сложностных характеристик. Это позволяет создать компактный, но разнообразный набор данных, который устраняет избыточность и повышает эффективность обучения. Далее, используется **множественный бандит** (multi-armed bandit), который рассматривает кластеры данных как "руки" (arms) и оптимизирует выбор данных на основе текущей производительности модели. Этот подход позволяет динамически регулировать выбор данных в зависимости от того, как хорошо модель справляется с различными кластерами. Таким образом, метод SPaRFT сочетает в себе эффективное управление данными и адаптивный подход к обучению, что позволяет достичь высоких результатов с минимальными ресурсами. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода SPaRFT было проведено ряд экспериментов на различных бенчмарках по реазонанию. Эксперименты показали, что SPaRFT достигает результатов, сравнимых или лучших по сравнению со стандартными методами, при этом используя до \(100\times\) меньше данных для обучения. В экспериментах использовались разнообразные наборы данных, которые позволили продемонстрировать эффективность кластеризации и адаптивного выбора данных. Анализ результатов показал, что объединение кластеризации данных и множественного бандита значительно повышает эффективность обучения. Кроме того, были проведены абляционные исследования, которые подтвердили важность каждого из компонентов метода. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение метода SPaRFT заключается в том, что он позволяет эффективно использовать ресурсы для обучения LLMs, что может быть критически важно в ситуациях, когда доступны ограниченные вычислительные мощности. Этот подход может быть применен в различных областях, где необходимо обучить модели с высокими требованиями к выводу, но при этом с ограничениями по ресурсам. SPaRFT также может быть полезен в ситуациях, когда необходимо быстро адаптировать модель к новым задачам, не требуя больших объемов данных для обучения. Это может быть особенно актуально в задачах, требующих быстрого развертывания моделей, таких как обработка естественного языка в реальном времени или решение задач, требующих высокой скорости адаптации. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках исследования было показано, что SPaRFT может значительно повысить эффективность обучения LLMs с помощью RL, оптимизируя процесс выбора данных и порядка их использования. Основным достижением является то, что метод позволяет достичь сравнимых или лучших результатов по сравнению со стандартными подходами, при этом значительно сокращая объем необходимых данных. Будущие исследования могут быть направлены на дальнейшее улучшение метода, в том числе на расширение его применимости к более широкому классу задач и моделей. Кроме того, можно рассмотреть возможность интеграции SPaRFT с другими методами обучения, чтобы достичь еще большей эффективности и масштабируемости.

Annotation:

Large language models (LLMs) have shown strong reasoning capabilities when fine-tuned with reinforcement learning (RL). However, such methods require extensive data and compute, making them impractical for smaller models. Current approaches to curriculum learning or data selection are largely heuristic-driven or demand extensive computational resources, limiting their scalability and generalizability. We propose \textbf{SPaRFT}, a self-paced learning framework that enables efficient learning bas...

ID: 2508.05015v1 cs.LG, cs.AI

arXiv PDF

📄 Skin-SOAP: A Weakly Supervised Framework for Generating Structured SOAP Notes

2025-08-09

Авторы:

Sadia Kamal, Tim Oates, Joy Wan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Карцинома кожи является самой распространенной формой рака в мире, вызывая значительные затраты на здравоохранение, превышающие 8 миллиардов долларов в год. Ранняя диагностика, точное определение и своевременное лечение играют ключевую роль в повышении шансов на выживание больных. Однако клиническая документирование, необходимое для эффективного управления пациентами, часто является трудоемким и вызывает выгорание у медицинских работников. Документирование врачей основывается на SOAP-нотации (Subjective, Objective, Assessment, and Plan), которая представляет собой детальный формат для записи клинической информации. Однако ручное создание таких заметок требует значительных усилий и времени, что создает дополнительную нагрузку на медицинский персонал. Кроме того, обучение моделей для автоматизации этого процесса часто требует больших объемов аннотированных данных, что может быть непрактично в реальной клинической практике. В этой работе авторы предлагают Skin-SOAP, инновационный метод для автоматического создания структурированных SOAP-заметок на основе минимальных входных данных, таких как изображения лезий и разреженные клинические тексты. Эта работа направлена на уменьшение зависимости от ручных аннотаций и повышение масштабируемости автоматизации документирования, что может существенно облегчить работу клиницистов и снизить риск выгорания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Skin-SOAP представляет собой мультимодальный фреймворк, который использует слабоконтролируемый подход для генерации SOAP-заметок. Метод объединяет визуальную информацию из изображений лезий и текстовую информацию из клинических заметок для создания структурированных клинических документов. Архитектура Skin-SOAP включает в себя несколько компонентов: модуль обработки изображений, модуль обработки текста и модуль генерации SOAP-нотации. Изображения лезий обрабатываются с помощью нейронных сетей для извлечения визуальных признаков, в то время как текст обрабатывается с помощью моделей естественного языка для извлечения клинических концептов. Затем эти признаки объединяются и передаются в модуль генерации, который использует слабоконтролируемые методы для создания конечных SOAP-заметок. Одним из ключевых преимуществ этого подхода является уменьшение необходимости в больших объемах аннотированных данных. Skin-SOAP использует слабоконтролируемые методы обучения, что позволяет создавать клинически релевантные заметки даже при ограниченном количестве данных. Это делает фреймворк более пригодным для реального клинического применения, где аннотированные данные часто отсутствуют или трудно доступны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Skin-SOAP авторы провели серию экспериментов, используя данные, включающие изображения лезий и клинические тексты. Результаты экспериментов сравнивались с тремя современными моделями: GPT-4o, Claude, и DeepSeek Janus Pro. Для оценки клинической релевантности Skin-SOAP, авторы ввели два новых метрики: MedConceptEval и Clinical Coherence Score (CCS). MedConceptEval измеряет степень соответствия генерируемых заметок клиническим концептом

Annotation:

Skin carcinoma is the most prevalent form of cancer globally, accounting for over $8 billion in annual healthcare expenditures. Early diagnosis, accurate and timely treatment are critical to improving patient survival rates. In clinical settings, physicians document patient visits using detailed SOAP (Subjective, Objective, Assessment, and Plan) notes. However, manually generating these notes is labor-intensive and contributes to clinician burnout. In this work, we propose skin-SOAP, a weakly su...

ID: 2508.05019v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
3379
3380
3381
3382
3383
3402
3403

Показано 33801 - 33810 из 34022 записей