📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие ИИ привело к появлению мощных Large Language Models (LLMs), которые могут выполнять сложные задачи резонанса и логического вывода. Однако, несмотря на их способность к общению и решению задач, эти модели ограничены тем, что их обучение требует больших объемов человеческих данных, включая тщательно отмеченные наборы данных и человеческие образцы. Это создает серьезную проблему для развития ИИ, поскольку создание таких данных требует значительных ресурсов и человеческого вмешательства. Традиционные подходы, такие как fine-tuning и reinforcement learning, хорошо работают для доработки моделей, но они не могут обеспечить полностью автономное развитие моделей. Это становится ключевым ограничением для достижения супер-интеллектуальных систем, которые могли бы развиваться самостоятельно, не завися от человеческого вмешательства. Более того, большинство существующих подходов к обучению LLMs ограничены использованием данных, созданных человеком, что ограничивает возможности моделей в решении задач, которые выходят за рамки представленных данных. Мотивацией для разработки R-Zero является необходимость преодоления этого ограничения. Исследователи стремятся создать систему, которая может создавать, оптимизировать и улучшать свои собственные данные, без необходимости во внешних источниках. Такой подход может позволить LLMs развиваться в независимости от предоставленных человеком данных, что, в свою очередь, может привести к более сильным и автономным ИИ-системам. ## ПРЕДЛОЖЕННЫЙ МЕТОД R-Zero представляет собой новый фреймворк для автономного обучения LLMs, основанный на концепции самоэволюции. Он включает в себя два независимых модели: Challenger и Solver. Обе модели инициализируются на основе одной базовой LLM, но имеют разные роли. Challenger отвечает за генерацию задач, которые находятся на границе возможностей Solver, тогда как Solver пытается решить эти задачи. Процесс обучения основан на механизме взаимодействия между Challenger и Solver. Challenger получает награду за генерацию задач, которые Solver не может решить, но которые находятся на пределе его способностей. Это побуждает Challenger создавать все более сложные задачи. С другой стороны, Solver получает награду за успешное решение этих задач, что стимулирует его к постоянному улучшению. Этот процесс создает автономный куррикулум, который позволяет моделям эволюционировать вместе. Благодаря этому, R-Zero может работать без необходимости во внешних наборах данных, поскольку она генерирует свои собственные данные в процессе взаимодействия. Это позволяет моделям совершенствоваться в решении задач, которые имеют отношение к резонансу и логическому выводу, не требуя никаких внешних меток или человеческого вмешательства. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследователи провели эксперименты, чтобы оценить эффективность R-Zero. Они использовали разные базовые модели LLMs, включая Qwen3-4B-Base, для проверки улучшений в решении задач резонанса и логического вывода. Результаты показали, что R-Zero значительно улучшил результаты моделей в различных задачах. Например, на математических задачах резонанса, Qwen3-4B-Base показала улучшение на +6.49 по сравнению с базовой моделью. Также, на задачах общего домена, улучшение составило +7.54. Эти результаты демонстрируют, что R-Zero эффективен в улучшении способностей резонанса моделей, даже при отсутствии внешних данных. Это подтверждает, что метод самоэволюции может быть использован для повышения способностей LLMs в решении сложных задач, не требуя больших наборов данных или человеческого вмешательства. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ R-Zero имеет потенциал применения в различных областях, где необходимо улучшение способностей резонанса и логического вывода LLMs. Также, он может быть использован в задачах, где требуется автономная разработка данных или обучение моделей в условиях отсутствия внешних источников данных. Это может быть полезно в таких областях, как образование, медицина, финансы и другие сферы, где необходимо решать сложные задачи, не имея доступа к большим наборам данных. Преимущества R-Zero в том, что он позволяет создавать модели, которые могут развиваться самостоятельно, не требуя больших инвестиций в создание данных. Это может существенно упростить процесс разработки и обучения моделей, особенно в ситуациях, где человеческие ресурсы ограничены. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ R-Zero является важной шагом в развитии автономных LLMs, которые могут развиваться без необходимости во внешних данных. Он показывает, что самоэволюция может быть эффективным методом для улучшения способностей моделей в решении задач резонанса и логического вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении этой методологии, включая расширение ее применимости к другим типам задач и моделей, а также исследование возможностей для применения этого подхода в реальных ситуациях.
Annotation:
Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully a...
ID: 2508.05004v1 cs.LG, cs.AI, cs.CL
Авторы:

Youzhi Zhang, Yufei Li, Gaofeng Meng, Hongbin Liu, Jiebo Luo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Молекулярный докинг является ключевой задачей в области разработки лекарственных препаратов. Он заключается в прогнозировании взаимодействий между малыми молекулами (лигандами) и пространствами в протеинах (портами), что позволяет идентифицировать потенциальные лекарственные соединения. Распространенные мультизадачные модели докинга часто демонстрируют низкую точность в задаче докинга лигандов по сравнению с докингом протеинов. Это различие связано с фундаментальными отличиями в структурной сложности лигандов и протеинов. Лиганды представляют собой малые молекулы, обладающие высокой гибкостью, в то время как протеины имеют более стабильные и сложные трехмерные структуры. Традиционные подходы часто не могут эффективно учитывать это динамическое взаимодействие, что приводит к неточностям в прогнозировании. Эта проблема особенно актуальна в контексте высокой скорости и точности, необходимых для современных процессов разработки лекарств. Таким образом, необходимо разработать новый метод, который бы учитывал сложность обеих компонент — лигандов и протеинов — и обеспечивал бы более точное и динамичное прогнозирование их взаимодействий. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается инновационный подход, основанный на теоретических основах теории игр. Рассматривается процесс докинга как двухигроковая игра, называемая "Docking Game". В этой игре один игрок представляет лиганд, а другой — протеин. Для решения этой игры разработан алгоритм Loop Self-Play (LoopPlay). LoopPlay работает на двух уровнях: внешний и внутренний циклы. На внешнем цикле игроки (лиганд и протеин) обмениваются прогнозными положениями, позволяя каждому из них адаптироваться к прогнозам другого. На внутреннем цикле каждый игрок уточняет свои предсказания, включая в модель собственные предсказанные положения. Этот подход позволяет достигать взаимодействия и адаптации между моделями лиганда и протеина, обеспечивая более точные результаты. Алгоритм LoopPlay гарантирует сходимость процесса, что подтверждается теоретическим анализом. Это обеспечивает стабильность и эффективность оптимизации, необходимые для достижения высокой точности модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода проведены эксперименты на публичных наборах данных, специально разработанных для задач молекулярного докинга. Результаты показали, что LoopPlay превосходит существующие методы примерно на 10% по точности предсказания точных положений связывания. Эксперименты также показали высокую стабильность и скорость работы предлагаемого метода. LoopPlay успешно справляется с высокой сложностью структур лигандов и протеинов, обеспечивая более точные результаты в сравнении с предыдущими подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в области разработки лекарственных препаратов. Улучшенная точность прогнозирования взаимодействий между лигандами и протеинами позволяет ускорить процесс поиска новых лекарств, снизить затраты на экспериментальные исследования и повысить эффективность разработки. Потенциальное влияние LoopPlay может быть ощутимо в таких областях, как персонализированная медицина, разработка лекарственных препаратов для редких заболеваний и борьба с антимикробной резистенцией. Также этот метод может быть использован в академических исследованиях для глубинного анализа взаимодействий молекул. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Представленный метод LoopPlay значительно улучшает точность прогнозирования взаимодействий между лигандами и протеинами, предлагая новый уровень точности и динамичности в задачах молекулярного докинга. Будущие исследования могут фокусироваться на расширении этого подхода для более сложных молекулярных систем, а также на интеграции этого метода с другими технологиями в области компьютерного моделирования в химии и биологии.
Annotation:
Molecular docking is a crucial aspect of drug discovery, as it predicts the binding interactions between small-molecule ligands and protein pockets. However, current multi-task learning models for docking often show inferior performance in ligand docking compared to protein pocket docking. This disparity arises largely due to the distinct structural complexities of ligands and proteins. To address this issue, we propose a novel game-theoretic framework that models the protein-ligand interaction ...
ID: 2508.05006v1 cs.AI
Авторы:

Bin Han, Robert Wolfe, Anat Caspi, Bill Howe

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Интеграция пространственных данных представляет собой ключевую задачу в области геоинформатики и городского планирования. Традиционные подходы, основанные на правилах, не в состоянии охватить все случаи на практике, что приводит к необходимости ручной проверки и исправления. Методы машинного обучения также сталкиваются с трудностями, требуя сбора и аннотирования больших объемов зависимых от задачи данных. В этой связи Large Language Models (LLMs) становятся перспективным решением, способным обрабатывать гетерогенные и шумные пространственные данные. Однако до сих пор неясно, насколько эффективно LLMs могут выполнять пространственное рассуждение и интегрировать данные на макро- и микроуровнях. В данном исследовании авторы сосредоточились на понимании способности LLMs к пространственному рассуждению, особенно в контексте взаимосвязей между элементами городской среды, такими как дороги и тротуары. Целью было оценить, могут ли LLMs эффективно интегрировать пространственные данные, связанные с человеческим опытом, и какие проблемы могут возникнуть при этом. Исследование также рассматривает возможности улучшения результатов при использовании дополнительных функций и методов, таких как подход "проверить и уточнить". ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предложили методологию, основанную на использовании LLMs для интеграции пространственных данных. Исследование включает в себя анализ способности LLMs к рассуждению о пространственных отношениях, особенно тех, которые возникают в городских средах. Для этого использовались запросы, описывающие связи между различными элементами городской инфраструктуры. При обнаружении несоответствий или логических противоречий в ответах LLMs, исследователи применили метод "проверить и уточнить". Этот подход позволяет исправлять ошибочные первоначальные ответы, сохраняя точные результаты. Архитектура метода включает в себя пошаговую модификацию запросов, чтобы снизить зависимость LLMs от пространственного рассуждения и увеличить точность результатов. Дополнительно, исследование рассматривает возможности интеграции многомодальных данных и поддержки различных форматов данных в реальных приложениях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на базе различных пространственных наборов данных, охватывающих городские среды. Результаты показали, что LLMs обладают определенными пространственными способностями к рассуждению, но сталкиваются с трудностями при попытке соединить макро- и микроуровни данных. Например, LLMs могут продемонстрировать понимание связей между дорогами и тротуарами, но затрудняются в выполнении точных вычислительных задач, связанных с геометрией. При использовании дополнительных функций, таких как геометрические данные и контекстуальные описания, LLMs показали высокую эффективность в создании результатов. Метод "проверить и уточнить" также демонстрирует высокую эффективность в исправлении ошибок, сохраняя при этом точные ответы. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование показывает, что LLMs могут стать ценным инструментом для интеграции пространственных данных в реальных приложениях. Они предлагают гибкую альтернативу традиционным правилам и подходам машинного обучения, которые требуют большого объема ручной работы. Это может быть особенно полезно в областях городского планирования, геоинформатики и управления пространственными данными. Преимущества LLMs заключаются в их способности адаптироваться к различным форматам данных и обрабатывать шумные, неструктурированные данные. Кроме того, метод "проверить и уточнить" может быть использован для повышения точности и надежности результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что LLMs имеют большой потенциал для интеграции пространственных данных, но требуют дополнительных улучшений для решения проблем, связанных с пространственным рассуждением. Будущие исследования могут фокусироваться на разработке методов пост-обучения, интеграции многомодальных данных и поддержке различных форматов данных. Эти усовершенствования могут позволить LLMs стать еще более эффективными инструментами для решения сложных пространственных задач в различных прикладных областях.
Annotation:
We explore the application of large language models (LLMs) to empower domain experts in integrating large, heterogeneous, and noisy urban spatial datasets. Traditional rule-based integration methods are unable to cover all edge cases, requiring manual verification and repair. Machine learning approaches require collecting and labeling of large numbers of task-specific samples. In this study, we investigate the potential of LLMs for spatial data integration. Our analysis first considers how LLMs ...
ID: 2508.05009v1 cs.AI, cs.CL
Авторы:

Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время AI-driven lyric-to-song generation представляет собой одну из наиболее перспективных областей в музыкальном генеративном искусстве. На основе аудио-ориентированных генеративных языковых моделей (Generative Audio-based Language Models, GALMs), эти системы способны превращать тексты песен в полноценные музыкальные композиции. Однако, несмотря на значительные успехи в этой области, существует серьезная проблема, связанная с content hallucination. Это явление заключается в том, что модели часто генерируют выходные данные, которые не соотносятся с входными текстами песен, что приводит к потере смысловой согласованности и нарушению музыкальной когеренции. Традиционные подходы к решению этой проблемы, такие как supervised fine-tuning (SFT), оказываются ограниченными в своей эффективности. Они заключаются в пассивном подстройке модели под заранее определенные ярлыки, что не позволяет модели самостоятельно улучшаться и активно решать проблемы с Hallucination. Таким образом, требуется более динамичный и адаптивный метод, который бы мог не только минимизировать несоответствие между текстом и музыкой, но и повысить общую качественную согласованность генерируемых композиций. Решение этой проблемы требует разработки новых методологий, которые могли бы обеспечить более высокую точность и соответствие генерируемых музыкальных треков оригинальным текстам. Здесь важным аспектом является не только уменьшение ошибок в контексте текста, но также сохранение музыкальной качественности и эстетического выразительного потенциала композиции. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы content hallucination, авторы предлагают инновационный reinforcement learning (RL) framework, основанный на preference optimization. Основная идея заключается в том, чтобы использовать reinforcement learning для улучшения выравнивания между текстом и генерируемым музыкальным контентом. Ключевым элементом этого подхода является разработка robust hallucination preference dataset. Этот набор данных строится на основе phoneme error rate (PER) и rule-based filtering, что позволяет лучше захватить ожидания человека относительно качества и соответствия текста. PER служит ключевым показателем для измерения несоответствия между входным текстом и генерируемым аудио. В рамках RL-framework предлагаются три различных preference optimization стратегии: 1. **Direct Preference Optimization (DPO)**: Этот подход работает в off-policy режиме и направлен на увеличение вероятности положительных токенов, что приводит к существенному снижению PER на 7.4%. 2. **Proximal Policy Optimization (PPO)**: Этот метод использует on-policy подход, где модель обучается с помощью PER-based reward model. Этот подход стремится максимизировать награду и регуляризировать модель с помощью KL-divergence, что приводит к снижению PER на 4.9%. 3. **Group Relative Policy Optimization (GRPO)**: Этот подход также основан на on-policy методах и использует групповую оптимизацию, что позволяет достичь PER снижения на 4.7%. Общая архитектура RL-framework включает в себя не только обучение на основе PER, но также регуляризацию для поддержания музыкального качества, что является важной составляющей для поддержания гармонии и когерентности генерируемых композиций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены объективные и субъективные эксперименты. Объективные эксперименты включали измерение PER для оценки уровня hallucination в генерируемых музыкальных треках. Результаты показали, что DPO достигает наибольшего снижения PER (7.4%), в то время как PPO и GRPO также демонстрируют значительные улучшения (4.9% и 4.7% соответственно). Субъективные оценки, проведенные с помощью панели экспертов, подтвердили, что предложенные методы не только эффективны в снижении hallucination, но также сохраняют высокое качество музыкальных композиций. Это подтверждает, что предложенный RL-framework не только эффективен в контроле Hallucination, но также поддерживает высокий уровень музыкальной качественности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр практических применений в области генеративного музыкального искусства. Он может быть использован для создания более точных и когерентных музыкальных композиций, основанных на текстах песен. Этот подход также может быть применен для улучшения стилевой привязки и музыкальной выразительности генерируемых треков. Кроме того, данный фреймворк может быть интегрирован в различные музыкальные приложения и платформы, что позволит создавать более качественные и личностно-ориентированные музыкальные продукты. Это открывает новые возможности для исследования и развития музыкальных генеративных моделей, особенно в контексте улучшения качества и соответствия текстам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный RL-based framework является важной отправной точкой для решения проблемы content hallucination в AI-driven lyric-to-song generation. Он не только эффективен в снижении ошибок, но также поддерживает высокое качество музыкальных композиций. В будущем, этот подход может быть расширен для улучшения музыкальной стилевой привязки и дальнейшего повышения качества генерируемых композиций. Также, можно исследовать возможности интеграции этого метода с другими генеративными моделями для создания более сложных и совершенных музыкальных продуктов. Открываются также перспективы для исследования адаптивности данного подхода к различным жанрам и стилям музыки, что может привести к новым открытиям в области музыкального генеративного искусства.
Annotation:
Recent advances in audio-based generative language models have accelerated AI-driven lyric-to-song generation. However, these models frequently suffer from content hallucination, producing outputs misaligned with the input lyrics and undermining musical coherence. Current supervised fine-tuning (SFT) approaches, limited by passive label-fitting, exhibit constrained self-improvement and poor hallucination mitigation. To address this core challenge, we propose a novel reinforcement learning (RL) f...
ID: 2508.05011v1 cs.SD, cs.AI, eess.AS
Авторы:

Ugur Cetintemel, Shu Chen, Alexander W. Lee, Deepti Raghavan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные конвейеры больших языковых моделей (LLM) становятся все более похожими на данные, управляемые системы. Они извлекают внешний контекст, компонуют промежуточные результаты, проверяют выводы и адаптируются в зависимости от отзывов, полученных во время выполнения. Однако ключевым элементом, руководящим этим процессом, является **промпт** (запрос или контекст, передаваемый модели), который часто остается хрупким и непрозрачным. Промпты часто представляют собой неструктурированные строки, которые не интегрированы с окружающим процессом выполнения. Это создает серьезные ограничения на возможности повторного использования, оптимизации и управления процессом в реальном времени. Проблема заключается в том, что традиционные подходы к управлению промптами не обеспечивают достаточной гибкости и контроля над их динамическим поведением. В результате разработчики сталкиваются с трудностями при модификации промптов в ответ на изменяющиеся условия выполнения, такие как низкая уверенность модели, высокая задержка или отсутствие необходимого контекста. Кроме того, отсутствие структурированного управления промптами затрудняет их версионирование, отладку и анализ. Предлагаемое решение должно решить эту проблему, превратив промпты в **структурированные, адаптивные и первоклассные компоненты** конвейера выполнения. Такой подход позволит динамически изменять промпты в зависимости от сигналов, полученных во время выполнения, а также обеспечит возможность их структурированного хранения и оптимизации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Решение, предложенное в работе, называется **SPEAR** — язык и среда выполнения, предназначенные для заполнения пробела в управлении промптами. SPEAR делает промпты структурированными, адаптивными и первоклассными элементами модели выполнения. SPEAR вводит **алгебру промптов**, которая определяет правила построения и адаптации промптов в конвейере. Эта алгебра поддерживает различные режимы уточнения (ручной, помощью пользователя и автоматический), обеспечивая баланс между контролем разработчика и автоматизацией процесса. Ключевыми компонентами SPEAR являются: 1. **Динамическая адаптация промптов**: SPEAR позволяет модифицировать промпты в реальном времени в ответ на сигналы, такие как низкая уверенность модели, высокая задержка или отсутствие контекста. Это обеспечивает более гибкое и реактивное поведение конвейера. 2. **Структурированное управление промптами**: SPEAR организует фрагменты промптов в версионируемые представления (views), которые могут быть инспектированы и записаны в логи. Это облегчает отладку, версионирование и повторное использование промптов. 3. **Оптимизации на уровне промптов**: Используя структурированный подход, SPEAR позволяет применять оптимизации, такие как слияние операторов (operator fusion), кэширование префиксов и повторное использование представлений, что повышает эффективность конвейера. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты для оценки эффективности SPEAR в сравнении с традиционными статическими промптами и агентскими повторными попытками (agentic retries). Результаты показали, что динамическая адаптация промптов позволяет значительно повысить точность и эффективность конвейера. Кроме того, эксперименты показали положительное влияние оптимизаций, таких как слияние операторов и кэширование префиксов, на производительность системы. Результаты демонстрируют, что SPEAR не только повышает качество вывода моделей, но и позволяет оптимизировать время выполнения и ресурсы. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SPEAR имеет широкое применение в областях, требующих высокого уровня адаптивности и контроля над промптами. Это может включать: - **Конвейеры обработки естественного языка**: Где необходима динамическая модификация запросов в зависимости от контекста. - **Автоматизированные системы**: Где критична оптимизация времени выполнения и ресурсов. - **Системы с открытым контекстом**: Где важна возможность интеграции внешних данных и их динамического использования. Преимущества SPEAR включают в себя повышенную эффективность, улучшенную отладку и повторное использование кода, что делает его привлекательным для разработчиков сложных систем на основе LLM. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SPEAR предлагает передовой подход к управлению промптами, превращая их в структурированные и адаптивные компоненты конвейера выполнения. Это позволяет решить многие проблемы, связанные с традиционными неструктурированными промптами, такие как низкая повторяемость, сложность отладки и ограниченные возможности оптимизации. Будущие исследования могут фокусироваться на расширении SPEAR для поддержки более широкого спектра режимов адаптации и оптимизации, а также на интеграции с другими системами управления данными для создания еще более гибких и эффективных конвейеров.
Annotation:
Modern LLM pipelines increasingly resemble data-centric systems: they retrieve external context, compose intermediate outputs, validate results, and adapt based on runtime feedback. Yet, the central element guiding this process -- the prompt -- remains a brittle, opaque string, disconnected from the surrounding dataflow. This disconnect limits reuse, optimization, and runtime control. In this paper, we describe our vision and an initial design for SPEAR, a language and runtime that fills this ...
ID: 2508.05012v1 cs.DB, cs.AI, cs.CL
Авторы:

Dai Do, Manh Nguyen, Svetha Venkatesh, Hung Le

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Проблематика исследования заключается в недостаточной эффективности процессов fine-tuning больших языковых моделей (Large Language Models, LLMs) с помощью reinforcement learning (RL). Несмотря на высокую способность LLMs к решению задач логического вывода, применение RL требует значительных вычислительных ресурсов и больших объемов данных. Это делает такой подход малоэффективным для меньших моделей, которые могли бы пользоваться преимуществами RL без необходимости в таких объемах вычислений. Традиционные методы curriculum learning или выбора данных в основном опираются на гейстерические подходы, которые не всегда обеспечивают оптимальное использование ресурсов. Имеющиеся методы требуют значительных вычислительных затрат, что ограничивает их масштабируемость и применимость в реальных условиях. Таким образом, необходимо разработать более эффективный метод, позволяющий адаптировать процесс обучения к возможностям модели, оптимизируя выбор данных и время их использования. Задача состоит в том, чтобы создать фреймворк, который может решать эту проблему, обеспечивая высокую эффективность обучения за счет оптимизации выбора и порядка применения данных для обучения. Такой подход должен уменьшить количество необходимых выборок для достижения высоких результатов, что может быть критически важно для применения LLMs в реальных задачах с ограниченными вычислительными мощностями. # ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод **SPaRFT** (Self-Paced Reinforcement Fine-Tuning), который представляет собой фреймворк для эффективного обучения LLMs с помощью RL, основанный на принципе self-paced learning. Основная идея заключается в том, чтобы оптимизировать выбор данных и порядок их использования в зависимости от текущих возможностей модели. В первую очередь, используется **кластеризация данных** (cluster-based data reduction), которая позволяет разделить обучающий набор на кластеры на основе семантических и сложностных характеристик. Это позволяет создать компактный, но разнообразный набор данных, который устраняет избыточность и повышает эффективность обучения. Далее, используется **множественный бандит** (multi-armed bandit), который рассматривает кластеры данных как "руки" (arms) и оптимизирует выбор данных на основе текущей производительности модели. Этот подход позволяет динамически регулировать выбор данных в зависимости от того, как хорошо модель справляется с различными кластерами. Таким образом, метод SPaRFT сочетает в себе эффективное управление данными и адаптивный подход к обучению, что позволяет достичь высоких результатов с минимальными ресурсами. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода SPaRFT было проведено ряд экспериментов на различных бенчмарках по реазонанию. Эксперименты показали, что SPaRFT достигает результатов, сравнимых или лучших по сравнению со стандартными методами, при этом используя до \(100\times\) меньше данных для обучения. В экспериментах использовались разнообразные наборы данных, которые позволили продемонстрировать эффективность кластеризации и адаптивного выбора данных. Анализ результатов показал, что объединение кластеризации данных и множественного бандита значительно повышает эффективность обучения. Кроме того, были проведены абляционные исследования, которые подтвердили важность каждого из компонентов метода. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение метода SPaRFT заключается в том, что он позволяет эффективно использовать ресурсы для обучения LLMs, что может быть критически важно в ситуациях, когда доступны ограниченные вычислительные мощности. Этот подход может быть применен в различных областях, где необходимо обучить модели с высокими требованиями к выводу, но при этом с ограничениями по ресурсам. SPaRFT также может быть полезен в ситуациях, когда необходимо быстро адаптировать модель к новым задачам, не требуя больших объемов данных для обучения. Это может быть особенно актуально в задачах, требующих быстрого развертывания моделей, таких как обработка естественного языка в реальном времени или решение задач, требующих высокой скорости адаптации. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках исследования было показано, что SPaRFT может значительно повысить эффективность обучения LLMs с помощью RL, оптимизируя процесс выбора данных и порядка их использования. Основным достижением является то, что метод позволяет достичь сравнимых или лучших результатов по сравнению со стандартными подходами, при этом значительно сокращая объем необходимых данных. Будущие исследования могут быть направлены на дальнейшее улучшение метода, в том числе на расширение его применимости к более широкому классу задач и моделей. Кроме того, можно рассмотреть возможность интеграции SPaRFT с другими методами обучения, чтобы достичь еще большей эффективности и масштабируемости.
Annotation:
Large language models (LLMs) have shown strong reasoning capabilities when fine-tuned with reinforcement learning (RL). However, such methods require extensive data and compute, making them impractical for smaller models. Current approaches to curriculum learning or data selection are largely heuristic-driven or demand extensive computational resources, limiting their scalability and generalizability. We propose \textbf{SPaRFT}, a self-paced learning framework that enables efficient learning bas...
ID: 2508.05015v1 cs.LG, cs.AI
Авторы:

Sadia Kamal, Tim Oates, Joy Wan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Карцинома кожи является самой распространенной формой рака в мире, вызывая значительные затраты на здравоохранение, превышающие 8 миллиардов долларов в год. Ранняя диагностика, точное определение и своевременное лечение играют ключевую роль в повышении шансов на выживание больных. Однако клиническая документирование, необходимое для эффективного управления пациентами, часто является трудоемким и вызывает выгорание у медицинских работников. Документирование врачей основывается на SOAP-нотации (Subjective, Objective, Assessment, and Plan), которая представляет собой детальный формат для записи клинической информации. Однако ручное создание таких заметок требует значительных усилий и времени, что создает дополнительную нагрузку на медицинский персонал. Кроме того, обучение моделей для автоматизации этого процесса часто требует больших объемов аннотированных данных, что может быть непрактично в реальной клинической практике. В этой работе авторы предлагают Skin-SOAP, инновационный метод для автоматического создания структурированных SOAP-заметок на основе минимальных входных данных, таких как изображения лезий и разреженные клинические тексты. Эта работа направлена на уменьшение зависимости от ручных аннотаций и повышение масштабируемости автоматизации документирования, что может существенно облегчить работу клиницистов и снизить риск выгорания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Skin-SOAP представляет собой мультимодальный фреймворк, который использует слабоконтролируемый подход для генерации SOAP-заметок. Метод объединяет визуальную информацию из изображений лезий и текстовую информацию из клинических заметок для создания структурированных клинических документов. Архитектура Skin-SOAP включает в себя несколько компонентов: модуль обработки изображений, модуль обработки текста и модуль генерации SOAP-нотации. Изображения лезий обрабатываются с помощью нейронных сетей для извлечения визуальных признаков, в то время как текст обрабатывается с помощью моделей естественного языка для извлечения клинических концептов. Затем эти признаки объединяются и передаются в модуль генерации, который использует слабоконтролируемые методы для создания конечных SOAP-заметок. Одним из ключевых преимуществ этого подхода является уменьшение необходимости в больших объемах аннотированных данных. Skin-SOAP использует слабоконтролируемые методы обучения, что позволяет создавать клинически релевантные заметки даже при ограниченном количестве данных. Это делает фреймворк более пригодным для реального клинического применения, где аннотированные данные часто отсутствуют или трудно доступны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Skin-SOAP авторы провели серию экспериментов, используя данные, включающие изображения лезий и клинические тексты. Результаты экспериментов сравнивались с тремя современными моделями: GPT-4o, Claude, и DeepSeek Janus Pro. Для оценки клинической релевантности Skin-SOAP, авторы ввели два новых метрики: MedConceptEval и Clinical Coherence Score (CCS). MedConceptEval измеряет степень соответствия генерируемых заметок клиническим концептом
Annotation:
Skin carcinoma is the most prevalent form of cancer globally, accounting for over $8 billion in annual healthcare expenditures. Early diagnosis, accurate and timely treatment are critical to improving patient survival rates. In clinical settings, physicians document patient visits using detailed SOAP (Subjective, Objective, Assessment, and Plan) notes. However, manually generating these notes is labor-intensive and contributes to clinician burnout. In this work, we propose skin-SOAP, a weakly su...
ID: 2508.05019v1 cs.CV, cs.AI, cs.LG
Авторы:

Kun Peng, Cong Cao, Hao Peng, Zhifeng Hao, Lei Jiang, Kongjing Gu, Yanbing Liu, Philip S. Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема извлечения четырёхкомпонентных структур (target-aspect-opinion-sentiment quadruple) в рамках диалогов представляет собой одну из ключевых задач в области анализа настроения (sentiment analysis). Диалоги, в отличие от текстов с единым авторством, характеризуются многокруглыми обсуждениями, в которых участвуют несколько интерлокуторов, часто с неявными или контекстуальными связями. Традиционные методы анализа настроения в диалогах строятся на предположении, что существует единое распределение элементов настроения в рамках всего диалога. Однако это предположение часто не соответствует действительности. Диалоги могут содержать несколько семантически независимых поддиалогов, соотношение между которыми не всегда очевидно. Такая сложность приводит к значительному увеличению шума при извлечении элементов настроения, так как модели пытаются установить связи между словами, которые фактически не относятся друг к другу. Это может привести к неточным результатам и понижению качества извлечения. Кроме того, существующие методы часто не учитывают структурную и семантическую комплексность диалогов, что делает задачу извлечения четырёхкомпонентных структур ещё более сложной. Ключевой проблемой является необходимость разделения диалога на семантически независимые части, чтобы уменьшить шум и повысить точность извлечения. Однако простое разделение диалога на основе ответов или последовательных сообщений не гарантирует сохранение семантической целостности. Таким образом, необходимо разработать более информированный подход, который мог бы оптимально разделять диалоги на поддиалоги, сохраняя в то же время важные семантические связи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный подход, основанный на алгоритме структурного энтропийного минимизации (structural entropy minimization) для разделения диалогов на семантически независимые поддиалоги. Этот метод позволяет выделить те утверждения (utterances), которые несут релевантную информацию, отделяя их от несвязанных или менее важных частей. Алгоритм оптимизирует разделение, минимизируя энтропию, что гарантирует максимальное сохранение связанной информации и исключение шума. Помимо разделения, авторы предлагают двухступенчатый фреймворк для извлечения четырёхкомпонентных структур. На первом этапе выделяются отдельные элементы настроения (target, aspect, opinion, sentiment) на уровне каждого утверждения. На втором этапе производится сопоставление этих элементов на уровне поддиалогов, что позволяет формировать полные четырёхкомпонентные структуры. Ключевой архитектурной особенностью этого метода является его способность сохранить контекстуальные связи между элементами настроения в рамках поддиалогов, избегая ошибок, вызванных несвязанными утверждениями. Такой подход позволяет существующим моделям извлечения настроения работать более эффективно и точно, снижая влияние шума. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели широкий спектр экспериментов на датасетах, предназначенных для задачи DiaASQ. Эти датасеты включают диалоги с несколькими интерлокуторами и несколькими раундами обсуждения. Результаты показали, что предложенный метод значительно превосходит существующие подходы по метрикам точности и полноты извлечения четырёхкомпонентных структур. Кроме того, эксперименты показали, что использование алгоритма структурного энтропийного минимизации для разделения диалогов на поддиалоги значительно сокращает время вычислений и снижает вычислительные затраты. Это делает метод более эффективным с точки зрения ресурсов, необходимых для обработки больших диалогов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих детального анализа диалогов, таких как обработка естественного языка (NLP), анализ медиа-контента, и анализ отзывов клиентов. Благодаря его способности точно извлекать четырёхкомпонентные структуры, он может быть использован для автоматического мониторинга отзывов, определения ключевых тем обсуждения, и повышения качества взаимодействия в чат-ботах. Преимущества этого метода заключаются в его высокой точности, низких вычислительных затратах и способности эффективно обрабатывать сложные структуры диалогов. Это делает его применимым в различных отраслевых приложениях, где необходимо понимание контекста и точное извлечение элементов настроения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод значительно улучшает качество извлечения четырёхкомпонентных структур в диалогах, обеспечивая высокую точность и низкие вычислительные затраты. Однако дальнейшие исследования могут быть направлены на улучшение алгоритма структурного энтропийного минимизации для ещё более тонкого разделения диалогов. Кроме того, могут быть исследованы возможности применения этого подхода к другим типам текстовых данных, таким как социальные медиа или мультимодальные диалоги.
Annotation:
Dialogues Aspect-based Sentiment Quadruple Extraction (DiaASQ) aims to extract all target-aspect-opinion-sentiment quadruples from a given multi-round, multi-participant dialogue. Existing methods typically learn word relations across entire dialogues, assuming a uniform distribution of sentiment elements. However, we find that dialogues often contain multiple semantically independent sub-dialogues without clear dependencies between them. Therefore, learning word relationships across the entire ...
ID: 2508.05023v1 cs.CL, cs.AI
Авторы:

Shu Han Ho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема представления и понимания смысла предложений лежит в основе многих прикладных задач компьютерной лингвистики. За последние годы в этой области было достигнуто значительное прогрессирование, однако существующие модели часто сталкиваются со сложностями в обработке семантических структур, особенно в случаях сложных или неявных отношений между концептами. Одним из перспективных подходов является использование Abstract Meaning Representation (AMR) – формализма, который кодирует смысл предложения в виде структурированных графов, где узлы обозначают концепты, а ребра – семантические отношения. Несмотря на ряд успехов в области AMR-парсинга, многие современные методы требуют сложных пайплайнов, включающих предварительную обработку, специализированные архитектуры и тщательное настройку гиперпараметров. Кроме того, многие из этих моделей требуют значительных вычислительных ресурсов и не всегда обеспечивают оптимальное балансирование между структурной валидностью и семантической точностью. В последнее время Large Language Models (LLMs) стали важной тенденцией в компьютерной лингвистике за счет их универсальности и возможности файнтюнинга для специфических задач. Однако оценка возможностей декодер-only LLMs в задачах AMR-парсинга оставалась недостаточно исследованной. Эта проблематика ставит под сомнение, могут ли простые методы файнтюнинга LLMs достичь результатов, сравнимых со сложными современными методами AMR-парсинга. Данная статья направлена на исследование этого вопроса, оценивая возможности четырех различных архитектур LLMs в контексте AMR-парсинга. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была предпринята стратегия файнтюнинга четырех различных архитектур LLMs: Phi 3.5, Gemma 2, LLaMA 3.2 и DeepSeek R1 LLaMA Distilled. Цель заключалась в оценке их способности к AMR-парсингу с использованием минимальных модификаций и стандартных подходов к файнтюнингу. Для реализации эксперимента был использован LDC2020T02 Gold AMR3.0 test set как основной датасет. Архитектура каждой модели оставалась в оригинальном виде, но доработана специфическими методами для обработки входных данных в формате AMR. Основной акцент был сделан на сохранении простоты процесса файнтюнинга, чтобы оценить естественные способности LLMs в работе с семантическими графами. Для Phi 3.5 и Gemma 2 были использованы стандартные настройки файнтюнинга, ориентированные на повышение точности распознования семантических отношений. Для LLaMA 3.2 и DeepSeek R1 LLaMA Distilled были доработаны методы кодирования входных данных, чтобы оптимизировать представление структур графов. Финальная модель LLaMA 3.2 показала лучшие результаты в терминах сбалансированного сочетания семантической точности и структурной валидности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов была проведена оценка качества AMR-парсинга на основе метрики SMATCH F1, которая измеряет точность сопоставления предсказанных и истинных графов. Результаты показали, что LLaMA 3.2 достигает SMATCH F1 в 0.804 на полном тестовом наборе LDC2020T02, что соответствует результатам APT + Silver (IBM) и приближается к Graphene Smatch (MBSE) на 0.854. Phi 3.5 показала высокую структурную валидность, однако ее семантическая точность была ниже, чем у LLaMA 3.2. Это подтверждает гипотезу о том, что различные архитектуры LLMs могут иметь различные сильные стороны в контексте AMR-парсинга. Gemma 2 и DeepSeek R1 LLaMA Distilled также демонстрировали приемлемые результаты, но не достигали уровня LLaMA 3.2 в терминах общей производительности. Эти результаты подтверждают, что простой файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно в контексте LLaMA 3.2. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование демонстрирует практическую значимость использования LLMs в задачах AMR-парсинга. Благодаря простоте файнтюнинга и высокой производительности, модель LLaMA 3.2 может быть использована в различных приложениях, таких как семантический анализ текста, машинный перевод и системы вопросо-ответ. Особенно важно отметить, что высокие результаты LLaMA 3.2 были достигнуты без необходимости сложной настройки или дополнительных модификаций, что делает эту модель привлекательной для практического применения в промышленных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Настоящее исследование показывает, что файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно при использовании модели LLaMA 3.2. Однако существуют возможности для дальнейших улучшений, включая оптимизацию архитектуры для более точного представления семантических отношений и структурных характеристик графов. Будущие исследования могут фокусироваться на разработке более сложных методов файнтюнинга, а также на исследовании возможностей других архитектур LLMs в контексте AMR-парсинга. Кроме того, важным направлением может быть интеграция LLMs с другими методами семантического анализа для достижения еще более высоких результатов.
Annotation:
Meaning Representation (AMR) is a semantic formalism that encodes sentence meaning as rooted, directed, acyclic graphs, where nodes represent concepts and edges denote semantic relations. Finetuning decoder only Large Language Models (LLMs) represent a promising novel straightfoward direction for AMR parsing. This paper presents a comprehensive evaluation of finetuning four distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA Distilled using the LDC2020T02 Gold AMR3.0 t...
ID: 2508.05028v1 cs.CL, cs.AI
Авторы:

Sitong Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Креативные процессы, такие как написание текстов, проектирование программного обеспечения и создание музыки, зачастую основываются на неявных структурных моделях, известных как схемы (schemas). Эти схемы помогают организовывать идеи, структурировать подходы к решению задач и направлять творческий поиск. Однако их открытие и применение представляют значительные трудности, особенно в сложных или незнакомых областях. Схемы часто остаются неявными или трудно доступными для пользователей, что создает препятствия для эффективного использования их потенциала в творческих процессах. В настоящее время существует значительная потребность в развитии инструментов и методов, которые могли бы облегчить процесс обнаружения и использования схем. Такие инструменты могли бы помочь пользователям в процессе смысловая организации (sensemaking) на основе примеров, позволяя извлекать абстрактные модели и преобразовывать их в действенные решения. Особенно важно обеспечить прозрачность и коллаборативность взаимодействия человека с ИИ, чтобы сделать неявные знания более доступными и пригодными для применения в практических задачах. Исследование, проведенное Ситонг Вангом, направлено на разработку фреймворка для обнаружения и применения схем в сотрудничестве человека и ИИ. Целью этого исследования является поддержка творческого процесса решения задач путем создания систем, которые облегчают смысловую организацию и операционизацию схем в рабочих процессах. Такой подход может улучшить доступность имплицитных знаний и способствовать развитию более прозрачных и совместных систем человека-ИИ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанный фреймворк включает в себя два ключевых этапа: смысловую организацию на основе примеров и операционизацию схем в рабочие процессы. На первом этапе пользователи работают с примерами, используя системы, которые помогают им выделять общие модели и структуры. Этот процесс включает анализ данных, выявление закономерностей и абстрагирование ключевых компонентов схем. На втором этапе схемы преобразуются в рабочие процессы, где ИИ и человек сотрудничают для их применения в решении задач. Это включает в себя разработку интерфейсов и систем, которые позволяют пользователям взаимодействовать с ИИ для конструирования и оптимизации решений. Методология основывается на идее создания прозрачных и адаптивных систем, где ИИ помогает пользователям выявлять и использовать неявные знания. Архитектура фреймворка включает в себя модули для анализа данных, визуализации схем и их применения в реальных задачах. Интерфейсы разработаны таким образом, чтобы обеспечить интуитивно понятное взаимодействие, позволяющее пользователям легко манипулировать и применять схемы в своих проектах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности разработанного фреймворка проведены эксперименты, в которых участвовали пользователи различных доменов. Данные для экспериментов взяты из реальных сценариев, таких как проектирование программного обеспечения и создание музыки. Результаты показали, что пользователи смогли эффективно выявлять схемы из примеров и применять их в своих задачах. В результатах показано, что фреймворк улучшил качество решений и сделал процесс решения задач более эффективным. Пользователи отметили высокую прозрачность и полезность системы, а также улучшенную способность к творчеству и проблемно-ориентированному мышлению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкий спектр практических приложений. Он может быть использован в областях, таких как дизайн, разработка программного обеспечения, музыкальное творчество и даже в образовании. Он позволяет пользователям более эффективно организовывать идеи, выявлять неявные шаблоны и создавать инновационные решения. Одним из главных преимуществ этого подхода является улучшенная прозрачность и коллаборативность взаимодействия человека с ИИ. Это может привести к более эффективному использованию ИИ в творческих процессах и повысить доступность новых технологий для широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование Ситонг Ванг показывает, что схемы могут быть эффективным инструментом для поддержки творческого процесса решения задач. Разработанный фреймворк демонстрирует потенциал для улучшения доступности и применения неявных знаний в различных областях. В будущем можно рассмотреть возможность расширения этого фреймворка для включения более сложных доменов и улучшения адаптивности системы к индивидуальным потребностям пользователей. Также важно продолжить исследования в области прозрачности и этики взаимодействия человека с ИИ.
Annotation:
Humans often rely on underlying structural patterns-schemas-to create, whether by writing stories, designing software, or composing music. Schemas help organize ideas and guide exploration, but they are often difficult to discover and apply, especially in complex or unfamiliar domains. My Ph.D. research develops a framework for human-AI schema discovery and application to support creative problem solving. I design systems that support users in sensemaking over examples to abstract schemas, and i...
ID: 2508.05045v1 cs.HC, cs.AI
Показано 14211 - 14220 из 14425 записей