📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

2025-09-26

Авторы:

Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

## Контекст Рейнфорсментное обучение (RL) позволяет тренировать агентные модели, двигающиеся за пределами статичных бенчмаров к динамичным, многократным взаимодействиям. Однако их реальное значение заключается в возможности помогать пользователям. Диверсификация и динамика пользовательских взаимодействий создают серьезные вызовы. Мы предлагаем UserRL — универсальный фреймворк для обучения и оценки пользовательских способностей с помощью стандартизированных сред обучения (Gym) и симуляторов пользователей. Это позволяет изучить влияние различных формулировок награды и моделей пользователей на обучение. ## Метод UserRL основывается на симуляторах пользователей для моделирования различных стилей взаимодействия. Мы изменяем награды на каждом шаге и по ходу взаимодействия, анализируя их влияние на обучение через алгоритм Gradient-Based Policy Optimization (GRPO). Мы использовали модели Qwen3 разных размеров для изучения этих эффектов. Кроме того, мы сравнили открытодоступные симуляторы (например, Qwen3-32B) с сильнейшими симуляторами (например, GPT-4o) для оценки эффективности. ## Результаты Наши эксперименты показали, что: (i) запуск RL с холодного старта, используя только сильный симулятор, позволяет краткосрочно приобрести базовые навыки, но не достаточно для долгосрочных улучшений; (ii) целенаправленная оценка траекторий (включая изменение веса разных шагов) значительно улучшает качество обучения и эффективность взаимодействий; (iii) открытые симуляторы, несмотря на меньшую мощность, оказываются практичными и трансферируемыми для реальных сценариев. Эти находки подтверждают, что тщательно проработанные награды и симуляторы моделей пользователей являются ключевыми факторами, успешной тренировки агентов. ## Значимость UserRL может применяться в различных областях: улучшения пользовательских систем, обучение моделей для чатботов, систем поддержки решений и т.д. Его преимущества включают в себя универсальность, легкость развертывания и эффективность. Этот фреймворк может влиять на развитие интерактивных агентов, делая их более эффективными и полезными для пользователей. ## Выводы Мы показали, что UserRL эффективен для тренировки моделей, взаимодействующих с пользователями. Он может стать значительным шагом в развитии пользователь-центричных агентов. Мы планируем расширить фреймворк, включив более сложные модели пользователей и более сложные сценарии взаимодействия.

Annotation:

Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically va...

ID: 2509.19736v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Table Detection with Active Learning

2025-09-26

Авторы:

Somraj Gautam, Nachiketa Purohit, Gaurav Harit

## Контекст Обработка и анализ данных постоянно набирает обороты, в том числе в сфере обучения с подкреплением. Одним из важных заданий является обнаружение и извлечение таблиц из документов, которое имеет широкое применение в различных областях, таких как бизнес-анализ, документооборот и ИИ-приложения. Однако этот процесс часто связан с высокими затратами на аннотацию данных, которые необходимы для обучения моделей. Активное обучение (Active Learning, AL) предлагает эффективное решение для этой проблемы, позволяя снизить затраты на аннотацию, выбирая самые полезные образцы для изучения модели. Однако многие текущие AL-методы ориентированы на обычные задачи классификации, а не на задачи обнаружения объектов, таких как обнаружение таблиц. Наша исследовательская группа рассматривает возможности использования AL для обнаружения таблиц в документах, чтобы улучшить эффективность и точность. ## Метод Мы предлагаем инновационный подход к обнаружению таблиц, основанный на активном обучении. Метод включает следующие этапы: 1. **Инициализация**: Мы начинаем с набора экземпляров, аннотированных вручную, который используется для инициализации модели. 2. **Обучение модели**: Модель обучается на этом начальном наборе данных, чтобы выявить признаки для дальнейшего выявления таблиц. 3. **Выбор образцов для аннотации**: Алгоритм активного обучения выбирает образцы, которые считаются наиболее важными для модели на основе мер информативности и разнообразия. Этот выбор основывается на сочетании некоторых метрик, таких как неопределенность и множественность. 4. **Обучение и повторение**: Аннотированные образцы добавляются к обучающему набору, и процесс повторяется, чтобы улучшить точность модели. Для оценки эффективности нашего подхода мы использовали два бенчмарк-данных: TableBank-LaTeX и TableBank-Word. Эти данные представляют собой таблицы, созданные с помощью различных текстовых процессоров, что дает разнообразие в стилях и структурах таблиц. Мы проводим эксперименты с двумя современными архитектурами обнаружения таблиц: CascadeTabNet и YOLOv9. ## Результаты В ходе экспериментов мы сравнили нашу AL-методику с традиционным случайным выбором образцов для аннотации. Наши результаты показывают, что AL-метод эффективнее, снижает затраты на аннотацию при ограниченном бюджете и позволяет повысить точность. На двух датасетах TableBank-LaTeX и TableBank-Word наши результаты по метрике mAP (mean Average Precision) показали, что AL-метод дает значительные пользы в сравнении с случайным выбором. Мы также сравнили нашу модель с другими AL-методами и установили, что наш подход дает более высокий mAP на ограниченном бюджете аннотации. ## Значимость Наш подход мо

Annotation:

Efficient data annotation remains a critical challenge in machine learning, particularly for object detection tasks requiring extensive labeled data. Active learning (AL) has emerged as a promising solution to minimize annotation costs by selecting the most informative samples. While traditional AL approaches primarily rely on uncertainty-based selection, recent advances suggest that incorporating diversity-based strategies can enhance sampling efficiency in object detection tasks. Our approach ...

ID: 2509.20003v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 CogAtom: From Cognitive Atoms to Olympiad-level Mathematical Reasoning in Large Language Models

2025-09-25

Авторы:

Zhuofan Chen, Jiyuan He, Yichi Zhang, Xing Hu, Haoxing Wen, Jun Bai, Wenge Rong

## Контекст Математическое рассуждение является задачей, вызывающей значительные трудности для Больших Языковых Моделей (LLM), в силу необходимости многоэтапного мышления и интеграции абстрактных понятий. Несмотря на то, что тестовые техники, ориентированные на масштабирование во время тестирования, опираются на высококачественные, сложные задачи, недостаток уровня библиотек олимпиадных задач остается ограничительным фактором. Мы предлагаем CogAtom, новую модель, основанную на понятии «когнитивных атомов», для синтеза математически точных и когнитивно разнообразных задач. В отличие от предыдущих подходов, CogAtom рассматривает построение задач как процесс выбора и комбинирования основных способностей мышления, «когнитивных атомов», извлеченных из ручных решений. Алгоритм случайного блуждания, продвигающийся по сетке связности, позволяет экспериментировать с комбинациями этих атомов, чтобы достичь богатой структуры и логической звености в решениях. Это уникальный подход, обеспечивающий масштабируемость, качество и дизайн задач, соответствующий высокому уровню сложности. ## Метод CogAtom состоит из двух основных компонентов: синтеза когнитивных атомов и синтеза задач. Алгоритм извлечения когнитивных атомов отталкивается от решений, написанных людьми, и группирует шаги мышления в модули. Каждый модуль характеризуется индивидуальным набором признаков, описывающих его структуру и роль в решении задачи. Для синтеза задач используется метод случайного блуждания в сетке когнитивных атомов. Это позволяет создавать наборы решений, где каждое решение является уникальным и может отличаться по сложности и структуре. Для обеспечения логической целостности и грамматического достоверности задач используется система ограничений. Эта система гарантирует, что сгенерированная задача будет соответствовать реальным математическим нормам и требованиям. Таким образом, CogAtom реализует масштабируемую, диапазонно-контролируемую генерацию задач с высоким уровнем сложности и вариативности. ## Результаты Мы провести эксперименты, сравнивая CogAtom с другими подходами в области генерации задач математического рассуждения. Мы использовали данные, включающие олимпиадные задачи с разным уровнем сложности, от школьных задач до задач олимпиады. Результаты показали, что CogAtom показывает значительное превосходство в аккуратности, глубине рассуждения и разнообразии. Например, CogAtom способен генерировать задачи, которые значительно приближаются по сложности к задачам олимпиады AIME, но при этом демонстрирует более богатую с

Annotation:

Mathematical reasoning poses significant challenges for Large Language Models (LLMs) due to its demand for multi-step reasoning and abstract conceptual integration. While recent test-time scaling techniques rely heavily on high-quality, challenging problems, the scarcity of Olympiad-level math problems remains a bottleneck. We introduce CogAtom, a novel cognitive atom-based framework for synthesizing mathematically rigorous and cognitively diverse problems. Unlike prior approaches, CogAtom model...

ID: 2509.17318v2 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks

2025-09-25

Авторы:

Yu Gu, Jingjing Fu, Xiaodong Liu, Jeya Maria Jose Valanarasu, Noel Codella, Reuben Tan, Qianchu Liu, Ying Jin, Sheng Zhang, Jinyu Wang, Rui Wang, Lei Song, Guanghui Qin, Naoto Usuyama, Cliff Wong, Cheng Hao, Hohin Lee, Praneeth Sanapathi, Sarah Hilado, Bian Jiang, Javier Alvarez-Valle, Mu Wei, Jianfeng Gao, Eric Horvitz, Matt Lungren, Hoifung Poon, Paul Vozila

## Контекст Область исследования связана с оценкой интеллектуальных систем, развивающихся в области медицины. Существуют системы, обладающие высокой точностью на определенных медицинских бенчмарках. Однако, по мнению авторов, этот успех часто связан с использованием тестирования в условиях высокой нагрузки (stress testing), который показывает значительные проблемы со стабильностью и внутренним здравым суждением систем. Недостаток целостности и логичности ответов, к тому же, подрывает доверие к таким системам. Таким образом, целью исследования является подробное изучение этих проблем, чтобы выявить недостатки существующих методов тестирования и развить более солидные критерии оценки. ## Метод Исследование основывается на тщательном анализе шести ведущих моделей машинного обучения, включая GPT-5, с использованием шести различных медицинских бенчмарков. Методология включает в себя широкий спектр экспериментов, включая удаление ключевых компонентов (например, изображений), изменение текстовых запросов, искусственно созданных ответов, а также сравнение результатов с клиническими стандартами. Архитектура оценки включает клинические рубрики, подготовленные специалистами, чтобы обеспечить сбалансированное и квалифицированное оценочное мнение. Таким образом, исследователи могут измерять не только точность, но и глубину понимания и стабильность результатов. ## Результаты Эксперименты показали, что даже лучшие модели часто являются нестабильными, особенно при изменении ключевых условий задачи. Многие модели демонстрируют "shortcut learning", то есть поиск узких путей для решения задач, вместо глубокого знания. Например, некоторые модели дают правильный ответ даже при отсутствии ключевых частей входных данных, таких как изображения, что демонстрирует отсутствие понимания достаточного объема информации. Кроме того, подтверждено, что различные бенчмарки, несмотря на общую тематику, могут измерять разные аспекты, и их результаты вместе не дают полного представления о реальном уровне готовности системы. ## Значимость Результаты имеют важное значение для многих областей, в частности для медицины, где требуется надежная и безопасная интеллектуальная поддержка для клинических решений. Применение полученных результатов может привести к улучшению методов тестирования и разработки более стабильных моделей. Основные преимущества заключаются в том, что исследование обнаружило слабости существующих моделей и выявило недостатки в существующих бенчмарках, что может привести к более тщательной оценке и развити

Annotation:

Large frontier models like GPT-5 now achieve top scores on medical benchmarks. But our stress tests tell a different story. Leading systems often guess correctly even when key inputs like images are removed, flip answers under trivial prompt changes, and fabricate convincing yet flawed reasoning. These aren't glitches; they expose how today's benchmarks reward test-taking tricks over medical understanding. We evaluate six flagship models across six widely used benchmarks and find that high leade...

ID: 2509.18234v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

2025-09-25

Авторы:

Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara

#### Контекст В последние годы внимание сообщества AI привлекают видеопонимание и извлечение информации из видео. Эти задачи становятся все более важными с учетом развития технологий для роботов, VR/AR, и AI-поддерживаемых приложений. Однако существующие бенчмарки ограничены видео из индорных сцен или коротких внедорожных путешествий. Длительные путешествия, сложные задачи планирования и перемещения по GPS-трекам остаются недооцененными. Многомерное понимание видео, включая геоспациальное и временное контексты, является ключевым для развития следующего поколения моделей МЛЛМ. #### Метод VIR-Bench представляет собой бенчмарк, состоящий из 200 долговременных видео, покрывающих различные географические регионы. Он оценивает модели по возможности воспроизводить путешествия, рассчитывая географические маршруты, временные последовательности и релевантные объекты. Метод основывается на создании синтетических контекстов, анализе потока видео и использовании технологий текстового понимания. Архитектура VIR-Bench включает в себя скелетный рендеринг, многомодальный контекст-анализ, а также методы оценки точности и полноты реконструкции. #### Результаты Эксперименты проводились на 200 видео, с использованием нескольких современных МЛЛМ. Оценивались показатели точности и полноты реконструкции путешествий. Большинство моделей показали низкие результаты, особенно при высокой сложности исходных видео. Модели способны распознавать простые географические маршруты, но предсказывать длительные траектории и повторять взаимодействие с объектами остаются затруднительными. #### Значимость Вир-Бенч широко может применяться в области AI для путешествий, обеспечивая базу для развития моделей, умеющих передвигаться по сложным географическим маршрутам. Его особенностью является возможность тестирования моделей на реальных траекториях и реконструкции пользовательских путешествий. Он не только улучшает понимание геоспациальных и временных задач, но также может использоваться для создания новых типов приложений в области эмбедид AI. #### Выводы VIR-Bench демонстрирует значительную сложность в задаче реконструкции траекторий в долговременных видео. Он позволяет тестировать модели на высокой сложности и создает новые возможности для развития AI в путешествиях. В дальнейшем, бенчмарк будет расширен для поддержки новых моделей и задач, таких как взаимодействие с пользователем и развитие AI-агентов для путешествий.

Annotation:

Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning...

ID: 2509.19002v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs

2025-09-24

Авторы:

Debarpan Bhattacharya, Apoorva Kulkarni, Sriram Ganapathy

## Контекст Многомодальные большие языковые модели (MLLMs) становятся все более популярными для выполнения задач, включая визуальную и аудиовыводную рассуждения. Однако их надежность и достоверность часто остаются недостаточно хорошо оцененными. Это приводит к усилиям развития методов для эффективного и точного ассимилирования их надежности. Такая необходимость возникает в различных практических областях, включая медицинское применение, финансовые системы и интеллектуальные системы управления. Без надежной оценки надежности, пользователи могут иметь трудности в различении правильных ответов от ошибочных, что снижает доверие к модели и ее применяемость в реальных сценариях. Наша мотивация заключается в разработке метода, который позволит обеспечить стабильность и достоверность MLLMs, чтобы пользователи могли быть уверены в корректности полученных ответов. ## Метод Мы предлагаем **Functionally Equivalent Sampling for Trust Assessment (FESTA)**, новую методику для оценки надежности многомодальных моделей. Метод основывается на выборке функционально эквивалентных и комплементарных входных данных для обогащения пространства входов и повышения удостоверенности модели. Мы применяем **безучилийный (black-box)** подход, что означает, что модель доступна только через входные данные и выходные результаты, без доступа к значениям правдивости. FESTA расширяет пространство возможных входов модели, решая проблему недостаточного включения потенциально важных сценариев для тестирования. Мы использовали **техники уровня машины (machine-in-the-loop)** для точного проверки уверенности модели в ситуациях риска. Наши эксперименты были проведены на различных моделях с разными видом входных данных, включая визуальные и аудиовыводные задачи. ## Результаты Мы проводили эксперименты с несколькими важными моделями многомодального вывода, включая обученные модели для рассуждения визуального и аудиовывода. Наши результаты показали, что FESTA позволяет значительно улучшить детекцию неверных ответов (mispredictions) в сравнении с другими методами. Мы измерили его эффективность с помощью метрики **Area Under Receiver Operating Characteristic Curve (AUROC)**, получив улучшение в **33.3% для визуальных моделей** и **29.6% для аудиовывода**. Эти результаты доказывают, что FESTA не только повышает надежность моделей, но и позволяет им более точно определять их ограничения. ## Значимость Метод FESTA может применяться во многих практических областях, где надежность и достоверность моделей являются критичными. Например, в сфере здравоохранения, модели могут использоваться для критически важных решений, в финансовых системах, для выявления мошенничества, и в интеллектуальных системах управления. Наше решение позволяет **улучшить пользо

Annotation:

The accurate trust assessment of multimodal large language models (MLLMs) generated predictions, which can enable selective prediction and improve user confidence, is challenging due to the diverse multi-modal input paradigms. We propose Functionally Equivalent Sampling for Trust Assessment (FESTA), a multimodal input sampling technique for MLLMs, that generates an uncertainty measure based on the equivalent and complementary input samplings. The proposed task-preserving sampling approach for un...

ID: 2509.16648v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs

2025-09-24

Авторы:

Mohammad Ramezanali, Mo Vazifeh, Paolo Santi

## Контекст Область исследования связана с проблематикой ограничений последовательного рассуждения (sequential reasoning) в больших языковых моделях (LLMs). Несмотря на высокую точность LLMs в многих задачах, их последовательное рассуждение часто ограничено. Это приводит к необходимости разработки систематических тестов, которые позволяют проверить эти ограничения и изучить их причины. Изучение последовательного рассуждения важно для улучшения LLMs в сферах, где требуется сложная логическая интерпретация и координация последовательных действий. Кроме того, понимание границ LLMs помогает сформировать более реалистичные ожидания от их применения в реальном мире. ## Метод seqBench является параметризированной системой для оценки последовательного рассуждения в LLMs. Он позволяет контролировать несколько ключевых комплексностных аспектов задачи: 1. **Логическая глубина (logical depth)** — количество последовательных действий, необходимых для ее выполнения. 2. **Шаги возврата (backtracking steps)** — число возвратов к предыдущим состояниям для удовлетворения заданных условий. 3. **Шумность (noise ratio)** — отношение полезных и значимых фактов к ненужным или зашумленным входным данным. Эти параметры позволяют генерировать задачи с разными уровнями сложности, обеспечивая прецизионный контроль над условиями экспериментов. seqBench использует генеративные модели для создания задач, которые затем проверяются на готовых LLMs. Метрики оценки включают точность решения задач и время реагирования модели. ## Результаты В ходе экспериментов LLMs показали систематические неудачи на задачах с высоким уровнем логической глубины или широким диапазоном возможных шагов возврата. Даже модели с высокой точностью столкнулись с фактическим выходом за границы своих возможностей при увеличении логической глубины задачи. Это особенно заметно при повышении шумности данных, когда модели становятся более чувствительными к неточности входных данных. Результаты показали, что даже самые мощные модели сегодня сталкиваются с трудностями в последовательном рассуждении, несмотря на успех в большинстве более простых задач. ## Значимость Результаты seqBench могут быть применены в различных областях, где последовательное рассуждение является ключевым компонентом решения задач, таких как робототехника, управление процессами и системы рекомендаций. Этот подход позволяет выявить слабые места в LLM-моделях и развить методы, которые могут улучшить их поведение в ситуациях, требующих логического управления. Кроме того, полученные данные могут способствовать более точной оценке роста моделей с временем, необходимой для построения боле

Annotation:

We introduce seqBench, a parametrized benchmark for probing sequential reasoning limits in Large Language Models (LLMs) through precise, multi-dimensional control over several key complexity dimensions. seqBench allows systematic variation of (1) the logical depth, defined as the number of sequential actions required to solve the task; (2) the number of backtracking steps along the optimal path, quantifying how often the agent must revisit prior states to satisfy deferred preconditions (e.g., re...

ID: 2509.16866v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System

2025-09-24

Авторы:

Abdullah Mushtaq, Muhammad Rafay Naeem, Ibrahim Ghaznavi, Alaa Abd-alrazaq, Aliya Tabassum, Junaid Qadir

## Контекст Systematic Literature Reviews (SLRs) являются ключевым элементом evidence-based research, но часто требуют больших усилий и являются уязвимыми для непоследовательности в различных дисциплинах. Эти проблемы вызывают нужду в эффективных инструментах для автоматизации процесса оценки SLR. Недостаток современных методов в том, что они либо слишком затратны, либо недостаточно точны. Мы предлагаем LLM-based SLR evaluation copilot, основанный на Multi-Agent System (MAS), для помощи исследователям в оценке качества SLR. MAS автоматизирует проверку протоколов, методологическую оценку и анализ тематической релевантности с использованием базы знаний. ## Метод Мы разработали Multi-Agent System (MAS) с использованием LLM, который работает на основе PRISMA-guidelines. Каждый агент отвечает за конкретную задачу: проверка протокола, методологическая оценка и тематический анализ. Архитектура MAS включает в себя специализированные модели, обученные на больших данных для точной аналитики. Метод предлагает структурированный подход к оценке SLR и позволяет сравнивать результаты с expert-annotated PRISMA scores. Мы использовали 5 SLRs из различных дисциплин для экспериментов, чтобы проверить эффективность нашего подхода. ## Результаты Мы провели эксперименты с 5 различными SLRs и сравнили наши результаты с PRISMA scores, полученными экспертами. Наша модель показала 84% согласованности с эталонными данными. Эти результаты показывают, что наше решение эффективно в автоматизации процесса SLR-оценки. Особенно заметен выигрыш в точности и структуре оценки в сравнении с традиционными методами. Это демонстрирует возможность нашей модели для точной и структурированной оценки SLR. ## Значимость Наше решение может быть применено во многих областях, где требуется оценка качества SLR, включая health sciences, social sciences и engineering. Оно обеспечивает более точный и эффективный подход к оценке SLR, снижая трудозатраты и улучшая единообразие оценок. Это может привести к более качественным и быстрейшим итогам в различных научных и практических задачах. ## Выводы Мы успешно продемонстрировали, что наш LLM-based MAS может существенно улучшить процесс оценки SLR. Наша работа открывает путь к будущим исследованиям в области NLP-driven automation для структурированной и точной оценки SLR, что может иметь широкое применение в различных дисциплинах. Будущие исследования будут направлены на улучшение точности, расширение набора данных и расширение применений системы в новых областях.

Annotation:

Systematic Literature Reviews (SLRs) are foundational to evidence-based research but remain labor-intensive and prone to inconsistency across disciplines. We present an LLM-based SLR evaluation copilot built on a Multi-Agent System (MAS) architecture to assist researchers in assessing the overall quality of the systematic literature reviews. The system automates protocol validation, methodological assessment, and topic relevance checks using a scholarly database. Unlike conventional single-agent...

ID: 2509.17240v1 cs.AI, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 CogAtom: From Cognitive Atoms to Olympiad-level Mathematical Reasoning in Large Language Models

2025-09-24

Авторы:

Zhuofan Chen, Jiyuan He, Yichi Zhang, Xing Hu, Haoxing Wen, Jun Bai, Wenge Rong

## Контекст В настоящее время Математическое Разумение (MR) представляет собой сложную проблему для больших языковых моделей (LLMs), так как эта задача требует многоступенчатого мышления и интеграции абстрактных понятий. Несмотря на то, что методы тестового масштабирования в последнее время получили признание, они полагаются на высококачественные, но редкие задачи, в том числе и Олимпиадные задачи по математике. Однако доступ к таким задачам ограничен, что ограничивает широкое использование таких моделей в области генерации задач. Мы предлагаем CogAtom - рамфрмуру, основанную на когнитивных атомах, для создания сложных, но структурно разнообразных математических задач. Общая идея заключается в моделировании проблемной структуры как сборки из базовых примитивов мышления - когнитивных атомов, извлеченных из ручных решений. Это подход, отличающийся от использования простых операторов или готовых данных. ## Метод Имеющиеся методы генерации задач часто ограничены в своей пластичности и не могут генерировать задачи, которые достаточно сложны и жизненно важны для Олимпиадных задач. Мы предлагаем использовать когнитивный атом (CogAtom) - маленький блок, который может быть использован для построения новых задач. Наша модель работает в два этапа: (1) Извлечение нескольких моделей мышления из множества ручных решений к задачам, которые далее являются когнитивными атомами; (2) Создание новых задач с помощью графа, состоящего из этих когнитивных атомов. Для построения проблемных структур мы используем случайный процесс типа случайного пути, который позволяет избегать локальных минимумов при построении проблем, при этом метод рекомбинации гарантирует логическую целостность и структурную целостность. Наконец, добавление дополнительных когнитивных атомов может увеличить сложность задачи, при этом позволяя управлять её сложностью. ## Результаты Мы провели эксперименты на множестве различных задач, включая задачи Олимпиады по математике, чтобы оценить способность CogAtom генерировать задачи. Мы сравнили нашу модель с другими подходами, использующими техники тестового масштабирования. Результаты показали, что модель CogAtom не только превосходит существующие методы по метрикам точности и глубины мышления, но и позволяет получить более разнообразные задачи. Например, CogAtom удалось сгенерировать задачи с уровнем сложности, совпадающим с задачами AIME, и в то же время добиться большей структурной разнообразности. Эти результаты подтверждают то, что CogAtom может стать мощным инструментом для генерации уровня задач, который близок к Олимпиадам.

Annotation:

ID: 2509.17318v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 FedMentor: Domain-Aware Differential Privacy for Heterogeneous Federated LLMs in Mental Health

2025-09-20

Авторы:

Nobin Sarwar, Shubhashis Roy Dipta

#################################### ## Контекст #################################### Федеративное обучение с помощью больших языковых моделей (LLM) широко применяется в секторе здравоохранения и других сильно закрытых областях, где важно сохранить конфиденциальность данных. Однако существуют значительные проблемы: стандартные методы не достаточно эффективно сбалансированы между конфиденциальностью, безопасностью и качеством модели. Например, применение федеративного адаптированного обучения в области клинической психологии требует учета того, что данные отдельных клиентов могут отличаться по характеру и чувствительности, что сказывается на точности модели и ее безопасности. Мы предлагаем FedMentor, новую федеративную модель, которая учитывает эти аспекты и предлагает решение для применения в различных секторах. #################################### ## Метод #################################### FedMentor использует Low-Rank Adaptation (LoRA) для адаптации модели к локальным данным и добавляет встроенный механизм для обеспечения domain-aware Differential Privacy (DP). Каждый клиент (клинический доктор, терапевт или другой участник федерации) применяет отдельный квантом шума в зависимости от чувствительности своих данных. Шум настраивается автоматически, чтобы держаться в пределах заданного приватности бюджета. Кроме того, FedMentor включает адаптивный коррекционный механизм, который может уменьшать шум, когда это необходимо для повышения модели производительности. Оптимизированная архитектура позволяет FedMentor работать на ресурсах клиентов с ограниченным процессорным и памятным объемом, таких как графические ускорители (GPU). #################################### ## Результаты #################################### Мы провели эксперименты на трех различных ментально-здравоохранных датасетах, сравнив FedMentor с другими методами, включая стандартный Federated Learning и модели без приватности. FedMentor показал значительное увеличение "безопасных" выводов (без токсичности и нежелательных слов), повысив "безопасный" рейтинг на 3% в сравнении с базовым Federated Learning. Также FedMentor сохранил высокий уровень точности модели, с BERTScore F1 и ROUGE-L в пределах 0,5% от централизованной модели, а также близко к ней в общем центральном подходе. Особенно значимо, что FedMentor поддерживает эффективность на больших моделях, таких как те с 1.7 миллиардами параметров, работающих на подключенных клиентах, с минимальным объемом обмена данными в каждой итерации. #################################### ## Значимость #################################### FedMentor может применяться в различных областях, где важно обеспечить конфиденциальность (например, медицина, психология, финансы). Он оптимизирует настройку модели на локальных данных, чтобы минимизировать риск выдачи нежелательных результатов, таких как язвительность или неточность. Это позволяет повысить безопасность и работу моде

Annotation:

Privacy-preserving adaptation of Large Language Models (LLMs) in sensitive domains (e.g., mental health) requires balancing strict confidentiality with model utility and safety. We propose FedMentor, a federated fine-tuning framework that integrates Low-Rank Adaptation (LoRA) and domain-aware Differential Privacy (DP) to meet per-domain privacy budgets while maintaining performance. Each client (domain) applies a custom DP noise scale proportional to its data sensitivity, and the server adaptive...

ID: 2509.14275v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 121 - 130 из 196 записей