📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 \textsc{SimInstruct}: A Responsible Tool for Collecting Scaffolding Dialogues Between Experts and LLM-Simulated Novices

2025-08-09

Авторы:

Si Chen, Izzy Molnar, Ting Hua, Peiyu Li, Le Huy Khiem, G. Alex Ambrose, Jim Lang, Ronald Metoyer, Nitesh V. Chawla

## КОНТЕКСТ И ПРОБЛЕМАТИКА Высококачественные многоходовые инструктивные диалоги между начинающими и экспертами являются необходимым компонентом для создания ИИ-систем, поддерживающих обучение, преподавание и принятие решений. Такие диалоги часто включают в себя скаффолдинг (scaffolding) — процесс, при котором эксперт поддерживает мышление новичка с помощью вопросов, обратной связи и пошагового руководства. Однако сбор таких данных сталкивается со значительными трудностями, в том числе из-за конфиденциальности и уязвимости в процессе поиска помощи. Недостаточность качественных данных лимитирует возможности развития ИИ-систем, которые могли бы эффективно моделировать и поддерживать такие взаимодействия. Кроме того, существующие ресурсы часто не отвечают потребностям в практически релевантных, педагогически богатых диалогах, которые могли бы отражать разнообразие ситуаций и характеристик участников. Это создает проблему для разработки ИИ-систем, способных предоставлять эффективную поддержку в образовательных и профессиональных контекстах. Необходимость в инновационных подходах для сбора данных, которые могли бы решить эти проблемы, является ключевым мотивом данного исследования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы предлагается **SimInstruct** — инструмент, разработанный для сбора диалогов скаффолдинга с использованием эксперт-в-лайн-подхода. SimInstruct использует языковые модели (LLM) для моделирования новичков-инструкторов, которые представляют различные уровни профессионального опыта и характеристики личности, такие как экстраверсия или интроверсия. Эти модели новичков взаимодействуют с реальными экспертами, которые предоставляют многоходовую обратную связь, анализ и пошаговые инструкции. Ключевым элементом SimInstruct является возможность контролировать характеристики личности модели новичка, что позволяет создавать разнообразные сценарии взаимодействия. Эксперты могут адаптировать свой подход в зависимости от поведенческих характеристик новичка, что приводит к созданию более реалистичных и педагогически ценных диалогов. Данный подход не требует участия реальных новичков, что обходит проблемы конфиденциальности и уязвимости. Кроме того, была проведена файн-тюнинг процедура модели LLaMA, которая была обучена на основе расширенного датасета, созданного с помощью SimInstruct. Эта модель эксперта (Expert Model) продемонтрировала значительное улучшение по сравнению с GPT-4o в плане качества инструктивного взаимодействия. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе исследования были проведены эксперименты, в которых SimInstract использовался для сбора диалогов в области развития преподавательских навыков. Данные, полученные с помощью SimInstruct, были сравнены с реальными записями менторинговых сессий. Результаты показали, что диалоги, сгенерированные SimInstruct, обладают сравнимой педагогической релевантностью и когнитивной глубиной по сравнению с реальными записями. Кроме того, эксперты, участвовавшие в процессе, отметили высокую степень вовлеченности и рефлексии, что способствовало как повышению качества данных, так и развитию их собственных профессиональных навыков. Анализ показал, что характеристики личности модели новичка, такие как экстраверсия, влияют на то, как эксперты формулируют свои ответы и поддерживают диалог. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SimInstruct имеет широкое применение в областях образования, профессионального развития и подготовки ИИ-систем для поддержки обучения. Инструмент позволяет создавать реалистичные и педагогически ценные диалоги без необходимости в участии реальных новичков, что решает проблемы конфиденциальности и доступности данных. Преимущества SimInstruct включают в себя возможность моделирования различных характеристик новичков, что позволяет экспертам адаптировать свой подход и создавать более эффективные инструктивные стратегии. Благодаря этому, SimInstruct может быть использован для обучения ИИ-систем, которые поддерживают преподавателей, менторов и других профессионалов в процессе обучения и развития. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех SimInstruct в создании реалистичных и педагогически ценных диалогов скаффолдинга. Это открывает новые возможности для разработки ИИ-систем, которые могут эффективно поддерживать обучение и развитие начинающих. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей новичков, включая более точное моделирование индивидуальных характеристик и поведенческих тенденций. Кроме того, исследование может быть расширено на другие домены, где скаффолдинг играет ключевую роль, такие как медицинское образование или корпоративное обучение.

Annotation:

High-quality, multi-turn instructional dialogues between novices and experts are essential for developing AI systems that support teaching, learning, and decision-making. These dialogues often involve scaffolding -- the process by which an expert supports a novice's thinking through questions, feedback, and step-by-step guidance. However, such data are scarce due to privacy concerns in recording and the vulnerability inherent in help-seeking. We present SimInstruct, a scalable, expert-in-the-loo...

ID: 2508.04428v1 cs.AI

arXiv PDF

📄 StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

2025-08-09

Авторы:

Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Autoformalization — это процесс преобразования математических утверждений на естественном языке в формальный язык, который может быть обработан системами формальной проверки доказательств или формальной верификации. Несмотря на значительные успехи, достигнутые благодаря применению моделей языкового обработки (LLMs), эта задача все еще столкнулась со значительными трудностями. Одной из главных проблем является низкая точность преобразования, вызванная недостаточным освоением моделями формального доменного знания и ограниченными способностями к резону при анализе естественного языка и выравнивании его с формальным представлением. Ключевыми требованиями для эффективного autoformalization являются: 1) полное понимание формальных объектов и знаний домена, необходимых для корректного идентификации и представления математических конструкций, и 2) способность к резонированию над естественным языком для точного отображения неформальных контекстов в формальные выражения. Без первого, модели не могут корректно опознавать формальные объекты; без второго, они не могут точно интерпретировать реальные контексты и сопоставить их с формальными выражениями. Существующие подходы часто падают в точности из-за нехватки этих ключевых способностей. Таким образом, необходимо разработать методологию, которая бы объединяла эти две составляющие в единый процесс обучения, позволяя моделям достигать высокой точности в autoformalization. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить выявленные проблемы, авторы представляют ThinkingF — комплексную пайплайн для синтеза данных и обучения моделей, нацеленную на улучшение обеих ключевых способностей. Эта пайплайн состоит из двух основных этапов: построение высококачественных датасетов и их использование в процессе обучения моделей. В первом этапе создаются два датасета. Первый датасет формируется путем дистилляции и выбора большого количества примеров, богатых формальным знанием. Этот датасет направлен на развитие глубокого понимания формального домена у моделей. Второй датасет формируется с помощью генерации неформально-формальных рассуждений, которые основываются на шаблонах, разработанных экспертами. Эти шаблоны помогают обучать модели к резонированию и выравниванию между неформальным и формальным языком. Во втором этапе применяются два метода обучения: Supervised Fine-Tuning (SFT) и Reinforcement Learning with Value-Reward (RLVR). Эти методы позволяют моделям не только освоить формальные знания, но и улучшить способность к резонированию и выравниванию. Архитектура моделей, полученных в результате этого процесса, основана на базовых LLMs размером 7B и 32B. Эти модели показывают высокую способность к формальному знанию и неформально-формальному выравниванию, что является результатом функционального слияния двух ключевых способностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного подхода были проведены эксперименты на двух фундаментальных датасетах: FormalMATH-Lite и ProverBench. Модель StepFun-Formalizer-32B достигла рекордных результатов, показав BEq@1 (exact match accuracy) в 40.5% на FormalMATH-Lite и 26.7% на ProverBench. Эти результаты значительно превосходят результаты предыдущих моделей, как общего назначения, так и специализированных под autoformalization. Было показано, что модели, обученные с помощью ThinkingF, не только лучше понимают формальные объекты, но также эффективнее выравнивают неформальные контексты с формальными выражениями. Эти результаты демонстрируют значительный прогресс в решении проблем недостаточной точности, которая была характерна для предыдущих подходов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкое применение в областях, требующих формальной верификации и автоматизации математических доказательств. Он может быть использован в разработке программного обеспечения, системах автоматической проверки доказательств, а также в образовательных целях для обучения студентов формальной математике. Преимущества этого подхода заключаются в высокой точности преобразования, что позволяет автоматизировать процесс преобразования неформальных математических утверждений в формальные, что значительно экономит время и усилия человека. Кроме того, этот подход может быть использован в различных научных и инженерных дисциплинах, где формальные выражения играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ StepFun-Formalizer представляет собой значительный шаг вперед в области autoformalization. Он не только показывает высокую точность, но также открывает новые возможности для применения LLMs в формальных задачах. Будущие исследования могут фокуссироваться на дальнейшем улучшении моделей, особенно в области резонирования и выравнивания между неформальным и формальным языками, а также на расширении областей применения этого подхода.

Annotation:

Autoformalization aims to translate natural-language mathematical statements into a formal language. While LLMs have accelerated progress in this area, existing methods still suffer from low accuracy. We identify two key abilities for effective autoformalization: comprehensive mastery of formal-language domain knowledge, and reasoning capability of natural language problem understanding and informal-formal alignment. Without the former, a model cannot identify the correct formal objects; without...

ID: 2508.04440v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI

2025-08-09

Авторы:

Rohaizah Abdul Wahid, Muhamad Said Nizamuddin Nadim, Suliana Sulaiman, Syahmi Akmal Shaharudin, Muhammad Danial Jupikil, Iqqwan Jasman Su Azlan Su

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной образовательной практике существует актуальная проблема создания высококачественных и масштабируемых оценивающих инструментов, особенно в условиях ограниченных ресурсов. Эта проблема особенно остро стоит в регионах с низким уровнем ресурсов, где языки обучения, такие как Бахаса Мелайу, имеют ограниченные ресурсы для разработки образовательного контента. Малазийская система образования сталкивается с трудностями в обеспечении точности и соответствия учебному плану при создании оценивающих материалов. Это создает потребность в инновационных подходах, которые могли бы обеспечить качество и соответствие курсивному плану. Generative AI (GenAI) представляет собой перспективное решение для автоматического генерирования оценивающих вопросов, однако этот подход не без вызовов. Одной из ключевых проблем является обеспечение фактической точности и соответствия учебному плану, особенно для ресурсоемких языков. Таким образом, требуется разработка методологий, которые могли бы обеспечить высокое качество автоматически генерируемых вопросов, основанных на официальных учебных материалах и планах. Цель данного исследования – разработка и сравнение различных методологий автоматического генерирования вопросов для математики 1 класса на языке Бахаса Мелайу, используя модель OpenAI's GPT-4. Исследование рассматривает четыре последовательных подхода к генерации вопросов: от базовых незаземленных подсказок до более сложных методологий, основанных на Retrieval-Augmented Generation (RAG). Исследование также анализирует точность и соответствие учебному плану, используя специально разработанные методы оценки, такие как Semantic Textual Similarity (STS) и RAG-based Question-Answering (RAG-QA). ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были разработаны четыре последовательных подхода к генерации вопросов. Первые два метода основаны на незаземленных подсказках, которые генерируют вопросы без непосредственного использования дополнительных контекстуальных данных. Эти методы включают структурированные и базовые подходы к формулировке запросов. Третий и четвертый подходы основаны на RAG-методологии, которая дополняет модель генерации дополнительными контекстуальными данными. Один из них использует фреймворк LangChain для упрощения процесса, а другой реализуется вручную для более тонкого контроля над процессом. Оба подхода используют официальные учебные материалы, включая заметки учителей и годовой учебный план (RPT), для обеспечения соответствия учебному плану. Кроме того, была разработана двойная система оценки для проверки генерируемых вопросов. Одна из компонентов, STS, измеряет соответствие вопросов учебному плану, а другая, RAG-QA, проверяет фактическую точность вопросов путем их проверки с помощью дополнительных контекстуальных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проведены эксперименты, которые сравнивают четыре подхода к генерации вопросов. Результаты показывают, что RAG-based подходы значительно превосходят незаземленные подсказки в терминах соответствия учебному плану и фактической точности. Методы, основанные на RAG, продемонстрировали лучшие результаты в измерении STS и RAG-QA, показывая высокий уровень соответствия курсивному плану. Дополнительно, исследование провело анализ того, как удобство использования фреймворка LangChain сравнивается с более тонким контролем, предоставляемым ручной реализацией. Это показало, что фреймворк LangChain обеспечивает более простой интеграцию, но может ограничивать точность контроля. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование имеет значительное практическое применение в области образования, особенно в регионах с низким уровнем ресурсов. Разработанная методология может быть использована для создания высококачественных оценивающих материалов, которые соответствуют учебному плану и обеспечивают фактическую точность. Это может быть особенно полезно для регионов, где языки обучения имеют ограниченные ресурсы. Преимущества этого подхода включают в себя масштабируемость, высокую точность и возможность адаптации к конкретным учебным планам. Это может способствовать развитию EdTech-решений в Малазии и других регионах с похожими условиями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что RAG-based подходы являются эффективными для генерации высококачественных оценивающих вопросов, соответствующих учебному плану. Это открывает перспективы для дальнейшего развития EdTech-решений, особенно в регионах с низким уровнем ресурсов. Будущие исследования могут фокусироваться на улучшении точности и эффективности таких систем, а также на расширении их применения на другие предметы и регионы.

Annotation:

This paper addresses the critical need for scalable and high-quality educational assessment tools within the Malaysian education system. It highlights the potential of Generative AI (GenAI) while acknowledging the significant challenges of ensuring factual accuracy and curriculum alignment, especially for low-resource languages like Bahasa Melayu. This research introduces and compares four incremental pipelines for generating Form 1 Mathematics multiple-choice questions (MCQs) in Bahasa Melayu u...

ID: 2508.04442v1 cs.CL, cs.AI

arXiv PDF

📄 Cloud Model Characteristic Function Auto-Encoder: Integrating Cloud Model Theory with MMD Regularization for Enhanced Generative Modeling

2025-08-09

Авторы:

Biao Hu, Guoyin Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генеративные модели, такие как автокодировщики и их разновидности, играют ключевую роль в задачах моделирования высокомерных данных, восстановления объектов и генерации реалистичных образцов. Однако традиционные модели, основанные на стандартных нормальных распределениях в латентном пространстве и классических мерах различия (divergence), часто сталкиваются с проблемами, связанными с недостаточной структурированностью пространства представлений и низкой качественностью восстановленных образцов. В частности, при использовании стандартного гауссовского приоритета (prior) возникает эффект "гомогенизации", при котором разнообразие восстановленных образцов снижается из-за недостаточной экспрессивности латентного пространства. Другой существенной проблемой является сложность моделирования сложных, многомодальных распределений данных. Традиционные методы регуляризации латентного пространства, такие как Kullback-Leibler дивергенция, не всегда способны обеспечить достаточную гибкость для представления таких распределений. Это приводит к неоптимальному разбиению пространства и снижению качества моделирования. В этой связи становится актуальной задача интеграции более гибких математических моделей, способных лучше представлять сложные распределения. Одной из таких моделей является облачная модель (cloud model), которая предлагает более естественное и гибкое представление распределений, основанное на их характеристических функциях. Интеграция этой модели в рамках современных генеративных архитектур, таких как Wasserstein Auto-Encoder (WAE), может помочь решить вышеупомянутые проблемы и улучшить качество моделирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается **Cloud Model Characteristic Function Auto-Encoder (CMCFAE)**, новая генеративная модель, которая интегрирует облачную модель с фреймворком WAE. Основная идея заключается в использовании характеристических функций облачной модели для регуляризации латентного пространства. Облачная модель представляет собой вероятностную модель, которая описывает распределения с помощью их характеристических функций. Эти функции позволяют описать распределение более гибко, чем традиционные гауссовские модели. Авторы предлагают использовать эту гибкость для регуляризации латентного пространства в WAE. Архитектура CMCFAE включает в себя энкодер и декодер, как в традиционном WAE, но дополнена регуляризатором, основанным на характеристических функциях облачной модели. Регуляризатор обеспечивает согласованность распределения в латентном пространстве с характеристической функцией облачной модели. Такой подход позволяет избежать гомогенизации восстановленных образцов и повысить качество генерации. Кроме того, для улучшения качества моделирования используется Maximum Mean Discrepancy (MMD) регуляризация. MMD позволяет выровнять распределения в латентном пространстве и реальных данных, обеспечивая лучшую структурированность пространства. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на наборах данных MNIST, FashionMNIST, CIFAR-10 и CelebA для оценки качества модели CMCFAE. Результаты сравнивались с другими современными генеративными моделями, такими как VAEs и WAEs с гауссовским приоритетом. Квантитативные результаты показали, что CMCFAE превосходит существующие модели по таким метрикам, как Fréchet Inception Distance (FID) и реконструкционная ошибка. Кроме того, квалитативный анализ показал, что образцы, генерируемые моделью CMCFAE, более разнообразны и реалистичны по сравнению с другими моделями. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод CMCFAE может быть применен в различных областях, где важна высокая качественность генерации и реалистичность восстановленных образцов. Например, в области компьютерного зрения, CMCFAE может быть использована для генерации реалистичных изображений, восстановления деталей изображений или синтеза данных. Другой важной областью применения является обработка естественного языка, где модель может быть использована для моделирования многомодальных распределений, таких как распределение слов в тексте. Также CMCFAE может быть полезна в задачах анонимизации данных, где необходимо сохранить разнообразие и реалистичность генерируемых образцов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе была представлена новая генеративная модель **CMCFAE**, которая интегрирует облачную модель с фреймворком WAE и использует MMD регуляризацию для улучшения качества генерации. Эксперименты показали, что CMCFAE превосходит существующие модели по различным метрикам качества. Будущие исследования могут быть направлены на дальнейшее улучшение архитектуры модели, а также на применение этого подхода к более сложным данным, таким как видео и 3D-данные. Кроме того, может быть исследовано влияние различных регуляризаторов на качество моделирования.

Annotation:

We introduce Cloud Model Characteristic Function Auto-Encoder (CMCFAE), a novel generative model that integrates the cloud model into the Wasserstein Auto-Encoder (WAE) framework. By leveraging the characteristic functions of the cloud model to regularize the latent space, our approach enables more accurate modeling of complex data distributions. Unlike conventional methods that rely on a standard Gaussian prior and traditional divergence measures, our method employs a cloud model prior, providi...

ID: 2508.04447v1 cs.LG, cs.AI

arXiv PDF

📄 Automatic LLM Red Teaming

2025-08-09

Авторы:

Roman Belaire, Arunesh Sinha, Pradeep Varakantham

## КОНТЕКСТ И ПРОБЛЕМАТИКА Ред тимминг (red teaming) является критически важным процессом для выявления уязвимостей в текущих моделях машинного обучения, в том числе в Large Language Models (LLMs). Эти модели широко используются в различных приложениях, что повышает требования к их надежности и безопасности. Однако существующие автоматизированные методы ред тимминга для LLMs основываются на хрупких шаблонах запросов (prompt templates) или однократных атаках (single-turn attacks), что не позволяет полноценно охватить сложность интерактивных, реальных атак. Традиционные методы часто не учитывают динамические, многошаговые взаимодействия, которые могут возникновением в реальных сценариях использования. Кроме того, существующие подходы сталкиваются с трудностями, связанными со спарсными наградами (sparse rewards) и длительными горизонтами взаимодействия (long-horizon challenges), что ограничивает их эффективность. Необходимо разработать более продвинутый и адаптивный подход, способный обнаруживать тонкие уязвимости, которые могут быть пропущены существующими методами. Таким образом, целью данного исследования является создание нового парадигматического подхода к ред тиммингу LLMs, который бы учитывал их динамическую природу и позволял бы обнаруживать более сложные уязвимости. Это необходимо для обеспечения безопасного и надежного развертывания моделей ИИ в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается инновационный подход к ред тиммингу LLMs, основанный на формализации процесса как Марковский процесс принятия решений (Markov Decision Process, MDP) и применении иерархического Reinforcement Learning (RL). Этот подход позволяет обучить агента, который стратегически «ломает» другой ИИ, используя многошаговые атаки. Авторы предлагают использовать иерархическую структуру RL, где верхний уровень отвечает за выбор общей стратегии атаки, а нижний уровень фокусируется на тонких, токено-ориентированных изменениях, которые могут привести к вредным последствиям. Для обучения агента используется наградная функция, основанная на токенах, которая позволяет оценивать вредность действий на более детальном уровне. Ключевой момент данного подхода заключается в том, что он рассматривает ред тимминг как динамический, траекторийный процесс, а не как однократный тест. Это позволяет обнаруживать более сложные и подтаивающиеся уязвимости, которые могут быть пропущены при использовании традиционных методов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты с использованием различных наборов данных и моделей LLMs. Авторы сравнили результаты существующих базовых методов с тем, что было получено с использованием их нового подхода. Результаты показали, что предложенный метод способен обнаруживать гораздо более тонкие и сложные уязвимости, которые не были выявлены при использовании традиционных методов. Благодаря токено-ориентированной наградной функции, агент может выявлять тонкие изменения в поведении модели, которые могут привести к негативным последствиям. Кроме того, эксперименты показали, что иерархическая структура RL позволяет обучить агента выполнять многошаговые атаки, которые более эффективны в выявлении уязвимостей, чем однократные атаки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области безопасности и надежности моделей ИИ. Он может быть использован для обнаружения уязвимостей в различных моделях LLMs, что в свою очередь позволяет улучшить их безопасность и надежность перед развертыванием в реальных условиях. Данный подход также может быть применен для тестирования и оптимизации других моделей ИИ, где важно обеспечить высокий уровень безопасности и надежности. Потенциальное влияние этого метода может быть огромным, так как он позволяет создавать более надежные и безопасные системы ИИ, которые могут быть использованы в критически важных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был разработан новый подход к ред тиммингу LLMs, основанный на формализации процесса как MDP и применении иерархического RL. Этот подход позволяет обнаруживать более сложные и тонкие уязвимости, которые могут быть пропущены традиционными методами. Будущие исследования могут фокусироваться на дальнейшем улучшении этого подхода, в том числе на разработке более эффективных наградных функций и методов обучения агентов. Кроме того, можно рассмотреть возможность применения этого подхода к другим типам моделей ИИ, чтобы обеспечить более широкое использование этой технологии.

Annotation:

Red teaming is critical for identifying vulnerabilities and building trust in current LLMs. However, current automated methods for Large Language Models (LLMs) rely on brittle prompt templates or single-turn attacks, failing to capture the complex, interactive nature of real-world adversarial dialogues. We propose a novel paradigm: training an AI to strategically `break' another AI. By formalizing red teaming as a Markov Decision Process (MDP) and employing a hierarchical Reinforcement Learning ...

ID: 2508.04451v1 cs.LG, cs.AI

arXiv PDF

📄 From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control

2025-08-09

Авторы:

Rui Ha, Chaozhuo Li, Rui Pu, Sen Su

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Reasoning Models (LRMs) продемонтрировали высокую эффективность в решении сложных задач, включая спонтанное демонстрацию таких когнитивных процессов, как пошаговое выведение, рефлексия и бэктрекинг. Эти явления, известные как "Aha Moments", отражают способность моделей к сложному мышлению. Однако, несмотря на эти успехи, такое мышление характеризуется значительными недостатками. Оно часто неконтролируемо и может приводить к "overthinking", когда модель продолжает генерировать избыточную информацию даже после достижения надежного решения. Это приводит к ненужному увеличению вычислительных затрат и задержек, что ограничивает практическую применимость LRMs. Ключевой проблемой является отсутствие внутренних механизмов регуляции. Текущие модели не могут эффективно мониторить и адаптировать свой процесс мышления, чтобы определить, когда нужно продолжить, вернуться назад или закончить процесс. Этот недостаток ограничивает возможности моделей к эффективному использованию в реальных приложениях. Чтобы решить эту проблему, необходим подход, который позволит моделям эффективно управлять своим процессом мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагается Meta-cognitive Reasoning Framework (MERA), который разделяет процесс мышления на две компоненты: reasoning (мышление) и control (управление). Это позволяет оптимизировать стратегии управления независимо от самого процесса мышления. MERA включает в себя несколько ключевых компонентов. Первый компонент - это takeover-based data construction mechanism, который идентифицирует критические моменты принятия решений в процессе мышления и делегирует создание контрольных сигналов на вспомогательные LLMs. Это позволяет построить высококачественные данные для обучения reasoning-control моделей. Второй компонент - это supervised fine-tuning, который реализует структурированное разделение между процессом мышления и управлением. Этот процесс позволяет модели генерировать явные трассируемые следы и приобретать начальные meta-cognitive (мета-когнитивные) способности управления. Наконец, MERA использует Control-Segment Policy Optimization (CSPO), который сочетает segment-wise Group Relative Policy Optimization (GRPO) с механизмом control-masking. Это позволяет оптимизировать процесс обучения контрольного поведения, свести к минимуму вмешательство несвязанных компонентов и эффективно обучать модель. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных reasoning benchmarks для оценки эффективности MERA. Результаты показали, что модели, обученные с использованием MERA, демонстрируют значительное улучшение как в эффективности, так и в точности выполнения задач. Эти модели способны лучше управлять своим процессом мышления, избегая избыточного вычисления и уменьшая время ответа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MERA имеет широкое применение в областях, требующих эффективного и контролируемого мышления. Это может включать такие домены, как автономные системы, робототехника, медицинские диагностические системы и другие области, где важна быстрая и точная обработка информации. Преимущества MERA включают в себя уменьшение вычислительных затрат, улучшение точности и увеличение скорости принятия решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MERA представляет собой важный шаг в развитии контролируемых систем мышления. Он позволяет LRMs эффективно управлять своим процессом мышления, что может привести к значительным улучшениям в их практическом применении. Будущие исследования могут сосредоточиться на дальнейшем улучшении эффективности и точности таких систем, а также на их интеграции в различные практические приложения. ```

Annotation:

Large Reasoning Models (LRMs) have demonstrated a latent capacity for complex reasoning by spontaneously exhibiting cognitive behaviors such as step-by-step reasoning, reflection, and backtracking, commonly referred to as "Aha Moments". However, such emergent behaviors remain unregulated and uncontrolled, often resulting in overthinking, where the model continues generating redundant reasoning content even after reaching reliable conclusions. This leads to excessive computational costs and incre...

ID: 2508.04460v1 cs.AI

arXiv PDF

📄 Small transformer architectures for task switching

2025-08-09

Авторы:

Claudius Gros

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распространение технологий генеративного искусственного интеллекта в последнее время тесно связано с механизмом внимания, который лежит в основе архитектур трансформеров. Однако, несмотря на их успех в крупномасштабных задачах, не всегда трансформеры показывают преимущество над традиционными моделями, такими как многослойные персептроны (MLP) или рекуррентные сети (RNN), в малых задачах. Особенно это заметно в контексте **"таск-свитчинга" (task switching)** — задачи, где модели должны эффективно переключаться между различными подзадачами в рамках последовательных данных. В этой работе исследуется проблема эффективности трансформеров в таск-свитчинге, особенно в задачах, требующих высокой адаптивности к изменяющимся условиям. Основная мотивация заключается в том, чтобы оценить, могут ли трансформеры, основанные на механизме внимания, превосходить традиционные подходи в подобных сценариях. Исследуется специфическая модель задачи, основанная на арифметических операциях (IARC: increment, addition, reverse copy, context), в которой модели должны обрабатывать последовательности токенов, содержащие контрольные токены, определяющие текущую подзадачу. Изучение этого контекста важно, поскольку понимание ограничений и возможностей трансформеров в малых задачах может помочь улучшить их применение в реальных системах, требующих быстрого переключения между задачами. Также, это позволяет понять, как различные варианты механизма внимания влияют на производительность моделей в таких ситуациях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования были рассмотрены несколько вариантов архитектур, включая стандартные трансформеры, рекуррентные сети типа LSTM, и MLP. Кроме того, были предложены модификации архитектуры трансформера, такие как **cisformer** — расширенная версия трансформера, которая не является трансляционно-инвариантной, и **extensive attention** — альтернативный механизм внимания. Cisformer предлагает более гибкую структуру, позволяющую модели более эффективно обрабатывать последовательности с переключениями между задачами. Extensive attention, в свою очередь, модифицирует стандартный механизм внимания, обеспечивая более глубокое понимание контекста и повышая точность предсказаний. Ключевым моментом является то, что эти модификации позволяют преодолеть ограничения стандартных трансформеров в задачах с частыми переключениями контекста. Модели были тщательно оптимизированы для работы с последовательностями, где каждая подзадача требует различного подхода к обработке. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов были использованы данные, содержащие последовательности токенов с контрольными токенами, определяющими текущую подзадачу. Модели были оценены по их способности к предсказанию следующих токенов в последовательности. Результаты показали, что стандартные трансформеры, MLP и LSTM достигают сравнительно низких точностей в задаче таск-свитчинга, не превышая 60-70%. Однако, комбинация cisformer с extensive attention показала значительно лучшие результаты, достигая точности около **95%**. Эти результаты демонстрируют, что модифицированные архитектуры трансформеров, особенно с использованием расширенного механизма внимания, могут значительно превосходить традиционные модели в задачах, требующих быстрого переключения контекста. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенные модификации трансформеров могут быть применены в областях, требующих быстрого переключения между различными задачами, таких как **робототехника**, **автоматизированные системы управления**, и **естественный язык обработки**. Например, в робототехнике, где робот должен выполнять различные задачи в зависимости от контекста, эффективное переключение между задачами критически важно. Достижение высокой точности в таких задачах может улучшить производительность систем, особенно в ситуациях, где необходимо быстрое адаптирование к новым условиям. Это может быть особенно полезно в системах, где нужно обрабатывать потоки данных в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что модификации архитектуры трансформера, такие как cisformer и extensive attention, могут значительно повысить производительность в задачах таск-свитчинга. Это открывает перспективы для дальнейших исследований в области модификации механизма внимания и его применении в реальных системах. Будущие исследования могут фокусироваться на дальнейшем улучшении этих модификаций, а также на их применении в более широких областях, таких как мультизадачность и адаптивное обучение. Кроме того, эти результаты могут быть использованы для лучшего понимания того, как работает механизм внимания в различных контекстах.

Annotation:

The rapid progress seen in terms of large-scale generative AI is largely based on the attention mechanism. It is conversely non-trivial to conceive small-scale applications for which attention-based architectures outperform traditional approaches, such as multi-layer perceptrons or recurrent networks. We examine this problem in the context of 'task switching'. In this framework models work on ongoing token sequences with the current task being determined by stochastically interspersed control to...

ID: 2508.04461v1 cs.LG, cs.AI

arXiv PDF

📄 Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

2025-08-09

Авторы:

Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen

**Резюме** В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели. **ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.

Annotation:

Concept Erasure, which aims to prevent pretrained text-to-image models from generating content associated with semantic-harmful concepts (i.e., target concepts), is getting increased attention. State-of-the-art methods formulate this task as an optimization problem: they align all target concepts with semantic-harmless anchor concepts, and apply closed-form solutions to update the model accordingly. While these closed-form methods are efficient, we argue that existing methods have two overlooked...

ID: 2508.04472v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Metric Learning in an RKHS

2025-08-09

Авторы:

Gokcan Tatli, Yi Chen, Blake Mason, Robert Nowak, Ramya Korlakai Vinayak

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Метрическое обучение (metric learning) является ключевым инструментом в области обработки данных и машинного обучения, где цель заключается в построении метрики, которая точно отражает сходство или различия между объектами. Этот подход имеет широкое применение в задачах, таких как извлечение образов, рекомендательные системы и когнитивная психология. Одной из популярных форм метрического обучения является обучение на основе триплетных сравнений (triplet comparisons), где пользователь указывает, какой из двух объектов (например, $h$ и $i$) более похож на третий объект ($j$). Такие сравнения позволяют определять степень сходства и различия между объектами. В последнее время, нелинейные методы метрического обучения, основанные на ядровых методах (kernel methods) и нейронных сетях, показали высокую эффективность на практике. Однако, несмотря на их успех, теоретическое понимание таких методов остается ограниченным. Большинство исследований фокусируются на линейных методах, где метрическое обучение производится в евклидовом пространстве $\mathbb{R}^d$, для которого существует хорошо изученная теория. Однако, в более общем случае, когда метрика изучается в пространстве репродуцирующих ядер (RKHS), теоретические гарантии и понимание остаются недостаточными. Цель этой работы заключается в разработке общего фреймворка для метрического обучения в RKHS, который бы обеспечил теоретические гарантии и оценки сложности выборки (sample complexity bounds). Это позволит лучше понять, как нелинейные методы работают в более сложных пространствах, и как они могут быть применены к реальным данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали общий фреймворк для метрического обучения в пространстве RKHS, основанный на теории ядерных методов. Основная идея заключается в том, чтобы построить метрику, которая бы оптимизировалась на основе триплетных сравнений в пространстве RKHS. Для этого используется функционал, который выражает сходство между объектами через ядра, и оптимизируется с помощью алгоритмов, специально разработанных для этого контекста. В рамках данного метода, авторы используют нелинейные преобразования, предоставляемые пространством RKHS, что позволяет более точно отражать сложные зависимости между объектами. Алгоритм оптимизации основан на методах градиентного спуска, адаптированных для RKHS. Кроме того, авторы представляют новые теоретические результаты, включая гарантии обобщения (generalization guarantees) и оценки сложности выборки, которые позволяют оценить качество полученной метрики на новых данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода, авторы провели ряд экспериментов. Они использовали как синтетические, так и реальные данные. На синтетических данных, они исследовали, как метрика, построенная в RKHS, отражает различные типы сходства и различий между объектами. Результаты показали, что метод эффективно оптимизирует метрику и обеспечивает хорошую обобщающую способность. На реальных данных, таких как наборы изображений и данные из рекомендательных систем, метод также показал хорошие результаты. Он сравнивался с предыдущими методами, и было показано, что предлагаемый подход обеспечивает более высокую точность и качество построенной метрики. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где важно точно определять сходство между объектами. Например, в задачах извлечения образов, этот подход может помочь в поиске похожих изображений на основе пользовательских предпочтений. В рекомендательных системах, он может улучшить качество рекомендаций, основываясь на более точном понимании предпочтений пользователя. Кроме того, этот метод может быть применен в областях, где нелинейные зависимости между объектами важны, таких как в когнитивной психологии, где необходимо моделировать сложные взаимодействия между различными концептами. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был разработан новый фреймворк для метрического обучения в пространстве RKHS, который обеспечивает теоретические гарантии и оценки сложности выборки. Этот подход показал высокую эффективность на синтетических и реальных данных. В будущем, авторы планируют расширить этот метод для более сложных задач, включая обработку текстовых данных и многомодальных данных, а также исследовать влияние различных типов ядер на качество полученной метрики.

Annotation:

Metric learning from a set of triplet comparisons in the form of "Do you think item h is more similar to item i or item j?", indicating similarity and differences between items, plays a key role in various applications including image retrieval, recommendation systems, and cognitive psychology. The goal is to learn a metric in the RKHS that reflects the comparisons. Nonlinear metric learning using kernel methods and neural networks have shown great empirical promise. While previous works have ad...

ID: 2508.04476v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

2025-08-09

Авторы:

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие искусственного интеллекта приблизило человечество к реализации мечты о создании универсальных цифровых ассистентов, подобных J.A.R.V.I.S из киновселенной Marvel. Традиционные подходы к автоматизации задач ограничивались узкоспециализированными решениями, способными выполнять лишь предопределенный набор операций в строго контролируемых средах. Однако появление мультимодальных больших языковых моделей ((M)LLM) открыло принципиально новые возможности для создания агентов, способных взаимодействовать с вычислительными устройствами через стандартные интерфейсы пользователя, такие как графические интерфейсы (GUI). Ключевая проблема заключается в том, что современные операционные системы и приложения разработаны для человеческого взаимодействия, а не для машинной автоматизации. Это создает ряд фундаментальных вызовов: необходимость понимания визуального контента экрана, интерпретации семантики элементов интерфейса, планирования сложных многошаговых задач и адаптации к изменениям в интерфейсах различных приложений. Существующие решения либо требуют специализированного программирования под каждое приложение, либо обладают ограниченной обобщающей способностью. Особенно остро стоит проблема "grounding" - способности агента связать высокоуровневые инструкции на естественном языке с конкретными действиями в интерфейсе. Например, команда "отправь отчет менеджеру по электронной почте" требует понимания, где находится приложение почты, как прикрепить файл, как выбрать нужного получателя и множества других контекстно-зависимых действий. Эта проблема усугубляется разнообразием операционных систем, версий приложений и индивидуальных настроек пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Статья предлагает комплексную системную методологию создания OS Agents - агентов, способных автономно управлять вычислительными устройствами через стандартные интерфейсы операционных систем. Методология базируется на трех фундаментальных компонентах: среда наблюдения, пространство действий и архитектура агента. Среда наблюдения представлена как мультимодальное пространство, включающее визуальную информацию экрана (screenshots), структурное представление интерфейса (accessibility tree), текстовый контент и историю взаимодействий. Для обработки этой информации используются специализированные MLLM, обученные на синтетических и реальных датасетах, содержащих пары "screenshot-описание-действие". Пространство действий охватывает все возможные способы взаимодействия с GUI: клики мышью, клавиатурный ввод, прокрутка, перетаскивание, а также системные действия (запуск приложений, переключение между окнами). Для обеспечения надежности действий используется двухуровневая система: высокоуровневое планирование генерирует последовательность абстрактных действий, которые затем конкретизируются на уровне grounding в конкретные координаты и типы взаимодействий. Архитектура агента включает четыре ключевых модуля: модуль понимания (переводит наблюдения в семантическое представление), модуль планирования (разбивает высокоуровневые задачи на последовательность действий), модуль grounding (сопоставляет действия с конкретными элементами интерфейса) и модуль исполнения (выполняет действия и контролирует их результат). Для эффективного обучения используется комбинация обучения с подкреплением, имитационного обучения и самостоятельного улучшения через взаимодействие со средой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Оценка эффектiveness OS Agents проводилась на 15 специализированных бенчмарках, охватывающих различные сценарии использования: веб-навигация (Mind2Web, WebArena), работа с офисными приложенияами (OfficeBench), управление мобильными устройствами (AndroidControl) и сложные многоприложные сценарии (OSWorld). На бенчмарке Mind2Web, включающем 2000 задач веб-навигации, лучшие OS Agents достигли 65.2% точности, что на 23% превышает предыдущие методы. В более сложной среде WebArena с динамическими веб-сайтами достигнута точность 38.7%, приблизившись к человеческому уровню в 45.2%. Особенно впечатляющие результаты показаны в задачах многошаговой автоматизации: в среднем агенты справлялись с задачами, требующими 8-12 последовательных

Annotation:

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This p...

ID: 2508.04482v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

1
2
1415
1416
1417
1418
1419
1442
1443

Показано 14161 - 14170 из 14425 записей