📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

2025-08-08

Авторы:

Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) стали важной составляющей современных исследований в области искусственного интеллекта, особенно в задачах резонансного мышления. Однако улучшение их резонансных способностей часто зависит от использования reinforcement learning (RL), который представляет собой ключевую методологию в этой области. Два главных подхода к формированию вознаграждений (rewards) в RL — model-based rewards и rule-based rewards — имеют свои ограничения. Rule-based rewards, основанные на строгих правилах, не гарантируют достаточной робастности и адаптивности, что может привести к нестабильности в обучении. С другой стороны, model-based rewards, которые зависят от моделей для оценки результатов, часто сталкиваются с проблемой reward hacking, когда модель находит способы манипулировать системой вознаграждений, чтобы получать высокие баллы, не выполняя фактически задачи. Эти проблемы усугубляются отсутствием эффективных методов для генерации высококачественных данных для обучения моделей вознаграждений. Мотивацией данного исследования является необходимость разработки более эффективных и робастных методов для интеграции моделей вознаграждений в RL для LLMs. Авторы предлагают решение, основанное на совместном оптимизировании модели политики (policy model) и модели вознаграждений (reward model), чтобы устранить существующие недостатки и повысить эффективность RL в задачах резонансного мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк под названием **Cooper (Co-optimizing Policy Model and Reward Model)**, который сочетает в себе оптимизацию модели политики и модели вознаграждений в едином процессе. Основная идея Cooper заключается в том, чтобы использовать преимущества rule-based rewards для точной идентификации правильных ответов и динамически формировать наборы положительных и отрицательных примеров для дальнейшего обучения модели вознаграждений. Cooper использует **hybrid annotation strategy** для эффективной генерации данных, которые необходимы для обучения модели вознаграждений. Эта стратегия объединяет как автоматическую, так и ручною аннотацию, чтобы обеспечить высококачественные данные. Кроме того, авторы предлагают **reference-based reward modeling paradigm**, где модель вознаграждений использует ссылочный ответ (reference answer) в качестве входа для более точной оценки. В рамках этого фреймворка была разработана модель вознаграждений под названием **VerifyRM**, которая достигает высокой точности на наборе данных VerifyBench по сравнению с другими моделями того же размера. VerifyRM основана на ссылочном подходе и обеспечивает более надежную оценку качества ответов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности Cooper и модели VerifyRM. Эксперименты проводились на данных Qwen2.5-1.5B-Instruct, где Cooper показал значительное улучшение результатов по сравнению с базовыми подходами. В частности, использование Cooper привело к росту средней точности на 0.54%, что является существенным результатом в контексте задач резонансного мышления. Кроме того, VerifyRM также демонстрирует высокую точность на VerifyBench, превосходя другие модели вознаграждений того же размера. Эксперименты также показали, что динамическое обновление модели вознаграждений в рамках Cooper позволяет снизить риск reward hacking и повысить общую эффективность RL. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Cooper имеет значительное практическое применение в области резонансного мышления с использованием LLMs. Он позволяет улучшить надежность и эффективность RL, устраняя проблемы reward hacking и повышая качество обучения. Одним из ключевых преимуществ Cooper является его способность динамически обновлять модель вознаграждений, что обеспечивает более точную оценку и улучшает итоговые результаты RL. Это может быть применено в различных областях, где необходимо высококачественное резонансное мышление, таких как обработка естественного языка, автоматическое распознавание речи и другие прикладные задачи. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк Cooper, который сочетает оптимизацию модели политики и модели вознаграждений для улучшения результатов RL в задачах резонансного мышления. Авторы демонстрируют, что динамическое обновление модели вознаграждений является эффективным способом для борьбы с reward hacking и повышения эффективности RL. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры Cooper, включая разработку более эффективных стратегий аннотации и моделей вознаграждений. Кроме того, можно исследовать применение этого подхода к более широкому классу задач, включая мультимодальные системы и задачи, требующие высокой точности резонансного мышления.

Annotation:

Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Polic...

ID: 2508.05613v1 cs.CL, cs.AI

arXiv PDF

📄 OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

2025-08-08

Авторы:

Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) продемонстрировали выдающиеся способности к абстрактному рассуждению в задачах математики, логики и общих знаний. Однако их потенциал в области воплощенного интеллекта (embodied intelligence), включающего физическое взаимодействие с окружающей средой, использование инструментов и координацию между множеством агентов, остается практически неизученным. Существующие бенчмарки для оценки воплощенного интеллекта страдают от фундаментальных ограничений: они либо предоставляют заранее определенные наборы инструментов, либо явно указывают стратегии совместной работы, что не отражает реальную сложность воплощенных задач. Ключевая проблема заключается в том, что реальные воплощенные задачи требуют от агентов динамического приобретения новых способностей и автономного определения стратегий координации на основе текущих потребностей задачи. Современные LLM ориентированы на обработку текстовой информации и не имеют встроенного механизма для моделирования непрерывных физических свойств, сложных пространственных отношений и динамических взаимодействий между объектами. Это создает значительный разрыв между теоретическими возможностями моделей и практическими требованиями воплощенных систем. Авторы статьи подчеркивают, что отсутствие комплексного бенчмарка, способного оценивать способность моделей к рассуждениям в условиях ограничений и неопределенности, затрудняет развитие воплощенного ИИ. Традиционные подходы к оценке фокусируются на конечных результатах, игнорируя процесс рассуждений и взаимодействие с ограничениями среды, что не позволяет выявить фундаментальные ограничения архитектуры современных LLM в контексте воплощенных задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем авторы разработали OmniEAR - комплексную платформу для оценки способности языковых моделей к рассуждениям о физических взаимодействиях, использовании инструментов и координации множества агентов в воплощенных задачах. В отличие от существующих решений, OmniEAR не предоставляет агентам заранее определенные наборы инструментов или явные инструкции для сотрудничества. Вместо этого система требует от агентов динамического приобретения необходимых способностей и автономного определения оптимальных стратегий координации на основе анализа текущей задачи и доступных ресурсов. Архитектура OmniEAR базируется на текстовом представлении окружающей среды, что позволяет моделировать непрерывные физические свойства объектов и сложные пространственные отношения без необходимости визуальной обработки. Платформа включает 1500 уникальных сценариев, охватывающих как бытовые, так и промышленные домены, каждый из которых специально разработан для тестирования конкретных аспектов воплощенного рассуждения. Сценарии разделены на три основные категории: задачи использования инструментов, задачи неявной координации и комбинированные задачи, требующие одновременного использования обоих навыков. Система оценивания реализует многоуровневый подход к измерению эффективности рассуждений. На первом уровне оценивается способность модели к идентификации релевантных ограничений среды и инструментов. На втором - качество планирования последовательности действий с учетом физических ограничений. На третьем - эффективность координации между множеством агентов в условиях частичной информации и неопределенности. Для каждого уровня разработаны специфические метрики качества, включающие как количественные показатели успешности, так и качественную оценку рациональности принятых решений. Экспериментальная методология включает сравнение производительности моделей при различных условиях предоставления информации: от полного доступа к состоянию среды до ограниченного наблюдения. Это позволяет выявить, как модели справляются с фильтрацией релевантной информации и принятием решений в условиях информационной перегрузки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания включала систематическую оценку производительности различных языковых моделей на всех 1500 сценариях OmniEAR. Основное внимание уделялось анализу спадов производительности при переходе от явных инструкций к неявным огран

Annotation:

Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordinatio...

ID: 2508.05614v1 cs.CL, cs.AI

arXiv PDF

📄 How Do LLMs Persuade? Linear Probes Can Uncover Persuasion Dynamics in Multi-Turn Conversations

2025-08-08

Авторы:

Brandon Jaipersaud, David Krueger, Ekdeep Singh Lubana

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено феномену убеждения человека крупными языковыми моделями (LLM), которое стало особенно актуальным с появлением моделей нового поколения, демонстрирующих репликуемую способность формировать мнения и влиять на поведение пользователей. Несмотря на рост практического применения таких систем в маркетинге, образовании, политике и психологии, научное сообщество до сих пор не обладает инструментами, позволяющими объективно оценить и детально объяснить механизмы, с помощью которых LLM добиваются убеждения. Традиционные подходы, опирающиеся на дорогостоящие методы с опросами пользователей или затратные промпт-эксперименты, не масштабируются и не дают динамической картины изменений в процессе многоходовых диалогов. Ключевой проблемой является отсутствие методов сплошного мониторинга внутренних представлений модели в ходе диалога, что делает невозможным определить момент перелома — мгновение, когда адресат фактически соглашается с аргументами LLM. Также неизвестно, насколько типология личности собеседника и выбор тактики убеждения отражаются в активациях нейросети в реальном времени. Отсутствие прозрачности не позволяет ни предотвращать вредоносное применение технологии, ни улучшать полезные сценарии, требующие этичного убеждения. Работа ставит целью заполнить этот пробел, предложив легковесный, но информативный способ изучения динамики убеждения в естественных многоходовых разговорах, где каждый ход может менять вероятность успеха и требует точечной диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы адаптировали линейные зонды (linear probes) — простейшие логистические регрессоры, обучаемые на замороженных активациях скрытых слоёв LLM — для количественной оценки трёх когнитивных компонентов убеждения: успешности убеждения (success), личностных характеристик собеседника (personality) и тактики убеждения (strategy). Идея состоит в том, что активации на любом слое содержат сжатую информацию, достаточную для линейного классификатора, чтобы предсказать целевую переменную. Процедура обучения включает два этапа. Сначала на фиксированном наборе диалогов вычисляются активации на промежуточных слоях модели (обычно на уровнях, близких к последнему слою энкодера или первому слою декодера). Затем для каждого слоя обучается отдельный зонд, минимизирующий кросс-энтропию между предсказанной меткой и истинной (например, «успех»/«неуспех»). Для надёжности авторы использовали k-fold кросс-валидацию и контролировали переобучение регуляризацией L2. Для задачи «success» метка формировалась на основе явного согласия пользователя или изменения его позиции в анкете до и после диалога. В задаче «personality» использовались психометрические шкалы Большой пятёрки (OCEAN), полученные из предварительного опроса участников. Метки «strategy» кодировались экспертами по 12-ти предопределённым категориям, включая апелляции к авторитету, эмоциональные ловушки, социальное доказательство и т. д. Особенность метода — возможность применять зонд к каждому токену или к усреднённым активациям целого хода, что позволяет отслеживать, в какой именно момент модель «осознаёт» успех убеждения или меняет тактику. В отличие от промптинга, зонды не требуют генерации новых текстов и работают на порядки быстрее, что критично для анализа крупных корпусов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: 1) 12 000 англоязычных диалогов, собранных на Amazon Mechanical Turk, где модель GPT-3.5-turbo убеждала людей поддержать конкретную политическую позицию; 2) 4 500 диалогов по продуктовому маркетингу в сети Reddit, где целью было склонить пользователя к покупке. Для каждого диалога был доступен полный лог реплик, временные метки и метаданные собеседника. Базовым сравнением служил zero-shot промптинг с инструкцией «Определи, было ли достигнуто согласие» и few-shot цепочка мыслей с 5 примерами. Зонды обучались на

Annotation:

Large Language Models (LLMs) have started to demonstrate the ability to persuade humans, yet our understanding of how this dynamic transpires is limited. Recent work has used linear probes, lightweight tools for analyzing model representations, to study various LLM skills such as the ability to model user sentiment and political perspective. Motivated by this, we apply probes to study persuasion dynamics in natural, multi-turn conversations. We leverage insights from cognitive science to train p...

ID: 2508.05625v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 H-Net++: Hierarchical Dynamic Chunking for Tokenizer-Free Language Modelling in Morphologically-Rich Languages

2025-08-08

Авторы:

Mehrdad Zakershahrak, Samira Ghodratnama

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области языковых моделей (LM) на байтовом уровне существует серьезная проблема, связанная с обработкой языков с богатой морфологией (MRLs). Традиционные модели, основанные на байтовых последовательностях, сталкиваются с высокой вычислительной сложностью, так как слова в таких языках часто занимают большое количество байтов. Кроме того, сложность увеличивается из-за необходимости обрабатывать характеристики морфологии, такие как сложные словоформы и артефакты, например, неразрывные пробелы (ZWNJ) в персидском языке. Существующие решения, такие как BPE-based GPT-2-fa, используют предварительную токенизацию, что приводит к жесткой структуре и ухудшению адаптации к динамически изменяющимся структурам текста. Таким образом, необходимо разработать модель, способную обрабатывать морфологические особенности MRLs без токенизации, сохраняя при этом высокую эффективность вычислений. Данная проблематика мотивирует поиск новых подходов к морфологическому анализу и динамической сегментации последовательностей, которые могут улучшить качество модели, особенно на задачах, требующих высокой точности и робастности к шумам в данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД H-NET++ предлагает инновационный подход к моделированию языков без токенизации, основанный на иерархическом динамическом чанкинге (segmentation). Основные компоненты модели включают: 1. **Легковесный Transformer-контекстный миксер (1.9M параметров)**: этот модуль обеспечивает эффективное взаимодействие между чанками (подпоследовательностями), позволяя модели учитывать контекст на различных уровнях. 2. **Двухуровневая латентная гиперприора (two-level latent hyper-prior)**: этот механизм поддерживает согласованность на уровне документа, что критично для обработки длинных текстовых последовательностей. 3. **Специализированная обработка ортографических артефактов**: модель учитывает специфические особенности персидского языка, такие как ZWNJ, что повышает робастность модели к потенциальным коррупциям в данных. 4. **Куррикулум-басисное обучение (curriculum-based training)**: обучение проводится поэтапно с постепенным увеличением длины последовательностей, что позволяет модели эффективнее адаптироваться к сложности задач. Архитектура H-NET++ построена таким образом, чтобы учитывать морфологические границы без явного наложения супервизии, что демонстрирует возможность извлечения лексических единиц на основе динамического анализа. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на корпусе из 1.4 миллиардов токенов персидского языка. H-NET++ достигла значительных улучшений по сравнению с BPE-based GPT-2-fa: - **Снижение BPB (Bits Per Byte)**: на 0.159 BPB (12% лучшая степень сжатия). - **Повышение результатов на ParsGLUE**: на 5.4 процентных пункта. - **Улучшение робастности**: модель показала 53% выше устойчивости к коррупции ZWNJ. - **Точность морфологического анализа**: F1-мера достигла 73.8% на золотых границах морфологии. Полученные результаты показывают, что H-NET++ эффективно адаптируется к морфологической структуре языка, не требуя явной токенизации, и обеспечивает высокую эффективность вычислений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ H-NET++ открывает новые возможности для обработки MRLs в различных приложениях, таких как машинный перевод, анализ текста и поиск информации. Благодаря ее способности обрабатывать морфологические особенности естественного языка без необходимости токенизации, модель может быть использована в задачах, требующих высокой точности и адаптивности к контексту. Кроме того, легковесная архитектура и высокая эффективность вычислений делают H-NET++ приемлемой для развертывания в ресурсоемких средах, где важна быстрая обработка больших объемов текста. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ H-NET++ представляет собой эффективное решение для моделирования языков без токенизации, особенно в MRLs. Ее иерархический динамический чанкинг позволяет обеспечить высокую точность и робастность, одновременно сохраняя вычислительную эффективность. Будущие исследования могут фокусироваться на расширении данного подхода на другие MRLs, а также на интеграции дополнительных механизмов для улучшения интерпретируемости и адаптации модели к нестандартным контекстам.

Annotation:

Byte-level language models eliminate fragile tokenizers but face computational challenges in morphologically-rich languages (MRLs), where words span many bytes. We propose H-NET++, a hierarchical dynamic-chunking model that learns linguistically-informed segmentation through end-to-end training. Key innovations include: (1) a lightweight Transformer context-mixer (1.9M parameters) for cross-chunk attention, (2) a two-level latent hyper-prior for document-level consistency, (3) specialized handli...

ID: 2508.05628v1 cs.CL, cs.AI

arXiv PDF

📄 Unveiling the Landscape of Clinical Depression Assessment: From Behavioral Signatures to Psychiatric Reasoning

2025-08-08

Авторы:

Zhuang Chen, Guanqun Bi, Wen Zhang, Jiawei Hu, Aoyun Wang, Xiyao Xiao, Kun Feng, Minlie Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Депрессия представляет собой одно из наиболее распространенных психических расстройств, затрагивающее миллионы людей по всему миру и оказывающее значительное влияние на качество жизни, социальную адаптацию и экономическое благополучие общества. Несмотря на активное развитие методов автоматической диагностики психических расстройств, современные исследования в области автоматизированной оценки депрессии сталкиваются с рядом критических проблем. Во-первых, большинство существующих работ опираются на ограниченные или непроверенные клиническим сообществом наборы данных, что подрывает достоверность и обобщаемость получаемых результатов. Во-вторых, исследователи часто делают акцент на разработке сложных моделей машинного обучения, жертвуя при этом клинической значимостью и практической применимостью в реальных условиях медицинской практики. Существующий разрыв между академическими исследованиями и клинической реальностью проявляется в отсутствии стандартизированных протоколов диагностики, недостаточной валидации методов на репрезентативных когортах пациентов и ограниченном использовании мультимодальных данных, которые могут отражать комплексную картину психического состояния пациента. Традиционные подходы часто игнорируют важность поведенческих маркеров, которые могут быть выявлены через структурированные клинические задания, а также недооценивают роль экспертного клинического заключения в процессе формирования диагноза. Эти проблемы требуют комплексного решения, включающего создание достоверных клинических наборов данных, разработку методов, учитывающих специфику психиатрического диагностического процесса, и переосмысление роли искусственного интеллекта в контексте клинического мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют C-MIND — инновационный клинический нейропсихиатрический мультимодальный диагностический набор данных, собранный в течение двух лет в условиях реальных стационарных обращений. Каждый участник проходил три структурированных психиатрических задания, разработанных для выявления специфических поведенческих паттернов, связанных с депрессией. В процессе выполнения заданий фиксировались аудио- и видеосигналы, создавались расшифровки речи, а также регистрировались данные функциональной ближней инфракрасной спектроскопии (fNIRS), позволяющие оценить активность префронтальной коры мозга. Финальный диагноз каждого пациента формировался коллективом экспертов-клиницистов на основе полного клинического обследования. Методология исследования включает несколько этапов. На первом этапе проводится глубокий анализ поведенческих маркеров, релевантных для диагностики депрессии, включая особенности речевой продукции, мимические выражения, двигательную активность и паттерны межличностного взаимодействия. На втором этапе исследуется вклад различных модальностей данных в общую диагностическую точность путем обучения и сравнения классических моделей машинного обучения на отдельных и комбинированных наборах признаков. Третий этап посвящен изучению способности больших языковых моделей (LLM) воспроизводить логику психиатрического рассуждения, характерную для клинической практики. Для преодоления выявленных ограничений авторы разрабатывают метод направленного клиническим знанием обучения, который интегрирует экспертные знания в процесс рассуждения LLM, обеспечивая более точную и клинически обоснованную диагностику. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования была проведена на основе C-MIND набора данных, включающего данные, собранные в течение двух лет в клинических условиях. В исследовании участвовали пациенты, проходившие диагностическое обследование в стационарных условиях, с подтвержденным диагнозом депрессии или отсутствием такового после полного клинического обследования. Каждый участник выполнял три структурированных психиатрических задания, специально разработанных для активации специфических поведенческих паттернов, связанных с депрессивными расстройствами. В процессе выполнения заданий регистрировались мультимодальные данные: аудиозаписи речи, видеозаписи поведения, расшифровки вербального контента и дан

Annotation:

Depression is a widespread mental disorder that affects millions worldwide. While automated depression assessment shows promise, most studies rely on limited or non-clinically validated data, and often prioritize complex model design over real-world effectiveness. In this paper, we aim to unveil the landscape of clinical depression assessment. We introduce C-MIND, a clinical neuropsychiatric multimodal diagnosis dataset collected over two years from real hospital visits. Each participant complet...

ID: 2508.04531v1 cs.CL, cs.AI

arXiv PDF

📄 Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration

2025-08-08

Авторы:

Nuo Chen, Yicheng Tong, Jiaying Wu, Minh Duc Duong, Qian Wang, Qingyun Zou, Bryan Hooi, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация научных идей является фундаментальной задачей в процессе исследовательской деятельности, определяющей направление развития науки и технологий. Современные системы искусственного интеллекта демонстрируют растущий потенциал в автоматизированной генерации научных концепций, однако большинство существующих фреймворков ограничиваются использованием одиночных агентов, работающих в изоляции. Такой подход сталкивается с фундаментальными ограничениями, связанными с ограниченностью знаний и перспектив отдельного агента, что приводит к снижению креативности и инновационности предлагаемых идей. В реальном научном процессе прорывные идеи редко возникают в результате индивидуального размышления. Напротив, они формируются в ходе коллаборативных обсуждений между учеными с различным опытом, экспертизой и точками зрения. Эта социальная природа научного творчества остаётся недостаточно исследованной в контексте разработки систем ИИ для генерации научных идей. Существующие исследования фокусируются преимущественно на улучшении способностей отдельных агентов, в то время как коллективная динамика и структурные аспекты командной работы остаются вне поля зрения. Ключевой проблемой является отсутствие систематического понимания того, как различные параметры многоагентного взаимодействия влияют на качество генерируемых научных предложений. Вопросы оптимального размера команды, наличия или отсутствия лидерства, уровня междисциплинарности и сочетания опыта участников остаются открытыми. Без такого понимания разработка эффективных систем ИИ для научной генерации идей будет продолжать полагаться на интуитивные и эмпирические подходы, а не на строгое научное обоснование. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают кооперативный многоагентный фреймворк, специально разработанный для генерации научных исследовательских предложений. Система построена на принципах структурированного взаимодействия между агентами, каждый из которых представляет собой языковую модель с определённым набором характеристик и экспертизой. Архитектура фреймворка включает несколько ключевых компонентов, обеспечивающих эффективную коллаборацию. Первым компонентом является механизм назначения ролей, где каждый агент получает чётко определённую персону с уникальной комбинацией опыта (младший/старший исследователь) и дисциплинарной принадлежности (биология, информатика, физика и др.). Это позволяет моделировать различные конфигурации команд, включая однородные и гетерогенные составы. Вторым важным элементом является система управления дискуссией, которая может функционировать как в лидерском режиме (с назначенным лидером-агентом), так и в безлидерском формате. Процесс генерации идей происходит в несколько этапов. На начальном этапе агенты независимо генерируют предварительные идеи на основе общей тематики. Затем следует фаза структурированной дискуссии, где агенты обмениваются мнениями, критикуют идеи друг друга и предлагают улучшения. В лидерской конфигурации лидер-агент координирует обсуждение, направляет внимание команды на ключевые аспекты и интегрирует предложения в единое целостное предложение. В безлидерской конфигурации используется консенсусный подход с автоматическим обнаружением и разрешением конфликтов. Для оценки качества генерируемых идей разработан комплексный протокол, включающий как автоматизированную, так и человеческую оценку. Автоматизированная система использует специально обученных агентов-оценщиков, которые анализируют предложения по нескольким измерениям: новизна, стратегическое видение, глубина интеграции концепций, практическая применимость и теоретическая обоснованность. Человеческая экспертиза привлекается для валидации результатов автоматической оценки и обеспечения научной достоверности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала систематическое сравнение различных конфигураций многоагентных систем с одиночными агентами-базовыми линиями. Всего было протестировано более 30 различных конфигураций, варьирующихся по размеру команды (от

Annotation:

While AI agents show potential in scientific ideation, most existing frameworks rely on single-agent refinement, limiting creativity due to bounded knowledge and perspective. Inspired by real-world research dynamics, this paper investigates whether structured multi-agent discussions can surpass solitary ideation. We propose a cooperative multi-agent framework for generating research proposals and systematically compare configurations including group size, leaderled versus leaderless structures, ...

ID: 2508.04575v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning

2025-08-08

Авторы:

Magauiya Zhussip, Dmitriy Shopkhoev, Ammar Ali, Stamatios Lefkimmiatis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) и Vision Transformers (ViT) заложили основу для большого количества передовых приложений в области искусственного интеллекта. Однако их внедрение в реальные системы часто сталкивается с существенными препятствиями, связанными с высокими вычислительными и памятными требованиями. Для снижения этих требований были разработаны различные методы компрессии, такие как низкоранговая аппроксимация, удаление голов внимания и кэширование ключей-значений (KV). Однако большинство этих методов сосредоточено на оптимизации внутри блоков (intra-block), не уделяя должного внимания возможностям оптимизации между блоками (inter-block). Повторяющаяся структура трансформеров, состоящая из многократно повторяющихся слоев, подразумевает высокую степень избыточности между этими слоями. Несмотря на то, что существуют некоторые подходы к использованию этой избыточности, такие как кэширование ключей-значений, этот вопрос остается недостаточно изученным. При этом, методы компрессии, основанные на извлечении статистических регулярностей между слоями, могли бы существенно снизить количество параметров без существенного ущерба для качества. Вдохновленные подходами диктонического обучения (dictionary learning) в сверточных нейронных сетях (CNNs), авторы предлагают новый подход для структурированного общения весов (weight sharing) между слоями трансформеров. Основная идея заключается в том, чтобы разделить проекционные матрицы внимания (attention projection matrices) на общие атомы (shared dictionary atoms), что позволит существенно уменьшить количество параметров, необходимых для модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод, называемый MASA (Matrix Atom Sharing in Attention), представляет собой оптимизацию структуры весовых матриц в трансформерах. Он разработан для сокращения избыточности в параметрах модели, особенно в модулях внимания (attention modules). Метод основывается на диктоническом обучении, где веса представляются в виде линейных комбинаций общих атомов (shared dictionary atoms). В рамках MASA, проекционные матрицы внимания разделяются на общие компоненты, которые затем используются для представления весов каждого слоя. Это позволяет уменьшить количество необходимых параметров на 66,7%, при этом сохраняя качество модели на уровне состояния искусства. Особенностью MASA является то, что он может быть использован как drop-in replacement для стандартных трансформеров, не требуя сложных изменений в архитектуре или дополнительных процессов, таких как дистилляция модели. Метод обучается с помощью стандартных оптимизаторов, что делает его легко встраиваемым в существующие модели. Он также позволяет эффективно захватывать статистические регулярности между слоями, что делает его особенно эффективным в задачах, где необходим высокий уровень обобщения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на моделях различных размеров, от 100 миллионов до 700 миллионов параметров. Результаты экспериментов показали, что MASA достигает высокого качества на различных бенчмарках, превосходя существующие базовые подходы, такие как grouped-query attention (GQA), низкоранговые базисные методы и недавно предложенные подходы Repeat-all-over/Sequential sharing. В частности, MASA демонстрирует лучшие результаты по точности и перплексии по сравнению с этими методами при сравнительном количестве параметров. Аблационные исследования показали, что метод является достаточно робастным к размеру словаря (dictionary size) и эффективен в захвате статистических регулярностей между слоями. Кроме того, MASA был успешно применен к Vision Transformers (ViT) для задач классификации изображений и детекции. Результаты показали, что MASA может сохранить качество модели на уровне современных подходов, снизив количество параметров на 66,7%. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод MASA имеет значительный практический потенциал в области развертывания моделей трансформеров в реальных приложениях. Благодаря существенному сокращению количества параметров, MASA позволяет уменьшить вычислительные и памятные требования моделей, что делает их более доступными для развертывания на устройствах с ограниченными ресурсами. Кроме того, MASA может быть применен для оптимизации предобученных LLMs, позволяя сократить их размер без существенного ухудшения качества. Это может быть особенно полезно в задачах, требующих быстрого и эффективного выполнения моделей на устройствах с ограниченными вычислительными мощностями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был предложен новый метод MASA для эффективного общения весов между слоями трансформеров. Этот метод показал свою эффективность на различных задачах, включая классификацию текста и изображений. Будущие исследования могут быть направлены на дальнейшее улучшение метода, включая его применение к более крупным моделям и задачам, а также исследование возможностей интеграции MASA с другими методами компрессии.

Annotation:

Large language models (LLMs) have revolutionized AI applications, yet their high computational and memory demands hinder their widespread deployment. Existing compression techniques focus on intra-block optimizations (e.g. low-rank approximation, attention head pruning), while the repetitive layered structure of transformers implies significant inter-block redundancy - a dimension largely unexplored beyond key-value (KV) caching. Inspired by dictionary learning in CNNs, we propose a framework fo...

ID: 2508.04581v1 cs.CL, cs.AI

arXiv PDF

📄 TURA: Tool-Augmented Unified Retrieval Agent for AI Search

2025-08-08

Авторы:

Zhejun Zhao, Yuehu Dong, Alley Liu, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei Yin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие поисковых систем находится на этапе трансформации от традиционного отображения списка ссылок к интеллектуальному диалоговому взаимодействию, где ключевую роль играют большие языковые модели (LLM). Доминирующей парадигмой в этой области является Retrieval-Augmented Generation (RAG), которая обогащает генеративные модели информацией из проиндексированных веб-корпусов. Однако, несмотря на свою популярность в академической среде, существующие RAG-подходы сталкиваются с фундаментальными ограничениями при интеграции в промышленные поисковые системы. Основная проблема заключается в неспособности традиционных RAG-решений работать с динамически изменяющимися данными в реальном времени. Когда пользователь запрашивает информацию о наличии билетов на ближайший рейс, текущих остатках товаров на складе или свежих биржевых котировках, статически проиндексированные веб-страницы не могут обеспечить актуальность ответа. Это ограничение особенно критично для коммерческих поисковых систем, обслуживающих миллионы пользователей с ожиданием ответа в миллисекундах. Академическое сообщество сосредоточило свои усилия на оптимизации RAG для статического контента, практически игнорируя сложные пользовательские намерения, требующие доступа к динамическим источникам вроде баз данных и реальных API. Это создало значительный разрыв между теоретическими исследованиями и практическими потребностями индустрии. Существующие системы не могут эффективно обрабатывать запросы, которые требуют одновременного обращения к статическому веб-контенту для контекста и к динамическим API для актуальных данных, сохраняя при этом требуемую скорость отклика и масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления описанных ограничений авторы представляют TURA (Tool-Augmented Unified Retrieval Agent for AI Search) - инновационную трехэтапную архитектуру, которая органично объединяет преимущества RAG для статического контента с возможностями агентных систем для работы с динамическими источниками данных. Методология TURA строится на концепции Model Context Protocol (MCP), где каждый источник информации инкапсулируется в виде сервера, предоставляющего стандартизированный интерфейс доступа. Первый ключевой компонент - Intent-Aware Retrieval модуль, который реализует интеллектуальное декомпозирование пользовательских запросов. Этот модуль анализирует семантику запроса и автоматически определяет, какие источники информации необходимы для формирования полного ответа. Он способен различать запросы, требующие только статического контента, только динамических данных, или их комбинации, обеспечивая оптимальный выбор источников. Второй компонент - DAG-based Task Planner, который представляет собой планировщик задач на основе направленного ациклического графа (DAG). Этот компонент моделирует зависимости между различными подзадачами обработки запроса, позволяя максимально эффективно использовать параллельное выполнение. Например, при запросе о ценах на авиабилеты система может параллельно обращаться к API авиакомпаний для актуальных цен и к веб-документам для информации о маршрутах и условиях перелета. Третий компонент - Distilled Agent Executor представляет собой легковесный исполнитель агентных действий, оптимизированный для работы в условиях высокой нагрузки. Он реализует эффективный механизм вызова инструментов с минимальной задержкой, что критично для обеспечения низкой латентности в масштабной промышленной системе. Архитектура специально спроектирована для обработки миллионов параллельных запросов без потери производительности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация TURA проводилась в условиях реального промышленного развертывания, обслуживающего десятки миллионов пользователей. Для оценки эффективности системы использовался набор сложных тестовых запросов, включающих комбинации статических и динамических информационных потребностей. Бенчмарки включали запросы о наличии товаров в конкретных магазинах с реальным временем обновления, бронировании билетов с проверкой актуальности цен, и получении финансовой информации из различных источников с разной частотой обновления. Основной метрикой оценки служила полнота и точность предоставляемой информации при соблюдении строгих требований к латентности

Annotation:

The advent of Large Language Models (LLMs) is transforming search engines into conversational AI search products, primarily using Retrieval-Augmented Generation (RAG) on web corpora. However, this paradigm has significant industrial limitations. Traditional RAG approaches struggle with real-time needs and structured queries that require accessing dynamically generated content like ticket availability or inventory. Limited to indexing static pages, search engines cannot perform the interactive qu...

ID: 2508.04604v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 P-Aligner: Enabling Pre-Alignment of Language Models via Principled Instruction Synthesis

2025-08-08

Авторы:

Feifan Song, Bofei Gao, Yifan Song, Yi Liu, Weimin Xiong, Yuyang Song, Tianyu Liu, Guoyin Wang, Houfeng Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) играют ключевую роль в современных приложениях на основе искусственного интеллекта, предоставляя возможность взаимодействовать с пользователями в различных сферах. Однако, несмотря на их мощь, LLMs часто сталкиваются с проблемами выравнивания (alignment), когда их выходные данные не соответствуют ожиданиям пользователей. Эти проблемы могут возникать из-за неполного контекста, неоднозначных директив, неуместного тона или других недостатков в инструкциях. Неправильно выраженные инструкции могут привести к нежелательным результатам, включая небезопасность, недостоверность или несоответствие ценностям пользователя. Существующие подходы к выравниванию LLMs, такие как поиск в пространстве инструкций во время работы модели или переобучение модели на специально созданных данных, часто связаны с высокими затратами времени и вычислительных ресурсов. Кроме того, многие методы требуют создания пользовательских наборов данных с неясными критериями качества, что усложняет процесс разработки. Эти ограничения высокой стоимости и неопределенности требуют более эффективных решений для выравнивания инструкций. Целью данной работы является разработка метода, который позволяет эффективно выравнивать инструкции для LLMs до начала процесса декодирования, с целью улучшения качества результатов. Такой подход может существенно сократить затраты на поиск и обработку, оставаясь при этом высокоэффективным. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе представлен P-Aligner, легковесный модуль, который генерирует инструкции, сохраняющие оригинальные намерения, но выраженные в более удобной и предпочтительной для человека форме. P-Aligner обучается на датасете UltraPrompt, который был создан с помощью нового подхода на основе принципиального руководства и методологии Monte-Carlo Tree Search (MCTS). MCTS используется для систематического поиска в пространстве возможных инструкций, которые близки к предпочтениям человека. Этот метод позволяет генерировать высококачественные данные для обучения P-Aligner, который потом применяется для улучшения инструкций. Модуль P-Aligner работает путем преобразования инструкций в форму, которая лучше соответствует человеческим предпочтениям, не меняя основного смысла. Преимущество P-Aligner заключается в том, что он позволяет выполнять пре-алйнмент (pre-alignment) инструкций перед началом работы модели, что значительно сокращает время и затраты на поиск оптимальных данных во время выполнения. Это также обеспечивает более эффективное использование ресурсов при обработке запросов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности P-Aligner проведены широкие эксперименты на различных моделях и наборах данных. Результаты показывают, что P-Aligner значительно превосходит существующие базовые методы по различным показателям. Например, на модели GPT-4-turbo, P-Aligner достигает повышения средней win-rate на 28.35%, а на модели Gemma-2-SimPO – на 8.69%. В экспериментах использовались различные наборы данных для тестирования качества инструкций, сгенерированных P-Aligner. Результаты показывают, что обученный на UltraPrompt, P-Aligner эффективен в создании инструкций, которые лучше соответствуют человеческим предпочтениям. Также проведен анализ качества данных, стратегий поиска и временных затрат. Исследования показали, что P-Aligner не только эффективен в генерации качественных инструкций, но также обеспечивает низкие затраты времени и вычислительных мощностей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ P-Aligner представляет собой практически значимый подход к выравниванию LLMs с целью улучшения качества взаимодействия с пользователями. Этот модуль может быть интегрирован в различные приложения, где необходимо обеспечить безопасность, достоверность и соответствие человеческим ценностям. Одним из основных преимуществ P-Aligner является его низкая стоимость и высокая эффективность. Благодаря предварительному выравниванию инструкций, P-Aligner позволяет уменьшить накладные расходы на поиск оптимальных инструкций во время работы модели, что делает его пригодным для использования в реальных приложениях. Кроме того, P-Aligner может быть применен в сферах, где важно обеспечить высокое качество генерируемых текстов, таких как клиентские сервисы, образование, медицинские консультации и другие области, где точность и безопасность текстов имеют критическое значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был представлен P-Aligner – легковесный модуль для пре-алйнмента инструкций LLMs, который значительно улучшает качество выходных данных моделей. Этот метод обеспечивает эффективное преобразование инструкций в более человеко-предпочтительную форму, не затрагивая основной смысл. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения P-Aligner, а также на расширении его применимости к более широкому кругу моделей и задач. Также важно продолжить исследования по оптимизации стратегий поиска и снижению затрат времени и вычислительных ресурсов. P-Aligner может стать важной составляющей в развитии более эффективных и безопасных систем на основе LLMs.

Annotation:

Large Language Models (LLMs) are expected to produce safe, helpful, and honest content during interaction with human users, but they frequently fail to align with such values when given flawed instructions, e.g., missing context, ambiguous directives, or inappropriate tone, leaving substantial room for improvement along multiple dimensions. A cost-effective yet high-impact way is to pre-align instructions before the model begins decoding. Existing approaches either rely on prohibitive test-time ...

ID: 2508.04626v1 cs.CL, cs.AI

arXiv PDF

📄 Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

2025-08-08

Авторы:

Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом для решения многих задач, однако, когда речь идет о работе с длинными контекстами, их производительность сильно снижается из-за явления проактивного вмешательства (proactive interference). Это случается, когда неуместная информация из ранних частей контекста мешает рациональному мышлению и восстановлению памяти. До сих пор, многие исследования были направлены на создание внешних систем памяти, которые дополняют возможности LLMs. Однако, эти методы часто требуют значительных изменений в архитектуре модели или дополнительной подготовки. Проблема в том, что LLMs должны уметь эффективно управлять своей внутренней памятью и вниманием, чтобы справиться с длинными контекстами. Традиционные подходы, такие как увеличение длины контекста или использование внешних мемориальных систем, не всегда эффективны в борьбе со специфичными проблемами, такими как неуместное воздействие неактуальной информации. Это подчеркивает необходимость разработки новых методов, которые позволят LLMs активно управлять своим контекстом и фокусироваться на актуальной информации. В этой статье предлагается новый подход, называемый Sculptor, который разработан для активного управления контекстом LLMs. Он позволяет моделям самостоятельно формировать и оптимизировать свою внутреннюю рабочую память, подобно тому, как человек выбирает актуальную информацию, отбрасывая неактуальную. Этот подход основывается на идее "скульптурирования" контекста, где LLMs могут активно управлять информацией, которая доступна им для рассмотрения, что повышает их эффективность в решении задач с длинными контекстами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Sculptor представляет собой фреймворк, основанный на трех основных компонентах, которые позволяют LLMs управлять своим контекстом: 1. **Context Fragmentation (Фрагментация Контекста)**: Этот компонент позволяет разделять длинный контекст на более мелкие, управляемые фрагменты. Это помогает LLMs сосредоточиться на актуальных частях без необходимости обрабатывать весь контекст целиком. 2. **Summary, Hide, and Restore (Создание Кратких Сводок, Скрытие и Восстановление)**: Sculptor позволяет LLMs сжимать информацию в краткие сводки, скрывать несущественные детали, и восстанавливать важные части контекста когда это необходимо. Это позволяет моделям сосредоточиться на ключевых моментах, не теряя важные данные. 3. **Intelligent Search (Интеллектуальный Поиск)**: Эта функция позволяет LLMs искать и извлекать релевантную информацию из контекста, используя специальные алгоритмы поиска. Это помогает моделям быстро находить нужные данные, не предоставляя им неактуальных или несвязанных частей контекста. Эти компоненты вместе позволяют LLMs активно управлять своей рабочей памятью, что помогает минимизировать влияние неактуальной информации и повышает точность рассуждений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Sculptor, были проведены эксперименты на двух наборах данных: PI-LLM (Proactive Interference LLM) и NeedleBench Multi-Needle Reasoning. Эти наборы данных представляют задачи, требующие обработки длинных контекстов с высокой информативностью и требующих высокой точности рассуждений. В результате экспериментов было показано, что Sculptor значительно повышает производительность LLMs, даже без необходимости специального тренировочного набора данных. Это достигается благодаря тому, что LLMs могут естественно освоить и использовать инструменты Sculptor для управления своим контекстом. Кроме того, результаты показали, что Sculptor не только уменьшает влияние проактивного вмешательства, но также повышает надежность и точность рассуждений LLMs на различных типах задач. Это подтверждает, что активное управление контекстом является ключевым фактором для улучшения производительности LLMs при работе с длинными контекстами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость Sculptor заключается в том, что этот подход может быть применен в различных областях, где необходимо обрабатывать большие объемы информации. Например, в области медицинского диагностирования, юридического анализа, или финансового мониторинга, где контекст может быть чрезвычайно длинным и содержать множество несвязанных деталей. Преимущества Sculptor включают в себя улучшенную эффективность LLMs, уменьшение ошибок, связанных с неактуальной информацией, и повышение надежности рассуждений. Это может привести к более надежным и точным решениям в задачах, требующих обработки длинных и сложных контекстов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, Sculptor представляет собой новый подход к управлению контекстом в LLMs, который позволяет моделям активно формировать свою рабочую память и фокусироваться на релевантной информации. Этот метод показал значительные улучшения в производительности LLMs при работе с длинными контекстами, даже без необходимости специальной подготовки. В будущем, этот подход может быть развит для решения более широкого круга задач, включая многомодальные контексты и задачи, требующие динамического управления информацией. Более того, Sculptor может быть интегрирован в другие модели и архитектуры, чтобы улучшить их производительность в различных приложениях.

Annotation:

Large Language Models (LLMs) suffer from significant performance degradation when processing long contexts due to proactive interference, where irrelevant information in earlier parts of the context disrupts reasoning and memory recall. While most research focuses on external memory systems to augment LLMs' capabilities, we propose a complementary approach: empowering LLMs with Active Context Management (ACM) tools to actively sculpt their internal working memory. We introduce Sculptor, a framew...

ID: 2508.04664v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
201
202
203
204
205

Показано 2021 - 2030 из 2042 записей