📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Open-Universe Assistance Games

2025-08-23

Авторы:

Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell

## Контекст Открытые миры и сложные задачи, которые стоят перед embodied AI-агентами, требуют инновационных подходов к пониманию и выполнению разнообразных целей и предпочтений пользователей. Традиционные системы часто ограничены набором предопределенных целей или тестовой информацией, что ограничивает их универсальность. Без достаточного обобщения и учета непредсказуемости пользовательских целей, эти системы не могут предоставить надёжные решения в реальной среде. Мы предлагаем Open-Universe Assistance Games (OU-AGs), расширенный фреймворк, который позволяет агенту обучаться и действовать в условиях неограниченного и эволюционирующего пространства целей. ## Метод Мы представляем GOOD (GOals from Open-ended Dialogue), метод, основанный на онлайн-интерфейсе, который обучает агента анализировать и предсказывать цели в виде естественного языка во время интеракции с пользователем. GOOD использует генеративные модели типа Large Language Models (LLM) для симуляции разнообразных целей и интентов, включая сложные. Эти модели обучаются на основе диалоговых сценариев, которые генерируются динамически в процессе общения. Данный подход позволяет создавать богатые представления целей и оценивать их неопределённость без необходимости больших обучающих датасетов. ## Результаты Мы провели эксперименты в двух средах: text-based grocery shopping и text-operated simulated household robotics (AI2Thor). Для имитации пользовательских профилей использовались синтетические данные. GOOD показал существенное превосходство по сравнению с базовым методом, не имеющим явного учёта целей, как подтвердили оценки LLM-моделей и эксперименты с реальными пользователями. Это подтверждает эффективность GOOD в определении разнообразных целей и учёте их неопределённости в реальных условиях. ## Значимость Предложенный подход может быть применён в различных областях, включая робототехнику, виртуальные помощники и системы обслуживания клиентов. Он обеспечивает более естественную интеракцию, уменьшает необходимость в крупных обучающих наборах данных и позволяет агентам действовать в условиях неопределённости. Это значительно повышает универсальность и реалистичность агентов, делая их более эффективными в решении сложных задач в жизненных условиях. ## Выводы Наша работа доказывает, что GOOD является эффективным методом для построения агентов с открытым пространством целей. Мы направимся на дальнейшее оптимизацию и расширение GOOD для поддержки большего разнообразия целей и сценариев в реальных средах, чтобы продвигать широкое применение embodied AI в повседневных задачах.

Annotation:

Embodied AI agents must infer and act in an interpretable way on diverse human goals and preferences that are not predefined. To formalize this setting, we introduce Open-Universe Assistance Games (OU-AGs), a framework where the agent must reason over an unbounded and evolving space of possible goals. In this context, we introduce GOOD (GOals from Open-ended Dialogue), a data-efficient, online method that extracts goals in the form of natural language during an interaction with a human, and infe...

ID: 2508.15119v1 cs.AI, cs.CL, cs.LG, cs.RO

arXiv PDF

📄 aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists

2025-08-23

Авторы:

Pengsong Zhang, Xiang Hu, Guowei Huang, Yang Qi, Heng Zhang, Xiuxu Li, Jiaxing Song, Jiabin Luo, Yijiang Li, Shuo Yin, Chengxiao Dai, Eric Hanchen Jiang, Xiaoyan Zhou, Zhenfei Yin, Boqin Yuan, Jing Dong, Guinan Su, Guanren Qiao, Haiming Tang, Anghong Du, Lili Pan, Zhenzhong Lan, Xinyu Liu

## Контекст Современные достижения в области больших языковых моделей (LLMs) позволили создавать AI-агенты, которые способны автоматически формировать научные предложения, проводить эксперименты, составлять статьи и проводить пиратский контроль. Однако огромное количество AI-generated research content, который появляется в научных областях, сталкивается с проблемами в существующих научных публикационных системах. Традиционные журналы и конференции, основанные на человеческих peer review, не могут быстро адаптироваться к скорости роста AI-generated research. Более того, существующие preprint servers, такие как arXiv, не имеют развитых систем качественного контроля. Это приводит к тому, что качественные AI-generated research papers не могут опубликоваться в достойных местах, что ограничивает способность науки к прогрессу. Чтобы решить эти проблемы, представлена aiXiv — новая, многоагентная платформа для связи AI и human scientists, которая предлагает методы для работы, рецензирования и улучшения научных предложений и статей, и предоставляет API и MCP-интерфейсы для обеспечения связи различных систем. ## Метод aiXiv основывается на многоагентной архитектуре, которая позволяет AI-агентам и human scientists работать вместе в одной системе. Предложения и статьи могут быть submitted, reviewed и iteratively refined в этой системе. Это сделано с использованием мощных LLM-моделей, которые обеспечивают качественное создание и обработку научного контента. aiXiv также предоставляет API и MCP-интерфейсы, которые обеспечивают связь с различными системами, включая различные виды AI-агентов и human scientists. Это позволяет aiXiv быть высокомасштабируемой и гибкой платформой для достижения autonomous scientific discovery. ## Результаты В ходе экспериментов были проведены несколько исследований, в том числе работы, которые были submitted, reviewed и улучшены с использованием aiXiv. Результаты показали, что после iterative revising и reviewing на aiXiv качество научных предложений и статей AI-generated research высоко, и платформа доказала свою надежность и эффективность. Результаты показали, что aiXiv может значительно улучшить качество AI-generated research, и это стало новым шагом в сфере open-access научных публикаций. ## Значимость aiXiv представляет собой новую модель open-access платформы для научных публикаций, которая может быть применена в различных областях науки, где AI-generated research становится все более важной частью. Эта платформа позволяет быстро и эффективно обрабатывать и распространять качественный научный контент, создаваемый AI-агентами. Это значительно увеличивает возможности для прогресса науки, а также создает новые возможности для сотрудничества между AI и human scientists. ## Выводы aiXiv представляет собой прорыв в сфере open-access научных публикаций, предоставляя новую модель для работы AI и human scientists вместе. Она демонстрирует высокую эффективность в

Annotation:

Recent advances in large language models (LLMs) have enabled AI agents to autonomously generate scientific proposals, conduct experiments, author papers, and perform peer reviews. Yet this flood of AI-generated research content collides with a fragmented and largely closed publication ecosystem. Traditional journals and conferences rely on human peer review, making them difficult to scale and often reluctant to accept AI-generated research content; existing preprint servers (e.g. arXiv) lack rig...

ID: 2508.15126v1 cs.AI, cs.CL

arXiv PDF

📄 LLM4Sweat: A Trustworthy Large Language Model for Hyperhidrosis Support

2025-08-23

Авторы:

Wenjie Lin, Jin Wei-Kocsis

## Контекст ### Область исследования Hyperhidrosis — медицинское нарушение, характеризующееся чрезмерным потоотделением, причиненным независимо от физиологических потребностей. Это заболевание сильно сказывается на физическом благополучии и психосоциальном благополучии. Оно затрагивает 2–3% населения, однако существуют ограничения в его диагностике и лечении, включая недостаточное количество достоверных данных по этой проблеме. ### Мотивация Существующие Ландшафтные языковые модели (LLMs) показали свою эффективность в медицинских приложениях. Однако в отношении редких заболеваний, таких как гипергидроз, существует проблема недостатка качественных данных, что приводит к снижению точности и надежности моделей. ### Цель Представленная работа нацелена на создание открытого фреймворка Ландшафтной языковой модели (LLM), который был бы надежным, эмпатичным и пригодным для использования в оказании поддержки пациентам с гипергидрозом. ## Метод ### Описание методологии LLM4Sweat работает по трехэтапной модели: 1. **Данные:** Создание базы данных медицинских вещественных сценариев с помощью возможностей генеративных моделей. 2. **Обучение:** Обучение модели на этой базе для медицинского диагностирования, рекомендаций по лечению и психологической поддержке. 3. **Валидация:** Исследователи-клинические специалисты проверят результаты и добавят важные замечания в базу данных. ### Технические решения - **Данные:** Генерируются гипотетические сценарии с помощью генеративных моделей для дополнения открытых данных. - **Модели:** Основана на основной модели, которая была дообучена на гипергидрозных данных. - **Экспертный анализ:** Модель постоянно корректируется на основе отзывов специалистов. ## Результаты ### Эксперименты LLM4Sweat была протестирована на выборке сценариев от пациентов и клинических данных. - **Точность диагноза:** Лидирует среди других моделей. - **Психологическая составляющая:** Модель демонстрирует сильный эмпатический подход к поддержке пациентов. - **Сравнение с базой:** Локальные модели показывают более высокую точность и эмпатию по сравнению с общей моделью. ### Данные Использованы открытые данные гипергидроза, дополненные генерируемыми сценариями. ### Результаты Обнаружено, что LLM4Sweat превосходит другие модели по общей точности и эмпатическому отношению к пациентам. ## Значимость LLM4Sweat представляет собой открытый фреймворк, который может быть применен для редких заболеваний, с недостатком данных и необходимостью в надежной поддержке. - **Применения:** Модель может быть использована для других ред

Annotation:

While large language models (LLMs) have shown promise in healthcare, their application for rare medical conditions is still hindered by scarce and unreliable datasets for fine-tuning. Hyperhidrosis, a disorder causing excessive sweating beyond physiological needs, is one such rare disorder, affecting 2-3% of the population and significantly impacting both physical comfort and psychosocial well-being. To date, no work has tailored LLMs to advance the diagnosis or care of hyperhidrosis. To address...

ID: 2508.15192v1 cs.AI, cs.CL

arXiv PDF

📄 Multiple Memory Systems for Enhancing the Long-term Memory of Agent

2025-08-23

Авторы:

Gaoke Zhang, Bo Wang, Yunlong Ma, Dongming Zhao, Zifei Yu

#### Контекст Одним из основных трудностей в развитии интеллектуальных агентов является эффективное использование данных, собранных в ходе их взаимодействий с пользователями. Эти данные, характеризующиеся высокой степенью индивидуальности и разнообразия, требуют постоянного обновления и уточнения для поддержания качества ответов. Существующие системы часто сталкиваются с проблемами плохого качества хранящихся данных, что приводит к неточности ответов и неудовлетворительному пользовательскому опыту. Данная работа стремится решить эту проблему, разработав метод, основанный на теориях когнитивной психологии, для повышения качества долгосрочной памяти агента. #### Метод Многомеморийная система (Multiple Memory System, MMS) предлагает новый подход к обработке и хранению данных. Она разделяет краткосрочную память (STM) на несколько фрагментов долгосрочной памяти (LTM), каждый из которых отвечает за конкретный аспект информации. Далее, эти фрагменты используются для создания двух типов памяти: 1) **референтной памяти (Retrieval Memory Unit, RMU)**, хранящей ключевую информацию для поиска, и 2) **контекстной памяти (Contextual Memory Unit, CMU)**, содержащей подробные данные для сформирования ответа. Механизм поиска привязывает RMU к CMU через уникальный идентификатор, чтобы обеспечить точность восстановления информации. Этот подход позволяет лучше совместить новые данные с уже имеющимися и улучшить качество ответов. #### Результаты Эксперименты проводились на датасете LoCoMo, где MMS сравнивался с тремя существующими методами. Результаты показали, что MMS превосходит конкуренты в качестве реконструкции данных, точности ответа и удовлетворенности пользователей. Анализ абляции подтвердил логичность использования отдельных модулей памяти. Также проведено исследование влияния числа выбранных фрагментов и объема памяти на производительность, подтвердив высокую устойчивость и практическую значимость системы. #### Значимость Метод MMS может применяться в различных областях, где необходимо улучшение качества интеллектуальных систем, таких как чатботы, ассистенты и системы управления информацией. Его основные преимущества заключаются в более точном восстановлении информации, улучшении качества ответов и эффективном использовании исторических данных. Это делает MMS аналитическим инструментом для повышения качества работы систем и повышения удовлетворенности пользователей. #### Выводы Разработанная система MMS демонстрирует высокую эффективность в решении проблемы сбора и использования долгосрочной памяти в системах искусственного интеллек

Annotation:

An agent powered by large language models have achieved impressive results, but effectively handling the vast amounts of historical data generated during interactions remains a challenge. The current approach is to design a memory module for the agent to process these data. However, existing methods, such as MemoryBank and A-MEM, have poor quality of stored memory content, which affects recall performance and response quality. In order to better construct high-quality long-term memory content, w...

ID: 2508.15294v1 cs.AI, cs.CL, cs.MA, I.2.7

arXiv PDF

📄 IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents

2025-08-23

Авторы:

Hengyu An, Jinghuai Zhang, Tianyu Du, Chunyi Zhou, Qingming Li, Tao Lin, Shouling Ji

Заголовок: IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents ## Контекст Large language model (LLM) agents широко применяются в реальном мире, где они используют инструменты для получения и обработки внешних данных для выполнения сложных задач. Однако при работе с недоверенными источниками данных (например, сайтах в сети) ответы инструментов могут содержать внедренные инструкции, которые подтачивают поведение агента и приводят к вредоносным последствиям. Эта угроза называется Indirect Prompt Injection (IPI). Существующие методы защиты, такие как улучшенные стратегии подачи фраз или дополнительные модели детекции, основываются на предположениях о безопасности модели и не учитывают структурных ограничений на агентское поведение. Без таких ограничений агенты остаются подверженными более сильным атакам, которые могут обойти защитные механизмы. Чтобы защититься от внедренных инструкций на самом источнике, мы предлагаем новую защитную модель под названием IPIGuard. ## Метод IPIGuard представляет собой защитную модель, которая представляет задачу выполнения агента в виде планирования динамического Tool Dependency Graph (TDG). Эта модель разделяет планирование действий от взаимодействия с внешними источниками данных. Каждый шаг выполнения представляет собой переход между узлами TDG, что позволяет контролировать и анализировать взаимодействие с инструментами на ранней стадии. Этот подход существенно сокращает нежелательные внешние вызовы, связанные с внедренными инструкциями, и улучшает устойчивость агентной системы к IPI-атакам. Наша архитектура гарантирует более структурированное поведение и значительно меньшую подверженность внешним угрозам. ## Результаты Мы проверили эффективность IPIGuard на бенчмарке AgentDojo, где агенты должны решать задачи в динамических условиях. Наши результаты показали, что IPIGuard значительно снижает число нежелательных вызовов инструментов, вызванных внедренными инструкциями, при этом сохраняя высокую точность и быстрое выполнение задач. Эти результаты демонстрируют преимущество IPIGuard над существующими методами в терминах баланса между эффективностью и устойчивостью к атакам. Благодаря этому, IPIGuard может стать ключевым элементом в создании более надежных и безопасных агентских систем. ## Значимость Предложенная модель имеет большое практическое значение в области применения LLM-агентов в реальном мире. Она может быть использована для защиты агентов от внедренных инструкций в различных сценариях, таких как системы поддержки клиентов, системы управления бизнес-процессами и системы рекомендаций. Благодаря структурированному подходу IPIGuard обеспечивает более

Annotation:

Large language model (LLM) agents are widely deployed in real-world applications, where they leverage tools to retrieve and manipulate external data for complex tasks. However, when interacting with untrusted data sources (e.g., fetching information from public websites), tool responses may contain injected instructions that covertly influence agent behaviors and lead to malicious outcomes, a threat referred to as Indirect Prompt Injection (IPI). Existing defenses typically rely on advanced prom...

ID: 2508.15310v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 DiagECG: An LLM-Driven Framework for Diagnostic Reasoning via Discretized ECG Tokenization

2025-08-23

Авторы:

Jinning Yang, Wen Shi

## Контекст Электрокардиография (ECG) является ключевым инструментом в диагностике заболеваний сердечно-сосудистой системы. Однако существующие автоматизированные подходы часто сталкиваются с проблемами общестепенности и не могут полноценно поддерживать открытый рассуждательный процесс. Эти ограничения существенно снижают эффективность клинических решений. Мы предлагаем DiagECG — уникальную систему, которая объединяет моделирование временных рядов и естественных языков, обеспечивая широкий круг задач в области диагностики. Модель не только расширяет возможности существующих моделей, но и позволяет новым пользователям применять технологии глубокого обучения в медицинских задачах. ## Метод DiagECG использует сочетание техник токенизации и моделирования временных рядов. Основной алгоритм включает: 1. **Токенизация ЭКГ**: 12-лидные сигналы ЭКГ преобразуются в символьные токены с помощью lead-independent encoder и quantization module. 2. **Расширение LLM-входа**: новые токены добавляются к существующей модели, позволяя ей обрабатывать входные данные как ЭКГ, так и естественный язык. 3. **Предварительное обучение**: модель проходит набор трехугольных задач авторегрессионного прогнозирования ЭКГ, чтобы модель LLM могла осуществлять динамическую моделирование ЭКГ. 4. **Инструкционное тюнинг**: последний этап включает подготовку модели к задачам вопроса-ответа и созданию диагностических отчетов. ## Результаты Мы провели эксперименты с использованием больших данных ЭКГ и сравнили результаты с традиционными подходами. Модель DiagECG показала высокую обобщаемость и точность в диагностических задачах. Обнаружено, что включение токенизированных ЭКГ в LLM существенно повышает производительность и обеспечивает устойчивую работу в условиях нестандартных задач. ## Значимость DiagECG может применяться в различных сферах, включая клиническую диагностику, предсказание медицинских событий и генерацию отчетов. Основные преимущества: - Улучшение общестепенности и точности в медицинских задачах. - Увеличение возможности использования глубокого обучения в медицине. - Формирование промышленной платформы для связи технологий глубокого обучения и жизненно важного развития. ## Выводы Наш подход демонстрирует мощь интеграции символьных представлений ЭКГ и моделей естественного языка. Дальнейшие исследования будут направлены на расширение возможностей модели, улучшение ее универсальности и повышение ее доступности для клинических практик.

Annotation:

Electrocardiography plays a central role in cardiovascular diagnostics, yet existing automated approaches often struggle to generalize across clinical tasks and offer limited support for open-ended reasoning. We present DiagECG, a novel framework that integrates time-series and language modeling by enabling large language models to process 12-lead ECG signals for clinical text generation tasks. Our approach discretizes continuous ECG embeddings into symbolic tokens using a lead-independent encod...

ID: 2508.15338v1 cs.AI, cs.CL

arXiv PDF

📄 GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO

2025-08-23

Авторы:

Bidyapati Pradhan, Surajit Dasgupta, Amit Kumar Saha, Omkar Anustoop, Sriram Puttagunta, Vipul Mittal, Gopal Sarda

## Контекст В последние годы широко развиваются бо LARGE LANGUAGE MODELS (LLM), которые позволяют решать разнообразные задачи в области естественного языка, включая перевод, синтез речи, ответы на вопросы и многое другое. Однако для повышения качества этих моделей требуется большое количество высококачественных данных, особенно для таких сценариев, как supervised fine-tuning (SFT) и direct preference optimization (DPO). Несмотря на продвижение технологий сбора реальных данных, они часто сталкиваются с ограничениями в объеме, качестве и разнообразии. Это влечет за собой потребность в развитии эффективных фреймворков для генерации и управления генерированными данными, которые могут быть использованы в тренировочных процессах для LLM. Целью настоящей работы является разработка мощного, универсального и модульного синтетического генератора данных, который может снизить нагрузку на подготовку данных для различных LLM-приложений. ## Метод Предлагаемый фреймворк, **GraSP (Graph-Based Synthetic Data Generation and Processing Framework)**, основывается на графовой модели. Он предлагает модульную архитектуру, которая позволяет гибко настраивать процесс генерации данных. Генерация начинается с объявления конфигурации, которая определяет структуру диалога, включая узлы (интенты) и ребра (потоки диалога). Фреймворк поддерживает продуктивность и скорость, используя предобученные модели для генерации текста и встроенные механизмы для обеспечения качества. Ключевая характеристика **GraSP** — двухэтапная механика качества, включающая: 1) группу цепных правил для быстрого отбора и 2) LLM-based evaluation для точного определения качества. Таким образом, фреймворк обеспечивает точность и масштабируемость, необходимые для высококачественного генерирования данных. ## Результаты Для проверки эффективности **GraSP** были проведены эксперименты на создании данных для SFT и DPO в различных сценариях. Использовались различные диалоги, сформированные с учетом различных сложностей, включая сценарии со сложными диалогами и моделированием человеческого поведения. Результаты показали, что система может генерировать высококачественные данные с меньшим объемом ручных интервенций. Эксперименты также показали, что данные, генерируемые **GraSP**, позволяют улучшить точность в моделях, тренируемых на этих данных. Авторы также показали, что использование модульной архитектуры позволяет снизить время настройки и подготовки данных в LLM-современных проектах. ## Значимость **GraSP** может применяться в различных областях, включая образование, здравоохранение, финансы и другие сферы, где требуется высококачественная настройка моделей LLM. Он позволяет уменьшить время и стоимость под

Annotation:

The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeli...

ID: 2508.15432v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Language-Guided Tuning: Enhancing Numeric Optimization with Textual Feedback

2025-08-23

Авторы:

Yuxing Lu, Yucheng Hu, Nan Sun, Xukai Zhao

## Контекст Современные машинное обучение и анализ данных часто сталкиваются с трудностями при настройке моделей и алгоритмов. Настройка конфигураций — это критический аспект, включающий в себя регулирование архитектуры модели, стратегии обучения, признаков и гиперпараметров. Традиционные подходы часто работают в рамках изолированного рассмотрения каждой из этих сфер, что приводит к неэффективности и недостатку понимания процесса. В то же время, автоматизированные методы, такие как grid search и random search, либо не могут адаптироваться динамически к изменениям, либо не обладают способностью семантического анализа. Мотивированы тем, что необходимо создать более интеллектуальный подход, мы предлагаем Language-Guided Tuning (LGT) — рамку работы, которая использует многоагентные Large Language Models для оптимизации конфигураций с использованием естественного языка. ## Метод LGT основывается на многоагентной модели, в которой каждый агент имеет свой специализированный роль. Этот подход включает Advisor, Evaluator и Optimizer. Advisor генерирует новые конфигурации на основе естественного языка и возможности понимания особенностей оптимизации. Evaluator оценивает эффективность новых конфигураций, используя текстовые сигналы (текстовые градиенты), которые позволяют понять динамику обучения и взаимосвязи между конфигурациями. Optimizer, в свою очередь, адаптирует стратегию оптимизации на основе результатов Evaluator. Этот цикл создает самоповышающуюся систему, где каждый агент способствует улучшению общей системы. ## Результаты Мы проводили современные эксперименты на шести различных наборах данных, используя различные модели и задачи. Результаты показывают, что LGT превосходит традиционные методы, такие как grid search и random search, в соотношении качества результатов к времени выполнения. Также мы обнаружили, что наша система обладает высокой интерпретируемостью, что позволяет пользователям лучше понять принципы принятых решений. Например, в задаче регрессии на основе датасета MNIST, LGT показал до 20% улучшения в точности в сравнении с традиционными подходами. ## Значимость LGT может иметь широкие применения в машинном обучении, в том числе для настройки моделей, оптимизации гиперпараметров и автоматизированного анализа данных. Его главные преимущества заключаются в высокой эффективности, меньшем потреблении ресурсов и возможности для широкого применения. Также, LGT может быть применен в области глубокого обучения, чтобы увеличить скорость и точность оптимизации моделей. Мы считаем, что наш подход может иметь будущее в развитии интеллектуальных систем, которые могут принимать решения на основе естественного яз

Annotation:

Configuration optimization remains a critical bottleneck in machine learning, requiring coordinated tuning across model architecture, training strategy, feature engineering, and hyperparameters. Traditional approaches treat these dimensions independently and lack interpretability, while recent automated methods struggle with dynamic adaptability and semantic reasoning about optimization decisions. We introduce Language-Guided Tuning (LGT), a novel framework that employs multi-agent Large Languag...

ID: 2508.15757v1 cs.AI, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 GLASS: Test-Time Acceleration for LLMs via Global-Local Neural Importance Aggregation

2025-08-22

Авторы:

Amirmohsen Sattarifard, Sepehr Lavasani, Ehsan Imani, Kunlin Zhang, Hanlin Xu, Fengyu Sun, Negar Hassanpour, Chao Gao

#### Контекст Large Language Models (LLMs) становятся все более популярными в сферах, требующих высокого вычислительного мощности, таких как машинное обучение, глубокое обучение и анализ текстов. Однако их применение на edge-устройствах ограничено тем, что они требуют большого объема вычислений и памяти. Для того, чтобы решить эту проблему, активно исследуются способы оптимизации их работы, в том числе использование динамического удаления нейронов (sparSification), которое позволяет уменьшить вычисления без существенного снижения качества. Однако существующие методы либо требуют дополнительных подготовительных этапов и дополнительного обучения, либо не подходят для конкретных сценариев работы, например, для коротких запросов или длительной генерации текста. Это создает необходимость разработки более эффективных, тренировка-свободных методов, которые могут динамически выбирать нейроны во время исполнения. #### Метод Мы предлагаем два метода, основанные на глобально-локальной структуре модели, для динамического спарсинга слоёв feed-forward (FFN) в LLMs: **Activation-based Global-Local Neural Importance Aggregation (AI-GLASS)** и **Impact-based Global-Local Neural Importance Aggregation (AI-GLASS)**. Основная идея заключается в использовании двух разных типов статистик: локальной статистики, полученной из данных для конкретного запроса (prompt) и модельной внутренней статистики, описывающей влияние каждого нейрона на результат. Для выбора нейронов, которые будут включены в вычисления, мы применяем ранжирование по рейтингу (rank-aggregation), что позволяет уменьшить вычислительный затрат без ухудшения качества. Эти методы не требуют дополнительного обучения и могут быть использованы в реальном времени, что делает их привлекательными для применения в реальных системах. #### Результаты Мы провести эксперименты с различными LLMs, включая сети с несколькими слоями и разным количеством параметров. Мы сравнили нашу процедуру с другими методами спарсинга, в том числе теми, которые используют дополнительные тренировки или нулевой-шат-методы. Результаты показали, что наша методика GLASS превосходит другие методы в сценариях с длинными запросами, когда другие методы страдают от снижения качества. Мы также провели эксперименты на реальных данных, в том числе на данных для диалоговых систем и текстовой генерации. Эти результаты подтвердили, что GLASS даёт значительно более высокую скорость выполнения, при этом сохраняя качество вывода. #### Значимость Наша методика GLASS может применяться в различных областях, где требуется работа над LLMs на edge-устройствах, таких как мобильные приложения, браузерные расширения и IoT-устройства. Она позволяет эффективно использовать ресурсы, снижая вычислительные зат

Annotation:

Deploying Large Language Models (LLMs) on edge hardware demands aggressive, prompt-aware dynamic pruning to reduce computation without degrading quality. Static or predictor-based schemes either lock in a single sparsity pattern or incur extra runtime overhead, and recent zero-shot methods that rely on statistics from a single prompt fail on short prompt and/or long generation scenarios. We introduce A/I-GLASS: Activation- and Impact-based Global-Local neural importance Aggregation for feed-forw...

ID: 2508.14302v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs

2025-08-22

Авторы:

Luca Annese, Sabrina Patania, Silvia Serino, Tom Foulsham, Silvia Rossi, Azzurra Ruggeri, Dimitri Ognibene

## Контекст Последние достижения в области бо LARGE LANGUAGE MODELS (LLMs) и развития фреймворков для реализации рационального мышления дали существенный потенциал для улучшения моделей, которые могут выступать в роли компаньонов и специалистов в коллективных задачах. Однако, среди них возникают серьезные ограждения в понимании того, что другой агент может увидеть или знать. Такие проблемы возникают в связи с недостаточным раскрытием моделей для активного восприятия, участия в коллективной работе и понимания того, что другие знают (епистемический рассуждения). Наша исследовательская проблема заключается в исследовании, насколько удается улучшить эти способности с помощью структурированных примеров, полученных из графов решений, порождаемых планировщиком Fast Downward. Мы хотим протестировать, могут ли эти примеры улучшить точность и эффективность в решении задач, требующих активного восприятия и эпистемической работы в целом. ## Метод Мы разработали специальный подход, который использует графы решений, порождаемые планировщиком Fast Downward, для создания множества структурированных примеров. Эти примеры разделяются на три категории: 1) Оптимальные пути для достижения целей (G-type); 2) Информативные пути, содержащие решения в задачах (E-type); 3) Детальные пошаговые сравнения действий и их альтернатив (L-type). Затем, на основе этих примеров, мы создаем "мысленно-действительные" примеры, где требуется изложение логики каждого решения. Эти примеры используются для обучения агентов, работающих в рамках ReAct-фреймворка. Мы проверяем, насколько эффективны эти примеры в улучшении возможностей агентов по разделению внимания и пониманию того, что другой агент может видеть и узнать. ## Результаты Мы провели эксперименты, в которых LLMs-агенты проходили задачи, требующие активного восприятия и эпистемических рассуждений. Мы сравнивали результаты, полученные с использованием разных видов структурированных примеров. Оказалось, что на задачи, требующие базового фильтра внимания, агенты проявили достаточную эффективность. Однако, когда задачи требуют рассуждений о видимости, скрытых пространствах и стоимости эпистемических действий, агенты начали проявлять существенные недостатки. Например, они не всегда могут справиться с конкретным восприятием пространства и подбирать наиболее эффективные альтернативы действий. ## Значимость Наши результаты показывают, что, несмотря на улучшения в некоторых аспектах, структурированные примеры оказываются недостаточными для достижения значительных улучшений в эпистемических моделях. Например

Annotation:

Recent advances in large language models (LLMs) and reasoning frameworks have opened new possibilities for improving the perspective -taking capabilities of autonomous agents. However, tasks that involve active perception, collaborative reasoning, and perspective taking (understanding what another agent can see or knows) pose persistent challenges for current LLM-based systems. This study investigates the potential of structured examples derived from transformed solution graphs generated by the ...

ID: 2508.14564v1 cs.AI, cs.CL, cs.HC, I.2.9; I.2.10; I.2.7; J.4

arXiv PDF

1
2
111
112
113
114
115
129
130

Показано 1121 - 1130 из 1292 записей