📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультиагентные системы (MAS) широко используются для моделирования и решения задач, в которых несколько агентов взаимодействуют друг с другом. Однако, несмотря на значительные успехи в области машинного обучения, большинство больших языковых моделей (LLM) обучаются независимо, не специально оптимизированной для координации действий между агентами. Это создает значительные ограничения для применения LLMs в контексте коллаборативной работы. Традиционные методы файн-тюнинга LLMs часто основываются на индивидуальных наградах для каждого агента, что требует сложного дизайна системы наград для стимулирования координации. Такой подход неэффективен и не всегда обеспечивает качественное взаимодействие между агентами. Кроме того, существующие методы не позволяют эффективно использовать преимущества координации в мультиагентных задачах, особенно в сложных ситуациях, требующих высокого уровня коллаборативности. Данная проблематика становится особенно актуальной в контексте задач, связанных с коллаборативным написанием текстов или программированием, где необходимо обеспечить высокую степень взаимодействия и качество результатов. Таким образом, необходимо разработать более эффективный подход для моделирования коллаборативного поведения LLMs с использованием мультиагентного обучения с подкреплением (MARL). ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается моделировать коллаборативное поведение LLMs как задачу кооперативного Multi-Agent Reinforcement Learning (MARL). Для решения этой задачи разработан алгоритм **Multi-Agent Group Relative Policy Optimization (MAGRPO)**, который сочетает современные методы обучения с подкреплением для LLMs и методы MARL. MAGRPO основывается на построении групповой политики, которая учитывает взаимодействие между агентами и оптимизирует их поведение в коллаборативном контексте. Алгоритм использует механизм относительной оптимизации политик для каждого агента, что позволяет добиться более эффективной координации без необходимости сложного дизайна системы наград. Архитектура MAGRPO включает в себя следующие компоненты: 1. **Мультиагентная модель**: Каждый агент представляет собой LLM, который обучается взаимодействовать с другими агентами в рамках коллаборативной задачи. 2. **Групповая политика**: Оптимизируется для всей группы агентов, учитывающая совместные действия и их влияние на конечный результат. 3. **Относительная оптимизация**: Алгоритм оптимизирует политику для каждого агента относительно поведения других агентов, что обеспечивает более стабильное и кооперативное поведение. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на задачах коллаборативного написания текстов и коллаборативного программирования. В экспериментах использовались различные датасеты, представляющие реальные сценарии взаимодействия агентов. Результаты показали, что файн-тюнинг LLMs с использованием MAGRPO значительно улучшает качество создаваемых ответов и эффективность коллаборативного процесса. Агенты, обученные с помощью MAGRPO, демонстрируют более высокую степень координации и качество генерируемых текстов по сравнению с традиционными методами файн-тюнинга. Кроме того, эксперименты подтвердили, что MAGRPO позволяет эффективно использовать методы MARL для LLMs, обеспечивая лучшую адаптацию к сложным коллаборативным сценариям. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих коллаборативной работы нескольких агентов. Например, в области автоматического написания текстов, программирования, игр и других ситуаций, требующих высокого уровня взаимодействия. Преимущества MAGRPO включают: - **Улучшенная координация**: Алгоритм обеспечивает более эффективное взаимодействие между агентами. - **Улучшенное качество результатов**: Генерируемые тексты и код имеют высокий уровень качества и соответствия задаче. - **Простота дизайна наград**: Отсутствие необходимости в сложном дизайне системы наград упрощает процесс обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе предложен новый подход для моделирования коллаборативного поведения LLMs с использованием MARL. Алгоритм MAGRPO показал высокую эффективность в задачах коллаборативного написания текстов и программирования. Будущие исследования могут сосредоточиться на расширении этого подхода для более сложных мультиагентных задач, а также на исследовании других методов MARL для LLMs. Также важно исследовать возможности применения этого подхода в реальных системах, требующих высокого уровня коллаборативности.
Annotation:
A large amount of work has been done in Multi-Agent Systems (MAS) for modeling and solving problems with multiple interacting agents. However, most LLMs are pretrained independently and not specifically optimized for coordination. Existing LLM fine-tuning frameworks rely on individual rewards, which require complex reward designs for each agent to encourage collaboration. To address these challenges, we model LLM collaboration as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. W...
ID: 2508.04652v1 cs.AI, cs.SE
Авторы:

Hao Wang, Limeng Qiao, Zequn Jie, Zhijian Huang, Chengjian Feng, Qingfang Zheng, Lin Ma, Xiangyuan Lan, Xiaodan Liang

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА Сегодняшние Large Language Models (LLMs) демонстрируют высокую эффективность в представлении широкого спектра знаний, но страдают от нехватки пиксельного уровня восприятия для конкретных задач визуального понимания. Эта проблема особенно заметна в области сегментации изображений, где необходимо выделять объекты на пиксельном уровне с высокой точностью. Segment Anything Model (SAM) является важной отметкой в развитии визуального понимания, но у него есть ограничения. SAM не может эффективно обрабатывать множественные маски предсказаний или выполнять категорийно-специфическую сегментацию, что ограничивает его применимость в реальных сценариях. Также SAM не позволяет объединить все задачи сегментации в единый модельный архитектуру, что затрудняет его гибкость и масштабируемость. Эта проблема приводит к необходимости разработки более универсальной модели, которая может объединить различные типы сегментации в едином рамках, улучшить восприятие на пиксельном уровне и поддерживать мультимодальное обучение. Мотивация заключается в том, чтобы создать фреймворк, который не только расширит возможности сегментации, но и позволит интегрировать различные типы визуальных данных и задач в единую модель, обеспечивая более глубокое и точное понимание. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем, авторы предлагают X-SAM, универсальный фреймворк на основе Multimodal Large Language Model (MLLM). Этот фреймворк расширяет парадигму сегментации с "segment anything" на "any segmentation", т.е. позволяет выполнять любые типы сегментации в едином модельном пространстве. Основное техническое решение заключается в введении новой концепции Visual GrounDed (VGD) сегментации, которая позволяет выделять все экземпляры объектов с использованием интерактивных визуальных признаков. Это позволяет MLLMs получать более точное пиксельное восприятие и интерпретируемость. X-SAM включает в себя несколько ключевых компонентов: 1. **Unified Framework**: Объединяет различные типы сегментации в единой архитектуре, что позволяет модели выполнять многократные сегментационные задачи без необходимости переключения между разными моделями. 2. **Visual GrounDed Segmentation**: Новая задача сегментации, где экземпляры объектов выделяются с помощью визуальных признаков в интерактивном режиме. Это повышает точность и интерпретируемость сегментации. 3. **Unified Training Strategy**: Создана стратегия обучения, которая поддерживает ко-обучение на нескольких датасетах, что позволяет модели эффективно использовать разнообразные источники данных для обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности X-SAM на различных задачах сегментации изображений. В экспериментах использовались различные датасеты, которые покрывали различные категории и сценарии сегментации. Результаты показали, что X-SAM достиг рекордных показателей на различных сегментационных задачах, превосходя существующие модели. Особенно заметно было улучшение в задачах множественной сегментации и категорийной сегментации, где X-SAM показал значительное превосходство по сравнению со стандартным SAM. Кроме того, модель демонстрировала высокую эффективность при обучении на различных датасетах, подтверждая гибкость и мощность его универсального подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ X-SAM имеет широкое применение в различных областях, где необходимо высокое качество сегментации изображений. Это может включать задачи в областях медицины, автономных транспортных систем, компьютерного зрения и многих других. Преимущества X-SAM заключаются в его универсальности, высокой точности и возможности обработки различных типов данных. Это делает его подходящим для решения сложных задач в реальных приложениях, где требуется точное восприятие изображений на пиксельном уровне. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен X-SAM, фреймворк, который расширяет возможности сегментации изображений за счет интеграции мультимодальных моделей и новой концепции VGD сегментации. Это позволяет достичь высокой точности и интерпретируемости в пиксельном восприятии. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая расширение ее возможностей для более широкого спектра задач и использования более сложных данных. Также, можно исследовать возможности интеграции X-SAM с другими моделями и приложениями в разных доменах. ```
Annotation:
Large Language Models (LLMs) demonstrate strong capabilities in broad knowledge representation, yet they are inherently deficient in pixel-level perceptual understanding. Although the Segment Anything Model (SAM) represents a significant advancement in visual-prompt-driven image segmentation, it exhibits notable limitations in multi-mask prediction and category-specific segmentation tasks, and it cannot integrate all segmentation tasks within a unified model architecture. To address these limita...
ID: 2508.04655v1 cs.CV, cs.AI
Авторы:

Akhil Saketh Reddy Sabbella, Ch. Lakshmi Prachothan, Eswar Kumar Panta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Птицеводство представляет собой критически важную отрасль мирового сельского хозяйства, обеспечивающую значительную долю белкового питания населения планеты. Однако распространение заболеваний среди птиц создает серьезную угрозу как для экономической устойчивости фермерских хозяйств, так и для продовольственной безопасности в целом. Традиционные методы диагностики заболеваний в птицеводстве полагаются исключительно на визуальный осмотр персонала, что сопряжено с множеством критических недостатков. Процесс ручного мониторинга является чрезвычайно трудоемким, требует значительных человеческих ресурсов и подвержен субъективным ошибкам, особенно при масштабных производствах с десятками тысяч голов птицы. Существующие проблемы усугубляются тем, что ранние стадии многих заболеваний протекают с минимальными внешними проявлениями, что делает своевременное выявление патологий практически невозможным при использовании традиционных методов. Задержка в диагностике приводит к быстрому распространению инфекций среди поголовья, что может привести к массовому падежу птицы, значительным экономическим потерям и даже необходимости полного ликвидации поголовья. Кроме того, в условиях крупных промышленных комплексов человеческий фактор становится не только источником ошибок, но и потенциальным вектором распространения заболеваний между секторами фермы. Необходимость в автоматизированных системах мониторинга здоровья птицы становится все более очевидной, особенно в контексте растущих требований к биобезопасности и необходимости снижения эксплуатационных расходов. Современные технологии компьютерного зрения и глубокого обучения предоставляют уникальную возможность создания систем, способных непрерывно и объективно оценивать состояние здоровья птицы в реальном времени, минимизируя человеческое вмешательство и повышая точность диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи автоматизированного мониторинга здоровья птицы авторы предложили использовать передовую архитектуру YOLO v8 (You Only Look Once version 8), представляющую собой современную систему компьютерного зрения для обнаружения объектов в реальном времени. Методология разработки системы включала несколько ключевых этапов, начиная от подготовки обширного аннотированного датасета и заканчивая оптимизацией модели для работы в условиях промышленной птицефермы. Первым этапом стало формирование большого массива высокоразрешающих изображений кур, охватывающих различные породы, возрастные группы и условия содержания. Изображения были тщательно аннотированы экспертами-ветеринарами, которые маркировали визуальные признаки заболеваний, включая патологические изменения в оперении, кожных покровах, глазах, изменения в осанке и поведении птицы. Аннотации включали как явные признаки болезней (поражения кожи, воспаления), так и тонкие поведенческие индикаторы (летаргия, нехарактерные движения, изменения паттернов питания). Архитектура YOLO v8 была выбрана благодаря своей способности обрабатывать изображения в реальном времени с высокой точностью. Модель была адаптирована под специфику задачи через fine-tuning с использованием трансферного обучения, что позволило ускорить процесс обучения и повысить качество распознавания. Особое внимание было уделено оптимизации модели для работы с ограниченными вычислительными ресурсами, характерными для фермерской инфраструктуры. Были реализованы механизмы предварительной фильтрации изображений для исключения случаев неинформативных кадров, а также алгоритмы слежения за объектами для предотвращения повторного анализа одних и тех же особей. Система была интегрирована с механизмом генерации своевременных предупреждений для фермеров через мобильные уведомления и панели управления. Алгоритм включал многоуровневую систему приоритетов, позволяющую оперативно реагировать на критические случаи, требующие немедленного вмешательства ветеринара. Дополнительно была реализована функция анализа трендов заболеваемости, позволяющая прогнозировать вспышки заболеваний на основе обнаруженных ранних признаков. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала всесторон
Annotation:
In the poultry industry, detecting chicken illnesses is essential to avoid financial losses. Conventional techniques depend on manual observation, which is laborious and prone to mistakes. Using YOLO v8 a deep learning model for real-time object recognition. This study suggests an AI based approach, by developing a system that analyzes high resolution chicken photos, YOLO v8 detects signs of illness, such as abnormalities in behavior and appearance. A sizable, annotated dataset has been used to ...
ID: 2508.04658v1 cs.CV, cs.AI
Авторы:

Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) диффузорные модели (DMs) представляют собой технологии, которые достигли выдающихся результатов в синтезе высококачественных изображений. Однако их впечатляющие результаты сопровождаются серьезными техническими ограничениями: большие размеры моделей, которые могут достигать 8-11 миллиардов параметров, делают их непригодными для использования на ресурсо-ограниченных устройствах, таких как мобильные телефоны или устройства обработки данных с ограниченными вычислительными мощностями. Это ограничение является критическим в контексте распространения моделей в реальных приложениях, где важно обеспечить эффективность работы и низкие требования к ресурсам. Таким образом, существует необходимость в разработке эффективных методов для сжатия таких моделей, которые могут сократить их размер и снизить вычислительные требования, не ухудшая их качество. Традиционные подходы к сжатию моделей, такие как прунинг (pruning) и квантование, часто сталкиваются с проблемой снижения качества выходных данных, что может быть критически важно в случае с T2I моделями, где высокое качество синтезированных изображений является основной целью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представляют **HierarchicalPrune**, фреймворк для сжатия больших моделей диффузоров, основанный на иерархическом понимании функциональных блоков. Этот метод работает в несколько этапов: 1. **Иерархический Позиционный Прунинг (Hierarchical Position Pruning)**: Этот шаг определяет и удаляет менее важные блоки модели, основываясь на их позиции в иерархической структуре модели. Более ранние блоки, ответственные за формирование семантических структур, остаются неизменными, в то время как более поздние блоки, отвечающие за тонкие текстурные детали, подвергаются удалению. 2. **Позиционное Сохранение Весов (Positional Weight Preservation)**: Этот этап защищает критически важные части модели, особенно ранние блоки, которые отвечают за формирование основной структуры и смысла изображения. 3. **Чувствительность-Ориентированная Дистилляция (Sensitivity-Guided Distillation)**: Этот процесс корректирует процесс трансфера знаний между моделями, основываясь на различиях в чувствительности разных блоков. Это позволяет оптимизировать процесс обучения и сохранять качество выходных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты показали, что **HierarchicalPrune** достигает значительных результатов в сжатии моделей. Сочетание прунинга с INT4 квантованием весов позволяет сократить размер модели с 15.8 ГБ до 3.2 ГБ, что составляет 77.5-80.4% уменьшения памяти. Также уменьшается время выполнения (латенция) в диапазоне 27.9-38.0% на различных типах GPU, как высокопроизводительных, так и потребительских. При этом, качество синтезированных изображений остается высоким: снижение GenEval счетчика составило всего 2.6%, а HPSv2 счетчик – 7% по сравнению с оригинальной моделью. Более того, пользовательские исследования с участием 85 человек показали, что качество изображений, сгенерированных HierarchicalPrune, оценивается как соответствующее качеству оригинальной модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **HierarchicalPrune** очевидны в контексте реальных приложений. Сокращение размера модели и увеличение эффективности ее выполнения позволяют использовать такие модели на мобильных устройствах, что значительно расширяет область их применения. Кроме того, эти модели могут быть использованы в областях, требующих быстрого и качественного генерации изображений, таких как дизайн, реклама, игровая индустрия и образование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ **HierarchicalPrune** демонстрирует значительные успехи в сжатии моделей диффузоров без существенного ухудшения качества. Будущие исследования могут фокусироваться на дальнейшей оптимизации этих методов для различных типов моделей и приложений, а также на исследовании возможностей применения таких моделей в реальных сценариях.
Annotation:
State-of-the-art text-to-image diffusion models (DMs) achieve remarkable quality, yet their massive parameter scale (8-11B) poses significant challenges for inferences on resource-constrained devices. In this paper, we present HierarchicalPrune, a novel compression framework grounded in a key observation: DM blocks exhibit distinct functional hierarchies, where early blocks establish semantic structures while later blocks handle texture refinements. HierarchicalPrune synergistically combines thr...
ID: 2508.04663v1 cs.CV, cs.AI
Авторы:

Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом для решения многих задач, однако, когда речь идет о работе с длинными контекстами, их производительность сильно снижается из-за явления проактивного вмешательства (proactive interference). Это случается, когда неуместная информация из ранних частей контекста мешает рациональному мышлению и восстановлению памяти. До сих пор, многие исследования были направлены на создание внешних систем памяти, которые дополняют возможности LLMs. Однако, эти методы часто требуют значительных изменений в архитектуре модели или дополнительной подготовки. Проблема в том, что LLMs должны уметь эффективно управлять своей внутренней памятью и вниманием, чтобы справиться с длинными контекстами. Традиционные подходы, такие как увеличение длины контекста или использование внешних мемориальных систем, не всегда эффективны в борьбе со специфичными проблемами, такими как неуместное воздействие неактуальной информации. Это подчеркивает необходимость разработки новых методов, которые позволят LLMs активно управлять своим контекстом и фокусироваться на актуальной информации. В этой статье предлагается новый подход, называемый Sculptor, который разработан для активного управления контекстом LLMs. Он позволяет моделям самостоятельно формировать и оптимизировать свою внутреннюю рабочую память, подобно тому, как человек выбирает актуальную информацию, отбрасывая неактуальную. Этот подход основывается на идее "скульптурирования" контекста, где LLMs могут активно управлять информацией, которая доступна им для рассмотрения, что повышает их эффективность в решении задач с длинными контекстами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Sculptor представляет собой фреймворк, основанный на трех основных компонентах, которые позволяют LLMs управлять своим контекстом: 1. **Context Fragmentation (Фрагментация Контекста)**: Этот компонент позволяет разделять длинный контекст на более мелкие, управляемые фрагменты. Это помогает LLMs сосредоточиться на актуальных частях без необходимости обрабатывать весь контекст целиком. 2. **Summary, Hide, and Restore (Создание Кратких Сводок, Скрытие и Восстановление)**: Sculptor позволяет LLMs сжимать информацию в краткие сводки, скрывать несущественные детали, и восстанавливать важные части контекста когда это необходимо. Это позволяет моделям сосредоточиться на ключевых моментах, не теряя важные данные. 3. **Intelligent Search (Интеллектуальный Поиск)**: Эта функция позволяет LLMs искать и извлекать релевантную информацию из контекста, используя специальные алгоритмы поиска. Это помогает моделям быстро находить нужные данные, не предоставляя им неактуальных или несвязанных частей контекста. Эти компоненты вместе позволяют LLMs активно управлять своей рабочей памятью, что помогает минимизировать влияние неактуальной информации и повышает точность рассуждений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Sculptor, были проведены эксперименты на двух наборах данных: PI-LLM (Proactive Interference LLM) и NeedleBench Multi-Needle Reasoning. Эти наборы данных представляют задачи, требующие обработки длинных контекстов с высокой информативностью и требующих высокой точности рассуждений. В результате экспериментов было показано, что Sculptor значительно повышает производительность LLMs, даже без необходимости специального тренировочного набора данных. Это достигается благодаря тому, что LLMs могут естественно освоить и использовать инструменты Sculptor для управления своим контекстом. Кроме того, результаты показали, что Sculptor не только уменьшает влияние проактивного вмешательства, но также повышает надежность и точность рассуждений LLMs на различных типах задач. Это подтверждает, что активное управление контекстом является ключевым фактором для улучшения производительности LLMs при работе с длинными контекстами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость Sculptor заключается в том, что этот подход может быть применен в различных областях, где необходимо обрабатывать большие объемы информации. Например, в области медицинского диагностирования, юридического анализа, или финансового мониторинга, где контекст может быть чрезвычайно длинным и содержать множество несвязанных деталей. Преимущества Sculptor включают в себя улучшенную эффективность LLMs, уменьшение ошибок, связанных с неактуальной информацией, и повышение надежности рассуждений. Это может привести к более надежным и точным решениям в задачах, требующих обработки длинных и сложных контекстов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, Sculptor представляет собой новый подход к управлению контекстом в LLMs, который позволяет моделям активно формировать свою рабочую память и фокусироваться на релевантной информации. Этот метод показал значительные улучшения в производительности LLMs при работе с длинными контекстами, даже без необходимости специальной подготовки. В будущем, этот подход может быть развит для решения более широкого круга задач, включая многомодальные контексты и задачи, требующие динамического управления информацией. Более того, Sculptor может быть интегрирован в другие модели и архитектуры, чтобы улучшить их производительность в различных приложениях.
Annotation:
Large Language Models (LLMs) suffer from significant performance degradation when processing long contexts due to proactive interference, where irrelevant information in earlier parts of the context disrupts reasoning and memory recall. While most research focuses on external memory systems to augment LLMs' capabilities, we propose a complementary approach: empowering LLMs with Active Context Management (ACM) tools to actively sculpt their internal working memory. We introduce Sculptor, a framew...
ID: 2508.04664v1 cs.CL, cs.AI, cs.LG
Авторы:

Natalia Echeverry, Arun Lekshmi Narayanan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование проводится в контексте стремительной интеграции искусственного интеллекта в образовательные процессы, особенно в области программирования. С появлением инструментов вроде GitHub Copilot, ChatGPT, CodeT5 и других AI-ассистентов, студенты компьютерных наук получили доступ к мощным средствам автоматизации кодирования, отладки и объяснения концепций. Однако несмотря на массовое распространение этих технологий, остается неясным, как именно студенты используют AI-инструменты в повседневной учебной практике, какие задачи они доверяют алгоритмам, а какие предпочитают решать традиционными методами, и как варьируются паттерны использования в зависимости от уровня опыта кодирования. Существующая проблематика включает несколько аспектов. Во-первых, отсутствует систематическое понимание того, как AI-ассистенты влияют на процесс обучения программированию: способствуют ли они глубокому пониманию концепций или, наоборот, создают иллюзию компетентности. Во-вторых, неясно, как соотносится использование AI-инструментов с традиционными источниками помощи вроде документации, онлайн-форумов, помощи преподавателей и коллег. В-третьих, открытым остается вопрос о потенциальном цифровом неравенстве: могут ли студенты с разным уровнем начального опыта по-разному эффективно использовать AI-ассистентов. Наконец, существуют этические и педагогические опасения по поводу академической честности и необходимости адаптировать методики преподавания к новой реальности. Мотивация исследования заключается в необходимости получить эмпирические данные для информирования преподавателей, разработчиков образовательных программ и самих студентов о том, как наилучшим образом интегрировать AI-инструменты в образовательный процесс, не разрушая при этом фундаментальные принципы обучения программированию и сохраняя баланс между эффективностью и глубиной понимания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование применяет смешанный метод, сочетающий количественный онлайн-опрос с качественными интервью. Выборка состоит из 26 студентов компьютерных наук разных курсов и уровней опыта (от начинающих до продвинутых). Ключевым методом сбора данных является структурированный опросник, включающий 47 вопросов, охватывающих следующие области: демографические характеристики, год обучения, самооценка уровня навыков программирования, частота использования различных AI-инструментов, типы задач, для которых используются AI-ассистенты, предпочитаемые источники помощи при решении разных типов проблем. Опросник структурирован по блокам: первый блок фокусируется на использовании AI-ассистентов для написания кода (GitHub Copilot, CodeWhisperer, TabNine), второй - на использовании AI-чатботов для отладки и объяснения ошибок (ChatGPT, Claude, Bard), третий - на сравнении эффективности AI-инструментов с традиционными источниками помощи. Для каждого типа задачи респонденты оценивали частоту использования разных ресурсов по 5-балльной шкале Ликерта. Дополнительно проводятся полуструктурированные интервью с подмножеством участников (n=8) для получения более глубоких качественных данных о мотивации выбора конкретных инструментов, стратегиях применения AI-ассистентов, проблемах и барьерах использования. Интервью анализируются с использованием тематического анализа для выявления повторяющихся паттернов использования и вариаций в зависимости от уровня опыта. Методология включает статистический анализ для выявления корреляций между уровнем опыта и предпочтениями в использовании ресурсов, анализ кластеров для идентификации типичных профилей использования AI-инструментов, и регрессионный анализ для предсказания вероятности использования конкретного типа помощи на основе характеристик студента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Основные результаты опроса показывают четкую иерархию предпочтений в использовании ресурсов для разных типов задач. Для написания нового кода на первом месте оказались онлайн-поиски (средний балл 4.2 из 5), за которыми следуют AI-ассистенты для кодирования (3.8), документация (3.5), помощь коллег (2.9) и помощь преподавателей (2.4). Наиболее удивительным результатом стало то
Annotation:
A survey of 26 CS students reveals that AI coding assistants are mainly used for writing code (second to online searches) while AI chatbots are the top resource for debugging. Participants with different coding experience prefer online help over direct human help from peers and instructors.
ID: 2508.04667v1 cs.HC, cs.AI
Авторы:

Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Непрерывное обучение (continual learning) является ключевым фактором для развития искусственного общего интеллекта, особенно в контексте крупных языковых моделей (LLMs). Однако при непрерывной файн-тюнинге LLMs на различных доменах возникает проблема катастрофического забывания (catastrophic forgetting). Эта проблема проявляется в двух основных аспектах: существенное забывание общих возможностей модели и резкое снижение эффективности на ранее выученных задачах. Традиционные подходы к решению этой проблемы часто требуют больших вычислительных ресурсов или затрат на хранение данных. Это создает серьезные ограничения для практического применения LLMs в непрерывном обучении. Мотивацией данного исследования является разработка эффективного и стабильного метода для предотвращения катастрофического забывания, способного одновременно сохранять общие возможности модели и повышать её производительность на последовательных задачах. Такой подход должен быть простым в реализации и мало затратным в плане вычислений и хранения данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод General Sample Replay (GeRe), основанный на использовании обычных текстов предварительного обучения для эффективного предотвращения забывания. Основная идея GeRe заключается в повторном использовании небольшого, фиксированного набора общих образцов для поддержания стабильности активационных состояний модели во время непрерывного обучения. Кроме того, в рамках GeRe введен метод оптимизации с использованием потерь на основе пороговой маржи (TM-loss). Этот метод позволяет сохранять согласованность активационных состояний модели во время повторного обучения. TM-loss оптимизирует модель, учитывая разницу между текущими и предыдущими активационными состояниями, что помогает избежать переобучения и поддерживает стабильность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов, сравнивая TM-loss с другими стратегиями повторения, такими как ванильное фиттирование по меткам, имитация логитов через KL-дивергенцию и имитация функций через L1/L2 потери. Использовались контролируемые наборы данных для моделирования непрерывного обучения. Результаты показали, что TM-loss последовательно превосходит другие стратегии в плане качества и робастности. Метод позволяет эффективно сохранять общие возможности модели и повышает её производительность на последовательных задачах. Было также подтверждено, что небольшой набор общих репликационных образцов достаточен для достижения этих целей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод GeRe имеет широкое применение в областях, требующих непрерывное обучение LLMs, таких как адаптивные системы диалогов, анализ текстов в различных доменах и автоматическое обучение на основе потоковых данных. Благодаря низким затратам на вычисления и хранение, GeRe делает непрерывное обучение более доступным для практического использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что использование фиксированного набора общих образцов в сочетании с TM-loss является эффективным способом для предотвращения катастрофического забывания в LLMs. Будущие исследования могут фокусироваться на дальнейшей оптимизации метода для более сложных сценариев и расширения его применимости к различным архитектурам моделей.
Annotation:
The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usua...
ID: 2508.04676v1 cs.CL, cs.AI, cs.LG
Авторы:

Karthik Menon, Batool Arhamna Haider, Muhammad Arham, Kanwal Mehreen, Ram Mohan Rao Kadiyala, Hamza Farooq

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах поиска, особенно в контексте электронной коммерции, ключевым фактором является обеспечение высокой релевантности поисковых результатов. Традиционные методы поиска, такие как BM25 и другие ключевословные подходы, часто сталкиваются с ограничениями в том, что они не учитывают семантические отношения между запросом и документами. Это приводит к появлению шума в результатах поиска и снижению эффективности для конечных пользователей. Дополнительно, существует проблема неструктурированности запросов пользователей, которые могут содержать различные типы информации, такие как названия товаров, характеристики, цены, или другие атрибуты, которые не всегда могут быть эффективно обработаны с помощью традиционных подходов поиска. В контексте Enterprise Search, который широко используется в системах электронной коммерции, эти ограничения становятся еще более критичными. Необходимо разработать более продвинутые методы, которые могут эффективно обрабатывать неструктурированные данные, извлекать семантические элементы и метаданные из запросов пользователей, и предоставлять более точные и релевантные результаты. Одной из возможных путей решения этой проблемы является интеграция семантического поиска с фильтрацией метаданных, что позволяет улучшить качество поиска за счет более точного понимания пользовательских интенций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Query Attribute Modeling (QAM) представляет собой гибридный фреймворк, который объединяет семантический поиск с фильтрацией метаданных для улучшения точности и релевантности результатов поиска. Основная идея QAM заключается в разделении неструктурированных текстовых запросов на структурированные метаданные и семантические компоненты. Это достигается путем автоматического извлечения метаданных и фильтров из запросов, что позволяет уменьшить шум и сосредоточиться на наиболее релевантных элементах. Архитектура QAM включает несколько этапов обработки. Первым шагом является предобработка запроса, в которой используются техники естественного языка для идентификации ключевых компонентов запроса. Затем, QAM применяет модели извлечения метаданных для определения атрибутов товаров, таких как цена, бренд, размер, и т.д., которые могут быть использованы для фильтрации результатов. На следующем этапе, QAM использует семантическую модель для определения связей между запросом и документами, что позволяет выявить релевантные элементы, даже если они не содержат точных ключевых слов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности QAM был использован датасет Amazon Toys Reviews, содержащий около 10 000 уникальных товаров и более 40 000 отзывов. Эксперименты проводились с использованием различных методов поиска, включая BM25, семантический поиск на основе энкодеров, кросс-энкодеры для переранжирования, и гибридный поиск, который комбинирует BM25 и семантические результаты через Reciprocal Rank Fusion (RRF). Результаты показали, что QAM достигает средней точности (mAP@5) в 52.99%, что значительно превосходит результаты других методов. Например, BM25 достигает точности в 38.12%, в то время как семантический поиск на основе энкодеров показывает 46.89%. Эти результаты подтверждают, что QAM является более эффективным подходом для улучшения релевантности поиска в контексте электронной коммерции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость QAM заключается в его потенциале для улучшения качества поиска в системах электронной коммерции. Благодаря возможности извлекать метаданные и семантические компоненты из запросов, QAM позволяет создавать более точные и целевые результаты поиска, что может повысить удовлетворенность пользователей и повысить конверсию в системах онлайн-торговли. Более того, QAM может быть интегрирован в существующие Enterprise Search системы, что делает его применимым в различных отраслях, где критична точность поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, Query Attribute Modeling (QAM) представляет собой эффективное решение для улучшения поисковой релевантности в системах электронной коммерции. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей извлечения метаданных и семантического поиска, а также на расширении применения QAM в других областях, таких как медицинские системы поиска или корпоративные базы данных.
Annotation:
This study introduces Query Attribute Modeling (QAM), a hybrid framework that enhances search precision and relevance by decomposing open text queries into structured metadata tags and semantic elements. QAM addresses traditional search limitations by automatically extracting metadata filters from free-form text queries, reducing noise and enabling focused retrieval of relevant items. Experimental evaluation using the Amazon Toys Reviews dataset (10,000 unique items with 40,000+ reviews and de...
ID: 2508.04683v1 cs.IR, cs.AI, cs.CL, cs.LG
Авторы:

Yuanchen Bai, Zijian Ding, Shaoyue Wen, Xiang Chang, Angelique Taylor

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область многоагентных робототехнических систем (MARS) представляет собой естественное развитие традиционных многоагентных систем (MAS), дополненное физическими ограничениями и задачами реального мира. В отличие от чисто программных агентов, роботы-агенты должны учитывать пространственные ограничения, физические взаимодействия с окружающей средой и ограничения аппаратного обеспечения. Это значительно усложняет процесс координации и выполнения действий, превращая абстрактные алгоритмы в конкретные физические операции. Healthcare-сектор становится особенно перспективным для внедрения MARS, поскольку медицинские учреждения сталкиваются с растущими нагрузками и потребностью в автоматизации рутинных процессов. Однако несмотря на наличие продвинутых многоагентных фреймворков, их реальное развертывание на роботах остается ограниченным. Это создает значительный разрыв между теоретическими разработками и практическим применением. Ключевые проблемы, мешающие внедрению, включают: невозможность заранее предсказать все возможные сценарии взаимодействия агентов, сложность обработки реальных отказов оборудования, необходимость обеспечения безопасности пациентов и персонала, а также проблему масштабируемости при увеличении количества роботов. Традиционные подходы, основанные на предоставлении контекстных знаний, часто оказываются недостаточными для решения координационных сбоев, возникающих в динамичной реальной среде. Авторы статьи фокусируются на иерархических многоагентных фреймворках, которые обещают более эффективную координацию за счет структурирования взаимодействий между агентами. Особое внимание уделяется изучению компромиссов между различными уровнями автономности агентов и общей стабильностью системы, что критически важно для обеспечения надежности в медицинских приложениях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование проводится в два этапа с использованием двух различных фреймворков для многоагентных систем: CrewAI и AutoGen. Первый этап (Study 1) сосредоточен на систематическом выявлении и категоризации координационных сбоев с помощью CrewAI, в то время как второй этап (Study 2) оценивает переработанную структуру двунаправленной коммуникации с использованием AutoGen. В Study 1 применяется итеративный подход к уточнению базы знаний системы. Процесс включает многократные циклы тестирования, где после каждого обнаруженного сбоя в базу знаний добавляются новые контекстные данные. Это позволяет выявить типы координационных сбоев, которые не могут быть решены только путем предоставления дополнительного контекста. Основные категории сбоев включают: нарушения доступа к инструментам (tool access violations), несвоевременную обработку отчетов об ошибках, конфликты при доступе к общим ресурсам и проблемы с приоритизацией задач. Study 2 вводит переработанную архитектуру двунаправленной коммуникации между агентами, где каждый агент может инициировать коммуникацию и получать обратную связь от других агентов. Это противопоставляется традиционной иерархической модели, где коммуникация происходит преимущественно сверху вниз. Кроме того, исследуется влияние использования моделей с различными способностями к рассуждению: одни агенты оснащены продвинутыми возможностями логического вывода, в то время как другие опираются на более простые шаблонные реакции. Экспериментальная среда моделирует реальное медицинское учреждение с множеством роботов, выполняющих различные задачи: доставка медикаментов, сопровождение пациентов, уборка помещений и техническое обслуживание оборудования. Система включает в себя физические ограничения, такие как ограниченное пространство, приоритеты доступа к ресурсам и возможные отказы оборудования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках Study 1 было проведено более 200 итераций тестирования с CrewAI, что позволило выявить 47 уникальных сценариев координационных сбоев. Классификация этих сбоев выявила четыре основные категории: 38% сбоев связаны с нарушениями доступа к инструментам и оборудованию, 27% - с несвоевременной обработкой отчетов об ошибках, 21% - с
Annotation:
Multi-agent robotic systems (MARS) build upon multi-agent systems by integrating physical and task-related constraints, increasing the complexity of action execution and agent coordination. However, despite the availability of advanced multi-agent frameworks, their real-world deployment on robots remains limited, hindering the advancement of MARS research in practice. To bridge this gap, we conducted two studies to investigate performance trade-offs of hierarchical multi-agent frameworks in a si...
ID: 2508.04691v1 cs.RO, cs.AI, cs.MA
Авторы:

Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu, Reshmi Ghosh, Samyadeep Basu, Wenlong Zhao, Ali Nasaeh, Sriram Balasubramanian, Soundararajan Srinivasan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие моделей искусственного интеллекта, оснащенных способностью к резонированию, открыло новые горизонты в решении сложных задач, требующих многошагового анализа. Эти решения включают задачи расширенного поиска, выделения ответов на вопросы и решения сложных математических проблем. Однако, несмотря на значительные успехи, модели, предназначенные для резонирования, часто проявляют высокую степень галлюцинаций – генерации неверных или несвязных ответов, что существенно ограничивает их эффективность. Особенно это проявляется в задачах много-шагового анализа, где необходимо обрабатывать информацию из нескольких источников. Традиционные методы оценки этих моделей часто основываются на метриках точности, которые не позволяют полноценно понять причины ошибок. Таким образом, существует критическая необходимость в более глубоком анализе и классификации ошибок, которые возникают в процессе много-шагового резонирования. Исследование, представленное в данной работе, направлено на то, чтобы заполнить этот пробел, предлагая новый подход к диагностике ошибок моделей резонирования. В данном контексте, речь идет о том, как модели резонирования сталкиваются с проблемами во время много-шагового анализа, когда необходимо собирать и обрабатывать информацию из нескольких документов. Эти проблемы могут быть связаны с плохой интеграцией информации, неполнотой анализа, или неэффективным использованием вычислительных ресурсов. Исследование таких проблем требует не только точного понимания внутренней работы моделей, но и систематического подхода к их классификации и анализу. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для диагностики ошибок в моделях резонирования, исследователи представили новый метод, основанный на систематическом анализе ошибок в процессе много-шагового резонирования. Основная идея заключается в том, чтобы разбить ошибки на три ключевых категории: 1. **Diversity and Uniqueness of Source Documents ("Hops")**: Эта категория заключается в оценке разнообразия и уникальности источников документов, которые модель использует для построения ответа. Большое количество разнообразных документов может привести к сложностям в их интеграции. 2. **Completeness in Capturing Relevant Information ("Coverage")**: Эта категория оценивает, насколько полно модель улавливает и использует всю необходимую информацию из источников. Неполное покрытие информации может привести к неверным выводам. 3. **Cognitive Inefficiency ("Overthinking")**: Эта категория фокусируется на неэффективности процесса резонирования, когда модель "зацикливается" на некоторых аспектах, неэффективно используя вычислительные ресурсы. Для реализации этого подхода, исследователи провели тщательную аннотацию данных с помощью человеческих экспертов, которые анализировали ошибки на каждом из этих уровней. Для подтверждения результатов, использовались также автоматические метрики, которые помогли оценить качество резонирования и выявить шаблоны ошибок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены серии экспериментов на большом корпусе данных, состоящем из много-шаговых вопросов и ответов. Исследователи использовали различные модели резонирования и провели сравнение их производительности. Результаты показали, что ошибки часто возникают из-за плохой интеграции информации из нескольких источников, что соотносится с категорией "Hops". Также, было обнаружено, что некоторые модели неэффективно используют ресурсы, что приводит к "Overthinking". Кроме того, было проведено сравнение точности моделей с их способностью к полному покрытию информации ("Coverage"). Результаты показали, что модели, которые лучше улавливают всю необходимую информацию, чаще дают верные ответы. Однако, даже у лучших моделей были замечены ошибки, связанные с неэффективностью резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование предлагает практические решения для улучшения резонирующих моделей. Оно позволяет разработчикам лучше понимать причины ошибок и разрабатывать более эффективные модели. Это может быть применено в различных областях, где необходим глубокий анализ, таких как медицинский диагноз, финансовый анализ и другие сферы, где критично точность и полнота выводов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование показало, что систематический подход к диагностике ошибок может значительно повысить эффективность моделей резонирования. В будущем, этот подход может быть использован для разработки более надежных и прозрачных моделей, способных лучше справляться с сложными задачами много-шагового анализа. Дальнейшие исследования могут фокусироваться на автоматизации процесса диагностики ошибок и разработке новых методов для улучшения интеграции информации из нескольких источников.
Annotation:
The emergence of reasoning models and their integration into practical AI chat bots has led to breakthroughs in solving advanced math, deep search, and extractive question answering problems that requires a complex and multi-step thought process. Yet, a complete understanding of why these models hallucinate more than general purpose language models is missing. In this investigative study, we systematicallyexplore reasoning failures of contemporary language models on multi-hop question answering ...
ID: 2508.04699v1 cs.CL, cs.AI
Показано 14341 - 14350 из 14425 записей