📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs

2025-08-08

Авторы:

Dengzhao Fang, Jingtong Gao, Chengcheng Zhu, Yu Li, Xiangyu Zhao, Yi Chang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Рекомендательные системы являются ключевым элементом современных онлайн-платформ, позволяющих пользователям эффективно ориентироваться в обширных каталогах товаров, сервисов или контента. В последнее время генеративные рекомендательные системы привлекли значительное внимание, так как они позволяют объединить традиционные этапы "поиска и ранжирования" в единый конечно-этапный процесс, основанный на динамическом генерировании рекомендаций. Однако существующие генеративные методы сталкиваются с серьёзными ограничениями, связанными с их неконтролируемым токенизационным процессом. Этот процесс приводит к формированию семантических идентификаторов (Semantic IDs), которые имеют две критические проблемы. Во-первых, семантические ID являются "плоскими" и неинтерпретируемыми, не имеющими чёткой иерархической структуры. Это ограничивает возможность понимания их семантического контекста. Во-вторых, эти идентификаторы подвержены проблеме "пересечения представлений" (ID collisions), которая влечёт за собой неточность и снижение разнообразия рекомендаций. Такие недостатки существенно ограничивают эффективность и качество генеративных рекомендательных моделей. Для решения этих проблем авторы предлагают HiD-VAE, новый фреймворк, который позволяет получать иерархически десентрализованные (disentangled) представления товаров или контента. Эта модель нацелена на улучшение качества и интерпретируемости семантических ID, что является важной задачей для улучшения точности и разнообразия генеративных рекомендаций. ## ПРЕДЛОЖЕННЫЙ МЕТОД HiD-VAE представляет собой инновационный фреймворк, основанный на двух основных инновационных компонентах. Во-первых, HiD-VAE использует **иерархически контролируемый квантизационный процесс** (hierarchically-supervised quantization), который выравнивает дискретные коды с многоуровневыми тегами товаров. Это позволяет получить более униформные и десентрализованные идентификаторы. Особенно важной характеристикой этого процесса является то, что обученные кодобуки (codebooks) могут предсказывать иерархические теги, обеспечивая прозрачный и интерпретируемый семантический путь для каждой рекомендации. Во-вторых, для борьбы с проблемой "пересечения представлений" HiD-VAE использует **новую функцию потерь "уникальности"** (uniqueness loss), которая напрямую штрафует за перекрытие в латентном пространстве. Это позволяет не только устранить проблему ID collisions, но и повысить разнообразие рекомендаций за счёт более полного использования пространства представлений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на трёх общедоступных наборах данных, чтобы продемонстрировать эффективность HiD-VAE по сравнению со стандартными методами. Результаты показали, что HiD-VAE превосходит современные методы по ключевым метрикам, таким как точность рекомендаций, разнообразие и интерпретируемость. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ HiD-VAE может быть применён в различных областях, где важна качественная и интерпретируемая рекомендация, таких как электронная коммерция, развлекательные платформы и системы контент-рекомендаций. Благодаря его способности генерировать высококачественные и десентрализованные идентификаторы, HiD-VAE может улучшить качество рекомендаций и повысить доверие пользователей к системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HiD-VAE является важным шагом в развитии генеративных рекомендательных систем, предлагая более точные и интерпретируемые семантические идентификаторы. В будущем этот метод может быть расширен для работы с более сложными иерархиями данных или для интеграции с другими генеративными моделями.

Annotation:

Recommender systems are indispensable for helping users navigate the immense item catalogs of modern online platforms. Recently, generative recommendation has emerged as a promising paradigm, unifying the conventional retrieve-and-rank pipeline into an end-to-end model capable of dynamic generation. However, existing generative methods are fundamentally constrained by their unsupervised tokenization, which generates semantic IDs suffering from two critical flaws: (1) they are semantically flat a...

ID: 2508.04618v1 cs.IR, cs.AI

arXiv PDF

📄 P-Aligner: Enabling Pre-Alignment of Language Models via Principled Instruction Synthesis

2025-08-08

Авторы:

Feifan Song, Bofei Gao, Yifan Song, Yi Liu, Weimin Xiong, Yuyang Song, Tianyu Liu, Guoyin Wang, Houfeng Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) играют ключевую роль в современных приложениях на основе искусственного интеллекта, предоставляя возможность взаимодействовать с пользователями в различных сферах. Однако, несмотря на их мощь, LLMs часто сталкиваются с проблемами выравнивания (alignment), когда их выходные данные не соответствуют ожиданиям пользователей. Эти проблемы могут возникать из-за неполного контекста, неоднозначных директив, неуместного тона или других недостатков в инструкциях. Неправильно выраженные инструкции могут привести к нежелательным результатам, включая небезопасность, недостоверность или несоответствие ценностям пользователя. Существующие подходы к выравниванию LLMs, такие как поиск в пространстве инструкций во время работы модели или переобучение модели на специально созданных данных, часто связаны с высокими затратами времени и вычислительных ресурсов. Кроме того, многие методы требуют создания пользовательских наборов данных с неясными критериями качества, что усложняет процесс разработки. Эти ограничения высокой стоимости и неопределенности требуют более эффективных решений для выравнивания инструкций. Целью данной работы является разработка метода, который позволяет эффективно выравнивать инструкции для LLMs до начала процесса декодирования, с целью улучшения качества результатов. Такой подход может существенно сократить затраты на поиск и обработку, оставаясь при этом высокоэффективным. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе представлен P-Aligner, легковесный модуль, который генерирует инструкции, сохраняющие оригинальные намерения, но выраженные в более удобной и предпочтительной для человека форме. P-Aligner обучается на датасете UltraPrompt, который был создан с помощью нового подхода на основе принципиального руководства и методологии Monte-Carlo Tree Search (MCTS). MCTS используется для систематического поиска в пространстве возможных инструкций, которые близки к предпочтениям человека. Этот метод позволяет генерировать высококачественные данные для обучения P-Aligner, который потом применяется для улучшения инструкций. Модуль P-Aligner работает путем преобразования инструкций в форму, которая лучше соответствует человеческим предпочтениям, не меняя основного смысла. Преимущество P-Aligner заключается в том, что он позволяет выполнять пре-алйнмент (pre-alignment) инструкций перед началом работы модели, что значительно сокращает время и затраты на поиск оптимальных данных во время выполнения. Это также обеспечивает более эффективное использование ресурсов при обработке запросов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности P-Aligner проведены широкие эксперименты на различных моделях и наборах данных. Результаты показывают, что P-Aligner значительно превосходит существующие базовые методы по различным показателям. Например, на модели GPT-4-turbo, P-Aligner достигает повышения средней win-rate на 28.35%, а на модели Gemma-2-SimPO – на 8.69%. В экспериментах использовались различные наборы данных для тестирования качества инструкций, сгенерированных P-Aligner. Результаты показывают, что обученный на UltraPrompt, P-Aligner эффективен в создании инструкций, которые лучше соответствуют человеческим предпочтениям. Также проведен анализ качества данных, стратегий поиска и временных затрат. Исследования показали, что P-Aligner не только эффективен в генерации качественных инструкций, но также обеспечивает низкие затраты времени и вычислительных мощностей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ P-Aligner представляет собой практически значимый подход к выравниванию LLMs с целью улучшения качества взаимодействия с пользователями. Этот модуль может быть интегрирован в различные приложения, где необходимо обеспечить безопасность, достоверность и соответствие человеческим ценностям. Одним из основных преимуществ P-Aligner является его низкая стоимость и высокая эффективность. Благодаря предварительному выравниванию инструкций, P-Aligner позволяет уменьшить накладные расходы на поиск оптимальных инструкций во время работы модели, что делает его пригодным для использования в реальных приложениях. Кроме того, P-Aligner может быть применен в сферах, где важно обеспечить высокое качество генерируемых текстов, таких как клиентские сервисы, образование, медицинские консультации и другие области, где точность и безопасность текстов имеют критическое значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был представлен P-Aligner – легковесный модуль для пре-алйнмента инструкций LLMs, который значительно улучшает качество выходных данных моделей. Этот метод обеспечивает эффективное преобразование инструкций в более человеко-предпочтительную форму, не затрагивая основной смысл. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения P-Aligner, а также на расширении его применимости к более широкому кругу моделей и задач. Также важно продолжить исследования по оптимизации стратегий поиска и снижению затрат времени и вычислительных ресурсов. P-Aligner может стать важной составляющей в развитии более эффективных и безопасных систем на основе LLMs.

Annotation:

Large Language Models (LLMs) are expected to produce safe, helpful, and honest content during interaction with human users, but they frequently fail to align with such values when given flawed instructions, e.g., missing context, ambiguous directives, or inappropriate tone, leaving substantial room for improvement along multiple dimensions. A cost-effective yet high-impact way is to pre-align instructions before the model begins decoding. Existing approaches either rely on prohibitive test-time ...

ID: 2508.04626v1 cs.CL, cs.AI

arXiv PDF

📄 A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation

2025-08-08

Авторы:

Yu Song, Zhigang Hua, Harry Shomer, Yan Xie, Jingzhe Liu, Bo Long, Hui Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Link Prediction (LP) представляет собой ключевую задачу в области графового машинного обучения, требующую прогнозирования существования связей между узлами в графе. Несмотря на значительные улучшения, достигнутые при помощи Графовых Нейронных Сетей (ГНС), существующие методы сталкиваются с рядом проблем. Во-первых, ограниченное количество данных для обучения, вызванное разреженной структурой графов, ограничивает эффективность обучения. Во-вторых, чувствительность к инициализации моделей может приводить к нестабильности результатов. В-третьих, трудности в обобщении при наличии сдвигов в распределении данных делают модели менее эффективными в реальных сценариях. Эти проблемы особенно актуальны в сферах, где доступные данные для обучения ограничены, а необходимость высокого качества прогнозов критична. Обычные подходы к LP основываются на конечном количестве меток и используют модели, которые не всегда эффективны при работе с новыми или незнакомыми наборами данных. Это вызывает потребность в создании более универсальных и адаптивных методов, способных эффективно переноситься на различные домены. Предобучение моделей на больших и разнообразных данных может стать решением этих проблем, однако для LP это задача сложная, так как она требует интеграции информации как на уровне узлов, так и на уровне связей. В данной статье авторы предлагают систематическое исследование предобучения для LP и разработку методологии, которая позволяет эффективно комбинировать информацию с разных уровней и обеспечивает высокую адаптивность к новым данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод предобучения для LP, основанный на комбинации модулей узлового и реберного уровня. Основная идея заключается в использовании стратегии late fusion, которая позволяет эффективно интегрировать информацию из этих модулей. Для обработки разнообразия данных во время предобучения авторы используют Mixture-of-Experts (MoE) фреймворк. Этот подход позволяет каждому "эксперту" сфокусироваться на отдельных паттернах в данных, что помогает избежать негативного переноса знаний (negative transfer). Для быстрой адаптации модели на новые данные предлагается использовать параметрически эффективную настройку (parameter-efficient tuning). Это позволяет модели быстро адаптироваться к новым задачам с минимальными вычислительными затратами. Такая стратегия также обеспечивает экономию ресурсов при работе с небольшими или специфичными датасетами. Архитектура состоит из нескольких ключевых компонентов: модули для обработки узлов и связей, MoE-структура для обработки разнообразия данных, и механизмы быстрой настройки моделей. Это позволяет создавать модели, которые обладают высокой гибкостью и эффективностью при работе на различных задачах LP. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на 16 различных датасетах, представляющих два домена. Результаты демонстрируют, что предложенный метод достигает высоких результатов в задачах LP в условиях ограниченных данных для обучения. Модель показывает лучшие результаты по сравнению со стандартными подходами, особенно в случаях, когда данные для обучения ограничены. Кроме того, авторы сравнивают свой подход с полностью обученными моделями и показывают, что предложенный метод достигает конкурентоспособных результатов, но с значительно нижей вычислительной сложностью (более 10,000 раз меньшая). Это подтверждает эффективность предложенного фреймворка в решении задач LP с минимальными вычислительными затратами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих эффективного решения задач LP, таких как рекомендательные системы, биоинформатика, и социальные сети. Благодаря высокой адаптивности и низким вычислительным затратам, данный подход может быть использован в сценариях, где данные для обучения ограничены, но необходим высокоточный прогноз связей. Преимущества метода включают в себя низкую сложность вычислительных ресурсов, возможность эффективной адаптации к новым данным, и высокую точность прогнозов в условиях ограниченного обучения. Это делает модель пригодной для использования в реальных приложениях, где эффективность и качество прогнозов играют критическую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был представлен первый систематический подход к предобучению моделей для LP, который эффективно интегрирует информацию с разных уровней и обеспечивает высокую адаптивность. Результаты экспериментов показывают, что предложенный метод не только достигает высоких результатов, но и значительно сокращает вычислительные затраты по сравнению с традиционными подходами. Будущие исследования могут фокусироваться на дальнейшем улучшении адаптивности моделей, расширении областей применения, а также на исследовании новых стратегий для еще более эффективного переноса знаний между задачами. Также может быть полезно исследовать влияние различных конфигураций MoE на качество предсказаний и работу модели в более сложных сценариях.

Annotation:

Link Prediction (LP) is a critical task in graph machine learning. While Graph Neural Networks (GNNs) have significantly advanced LP performance recently, existing methods face key challenges including limited supervision from sparse connectivity, sensitivity to initialization, and poor generalization under distribution shifts. We explore pretraining as a solution to address these challenges. Unlike node classification, LP is inherently a pairwise task, which requires the integration of both nod...

ID: 2508.04645v1 cs.LG, cs.AI

arXiv PDF

📄 LLM Collaboration With Multi-Agent Reinforcement Learning

2025-08-08

Авторы:

Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультиагентные системы (MAS) широко используются для моделирования и решения задач, в которых несколько агентов взаимодействуют друг с другом. Однако, несмотря на значительные успехи в области машинного обучения, большинство больших языковых моделей (LLM) обучаются независимо, не специально оптимизированной для координации действий между агентами. Это создает значительные ограничения для применения LLMs в контексте коллаборативной работы. Традиционные методы файн-тюнинга LLMs часто основываются на индивидуальных наградах для каждого агента, что требует сложного дизайна системы наград для стимулирования координации. Такой подход неэффективен и не всегда обеспечивает качественное взаимодействие между агентами. Кроме того, существующие методы не позволяют эффективно использовать преимущества координации в мультиагентных задачах, особенно в сложных ситуациях, требующих высокого уровня коллаборативности. Данная проблематика становится особенно актуальной в контексте задач, связанных с коллаборативным написанием текстов или программированием, где необходимо обеспечить высокую степень взаимодействия и качество результатов. Таким образом, необходимо разработать более эффективный подход для моделирования коллаборативного поведения LLMs с использованием мультиагентного обучения с подкреплением (MARL). ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается моделировать коллаборативное поведение LLMs как задачу кооперативного Multi-Agent Reinforcement Learning (MARL). Для решения этой задачи разработан алгоритм **Multi-Agent Group Relative Policy Optimization (MAGRPO)**, который сочетает современные методы обучения с подкреплением для LLMs и методы MARL. MAGRPO основывается на построении групповой политики, которая учитывает взаимодействие между агентами и оптимизирует их поведение в коллаборативном контексте. Алгоритм использует механизм относительной оптимизации политик для каждого агента, что позволяет добиться более эффективной координации без необходимости сложного дизайна системы наград. Архитектура MAGRPO включает в себя следующие компоненты: 1. **Мультиагентная модель**: Каждый агент представляет собой LLM, который обучается взаимодействовать с другими агентами в рамках коллаборативной задачи. 2. **Групповая политика**: Оптимизируется для всей группы агентов, учитывающая совместные действия и их влияние на конечный результат. 3. **Относительная оптимизация**: Алгоритм оптимизирует политику для каждого агента относительно поведения других агентов, что обеспечивает более стабильное и кооперативное поведение. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на задачах коллаборативного написания текстов и коллаборативного программирования. В экспериментах использовались различные датасеты, представляющие реальные сценарии взаимодействия агентов. Результаты показали, что файн-тюнинг LLMs с использованием MAGRPO значительно улучшает качество создаваемых ответов и эффективность коллаборативного процесса. Агенты, обученные с помощью MAGRPO, демонстрируют более высокую степень координации и качество генерируемых текстов по сравнению с традиционными методами файн-тюнинга. Кроме того, эксперименты подтвердили, что MAGRPO позволяет эффективно использовать методы MARL для LLMs, обеспечивая лучшую адаптацию к сложным коллаборативным сценариям. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих коллаборативной работы нескольких агентов. Например, в области автоматического написания текстов, программирования, игр и других ситуаций, требующих высокого уровня взаимодействия. Преимущества MAGRPO включают: - **Улучшенная координация**: Алгоритм обеспечивает более эффективное взаимодействие между агентами. - **Улучшенное качество результатов**: Генерируемые тексты и код имеют высокий уровень качества и соответствия задаче. - **Простота дизайна наград**: Отсутствие необходимости в сложном дизайне системы наград упрощает процесс обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе предложен новый подход для моделирования коллаборативного поведения LLMs с использованием MARL. Алгоритм MAGRPO показал высокую эффективность в задачах коллаборативного написания текстов и программирования. Будущие исследования могут сосредоточиться на расширении этого подхода для более сложных мультиагентных задач, а также на исследовании других методов MARL для LLMs. Также важно исследовать возможности применения этого подхода в реальных системах, требующих высокого уровня коллаборативности.

Annotation:

A large amount of work has been done in Multi-Agent Systems (MAS) for modeling and solving problems with multiple interacting agents. However, most LLMs are pretrained independently and not specifically optimized for coordination. Existing LLM fine-tuning frameworks rely on individual rewards, which require complex reward designs for each agent to encourage collaboration. To address these challenges, we model LLM collaboration as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. W...

ID: 2508.04652v1 cs.AI, cs.SE

arXiv PDF

📄 X-SAM: From Segment Anything to Any Segmentation

2025-08-08

Авторы:

Hao Wang, Limeng Qiao, Zequn Jie, Zhijian Huang, Chengjian Feng, Qingfang Zheng, Lin Ma, Xiangyuan Lan, Xiaodan Liang

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА Сегодняшние Large Language Models (LLMs) демонстрируют высокую эффективность в представлении широкого спектра знаний, но страдают от нехватки пиксельного уровня восприятия для конкретных задач визуального понимания. Эта проблема особенно заметна в области сегментации изображений, где необходимо выделять объекты на пиксельном уровне с высокой точностью. Segment Anything Model (SAM) является важной отметкой в развитии визуального понимания, но у него есть ограничения. SAM не может эффективно обрабатывать множественные маски предсказаний или выполнять категорийно-специфическую сегментацию, что ограничивает его применимость в реальных сценариях. Также SAM не позволяет объединить все задачи сегментации в единый модельный архитектуру, что затрудняет его гибкость и масштабируемость. Эта проблема приводит к необходимости разработки более универсальной модели, которая может объединить различные типы сегментации в едином рамках, улучшить восприятие на пиксельном уровне и поддерживать мультимодальное обучение. Мотивация заключается в том, чтобы создать фреймворк, который не только расширит возможности сегментации, но и позволит интегрировать различные типы визуальных данных и задач в единую модель, обеспечивая более глубокое и точное понимание. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем, авторы предлагают X-SAM, универсальный фреймворк на основе Multimodal Large Language Model (MLLM). Этот фреймворк расширяет парадигму сегментации с "segment anything" на "any segmentation", т.е. позволяет выполнять любые типы сегментации в едином модельном пространстве. Основное техническое решение заключается в введении новой концепции Visual GrounDed (VGD) сегментации, которая позволяет выделять все экземпляры объектов с использованием интерактивных визуальных признаков. Это позволяет MLLMs получать более точное пиксельное восприятие и интерпретируемость. X-SAM включает в себя несколько ключевых компонентов: 1. **Unified Framework**: Объединяет различные типы сегментации в единой архитектуре, что позволяет модели выполнять многократные сегментационные задачи без необходимости переключения между разными моделями. 2. **Visual GrounDed Segmentation**: Новая задача сегментации, где экземпляры объектов выделяются с помощью визуальных признаков в интерактивном режиме. Это повышает точность и интерпретируемость сегментации. 3. **Unified Training Strategy**: Создана стратегия обучения, которая поддерживает ко-обучение на нескольких датасетах, что позволяет модели эффективно использовать разнообразные источники данных для обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности X-SAM на различных задачах сегментации изображений. В экспериментах использовались различные датасеты, которые покрывали различные категории и сценарии сегментации. Результаты показали, что X-SAM достиг рекордных показателей на различных сегментационных задачах, превосходя существующие модели. Особенно заметно было улучшение в задачах множественной сегментации и категорийной сегментации, где X-SAM показал значительное превосходство по сравнению со стандартным SAM. Кроме того, модель демонстрировала высокую эффективность при обучении на различных датасетах, подтверждая гибкость и мощность его универсального подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ X-SAM имеет широкое применение в различных областях, где необходимо высокое качество сегментации изображений. Это может включать задачи в областях медицины, автономных транспортных систем, компьютерного зрения и многих других. Преимущества X-SAM заключаются в его универсальности, высокой точности и возможности обработки различных типов данных. Это делает его подходящим для решения сложных задач в реальных приложениях, где требуется точное восприятие изображений на пиксельном уровне. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен X-SAM, фреймворк, который расширяет возможности сегментации изображений за счет интеграции мультимодальных моделей и новой концепции VGD сегментации. Это позволяет достичь высокой точности и интерпретируемости в пиксельном восприятии. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая расширение ее возможностей для более широкого спектра задач и использования более сложных данных. Также, можно исследовать возможности интеграции X-SAM с другими моделями и приложениями в разных доменах. ```

Annotation:

Large Language Models (LLMs) demonstrate strong capabilities in broad knowledge representation, yet they are inherently deficient in pixel-level perceptual understanding. Although the Segment Anything Model (SAM) represents a significant advancement in visual-prompt-driven image segmentation, it exhibits notable limitations in multi-mask prediction and category-specific segmentation tasks, and it cannot integrate all segmentation tasks within a unified model architecture. To address these limita...

ID: 2508.04655v1 cs.CV, cs.AI

arXiv PDF

📄 YOLOv8-Based Deep Learning Model for Automated Poultry Disease Detection and Health Monitoring paper

2025-08-08

Авторы:

Akhil Saketh Reddy Sabbella, Ch. Lakshmi Prachothan, Eswar Kumar Panta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Птицеводство представляет собой критически важную отрасль мирового сельского хозяйства, обеспечивающую значительную долю белкового питания населения планеты. Однако распространение заболеваний среди птиц создает серьезную угрозу как для экономической устойчивости фермерских хозяйств, так и для продовольственной безопасности в целом. Традиционные методы диагностики заболеваний в птицеводстве полагаются исключительно на визуальный осмотр персонала, что сопряжено с множеством критических недостатков. Процесс ручного мониторинга является чрезвычайно трудоемким, требует значительных человеческих ресурсов и подвержен субъективным ошибкам, особенно при масштабных производствах с десятками тысяч голов птицы. Существующие проблемы усугубляются тем, что ранние стадии многих заболеваний протекают с минимальными внешними проявлениями, что делает своевременное выявление патологий практически невозможным при использовании традиционных методов. Задержка в диагностике приводит к быстрому распространению инфекций среди поголовья, что может привести к массовому падежу птицы, значительным экономическим потерям и даже необходимости полного ликвидации поголовья. Кроме того, в условиях крупных промышленных комплексов человеческий фактор становится не только источником ошибок, но и потенциальным вектором распространения заболеваний между секторами фермы. Необходимость в автоматизированных системах мониторинга здоровья птицы становится все более очевидной, особенно в контексте растущих требований к биобезопасности и необходимости снижения эксплуатационных расходов. Современные технологии компьютерного зрения и глубокого обучения предоставляют уникальную возможность создания систем, способных непрерывно и объективно оценивать состояние здоровья птицы в реальном времени, минимизируя человеческое вмешательство и повышая точность диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи автоматизированного мониторинга здоровья птицы авторы предложили использовать передовую архитектуру YOLO v8 (You Only Look Once version 8), представляющую собой современную систему компьютерного зрения для обнаружения объектов в реальном времени. Методология разработки системы включала несколько ключевых этапов, начиная от подготовки обширного аннотированного датасета и заканчивая оптимизацией модели для работы в условиях промышленной птицефермы. Первым этапом стало формирование большого массива высокоразрешающих изображений кур, охватывающих различные породы, возрастные группы и условия содержания. Изображения были тщательно аннотированы экспертами-ветеринарами, которые маркировали визуальные признаки заболеваний, включая патологические изменения в оперении, кожных покровах, глазах, изменения в осанке и поведении птицы. Аннотации включали как явные признаки болезней (поражения кожи, воспаления), так и тонкие поведенческие индикаторы (летаргия, нехарактерные движения, изменения паттернов питания). Архитектура YOLO v8 была выбрана благодаря своей способности обрабатывать изображения в реальном времени с высокой точностью. Модель была адаптирована под специфику задачи через fine-tuning с использованием трансферного обучения, что позволило ускорить процесс обучения и повысить качество распознавания. Особое внимание было уделено оптимизации модели для работы с ограниченными вычислительными ресурсами, характерными для фермерской инфраструктуры. Были реализованы механизмы предварительной фильтрации изображений для исключения случаев неинформативных кадров, а также алгоритмы слежения за объектами для предотвращения повторного анализа одних и тех же особей. Система была интегрирована с механизмом генерации своевременных предупреждений для фермеров через мобильные уведомления и панели управления. Алгоритм включал многоуровневую систему приоритетов, позволяющую оперативно реагировать на критические случаи, требующие немедленного вмешательства ветеринара. Дополнительно была реализована функция анализа трендов заболеваемости, позволяющая прогнозировать вспышки заболеваний на основе обнаруженных ранних признаков. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала всесторон

Annotation:

In the poultry industry, detecting chicken illnesses is essential to avoid financial losses. Conventional techniques depend on manual observation, which is laborious and prone to mistakes. Using YOLO v8 a deep learning model for real-time object recognition. This study suggests an AI based approach, by developing a system that analyzes high resolution chicken photos, YOLO v8 detects signs of illness, such as abnormalities in behavior and appearance. A sizable, annotated dataset has been used to ...

ID: 2508.04658v1 cs.CV, cs.AI

arXiv PDF

📄 HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models

2025-08-08

Авторы:

Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) диффузорные модели (DMs) представляют собой технологии, которые достигли выдающихся результатов в синтезе высококачественных изображений. Однако их впечатляющие результаты сопровождаются серьезными техническими ограничениями: большие размеры моделей, которые могут достигать 8-11 миллиардов параметров, делают их непригодными для использования на ресурсо-ограниченных устройствах, таких как мобильные телефоны или устройства обработки данных с ограниченными вычислительными мощностями. Это ограничение является критическим в контексте распространения моделей в реальных приложениях, где важно обеспечить эффективность работы и низкие требования к ресурсам. Таким образом, существует необходимость в разработке эффективных методов для сжатия таких моделей, которые могут сократить их размер и снизить вычислительные требования, не ухудшая их качество. Традиционные подходы к сжатию моделей, такие как прунинг (pruning) и квантование, часто сталкиваются с проблемой снижения качества выходных данных, что может быть критически важно в случае с T2I моделями, где высокое качество синтезированных изображений является основной целью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представляют **HierarchicalPrune**, фреймворк для сжатия больших моделей диффузоров, основанный на иерархическом понимании функциональных блоков. Этот метод работает в несколько этапов: 1. **Иерархический Позиционный Прунинг (Hierarchical Position Pruning)**: Этот шаг определяет и удаляет менее важные блоки модели, основываясь на их позиции в иерархической структуре модели. Более ранние блоки, ответственные за формирование семантических структур, остаются неизменными, в то время как более поздние блоки, отвечающие за тонкие текстурные детали, подвергаются удалению. 2. **Позиционное Сохранение Весов (Positional Weight Preservation)**: Этот этап защищает критически важные части модели, особенно ранние блоки, которые отвечают за формирование основной структуры и смысла изображения. 3. **Чувствительность-Ориентированная Дистилляция (Sensitivity-Guided Distillation)**: Этот процесс корректирует процесс трансфера знаний между моделями, основываясь на различиях в чувствительности разных блоков. Это позволяет оптимизировать процесс обучения и сохранять качество выходных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты показали, что **HierarchicalPrune** достигает значительных результатов в сжатии моделей. Сочетание прунинга с INT4 квантованием весов позволяет сократить размер модели с 15.8 ГБ до 3.2 ГБ, что составляет 77.5-80.4% уменьшения памяти. Также уменьшается время выполнения (латенция) в диапазоне 27.9-38.0% на различных типах GPU, как высокопроизводительных, так и потребительских. При этом, качество синтезированных изображений остается высоким: снижение GenEval счетчика составило всего 2.6%, а HPSv2 счетчик – 7% по сравнению с оригинальной моделью. Более того, пользовательские исследования с участием 85 человек показали, что качество изображений, сгенерированных HierarchicalPrune, оценивается как соответствующее качеству оригинальной модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **HierarchicalPrune** очевидны в контексте реальных приложений. Сокращение размера модели и увеличение эффективности ее выполнения позволяют использовать такие модели на мобильных устройствах, что значительно расширяет область их применения. Кроме того, эти модели могут быть использованы в областях, требующих быстрого и качественного генерации изображений, таких как дизайн, реклама, игровая индустрия и образование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ **HierarchicalPrune** демонстрирует значительные успехи в сжатии моделей диффузоров без существенного ухудшения качества. Будущие исследования могут фокусироваться на дальнейшей оптимизации этих методов для различных типов моделей и приложений, а также на исследовании возможностей применения таких моделей в реальных сценариях.

Annotation:

State-of-the-art text-to-image diffusion models (DMs) achieve remarkable quality, yet their massive parameter scale (8-11B) poses significant challenges for inferences on resource-constrained devices. In this paper, we present HierarchicalPrune, a novel compression framework grounded in a key observation: DM blocks exhibit distinct functional hierarchies, where early blocks establish semantic structures while later blocks handle texture refinements. HierarchicalPrune synergistically combines thr...

ID: 2508.04663v1 cs.CV, cs.AI

arXiv PDF

📄 Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

2025-08-08

Авторы:

Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом для решения многих задач, однако, когда речь идет о работе с длинными контекстами, их производительность сильно снижается из-за явления проактивного вмешательства (proactive interference). Это случается, когда неуместная информация из ранних частей контекста мешает рациональному мышлению и восстановлению памяти. До сих пор, многие исследования были направлены на создание внешних систем памяти, которые дополняют возможности LLMs. Однако, эти методы часто требуют значительных изменений в архитектуре модели или дополнительной подготовки. Проблема в том, что LLMs должны уметь эффективно управлять своей внутренней памятью и вниманием, чтобы справиться с длинными контекстами. Традиционные подходы, такие как увеличение длины контекста или использование внешних мемориальных систем, не всегда эффективны в борьбе со специфичными проблемами, такими как неуместное воздействие неактуальной информации. Это подчеркивает необходимость разработки новых методов, которые позволят LLMs активно управлять своим контекстом и фокусироваться на актуальной информации. В этой статье предлагается новый подход, называемый Sculptor, который разработан для активного управления контекстом LLMs. Он позволяет моделям самостоятельно формировать и оптимизировать свою внутреннюю рабочую память, подобно тому, как человек выбирает актуальную информацию, отбрасывая неактуальную. Этот подход основывается на идее "скульптурирования" контекста, где LLMs могут активно управлять информацией, которая доступна им для рассмотрения, что повышает их эффективность в решении задач с длинными контекстами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Sculptor представляет собой фреймворк, основанный на трех основных компонентах, которые позволяют LLMs управлять своим контекстом: 1. **Context Fragmentation (Фрагментация Контекста)**: Этот компонент позволяет разделять длинный контекст на более мелкие, управляемые фрагменты. Это помогает LLMs сосредоточиться на актуальных частях без необходимости обрабатывать весь контекст целиком. 2. **Summary, Hide, and Restore (Создание Кратких Сводок, Скрытие и Восстановление)**: Sculptor позволяет LLMs сжимать информацию в краткие сводки, скрывать несущественные детали, и восстанавливать важные части контекста когда это необходимо. Это позволяет моделям сосредоточиться на ключевых моментах, не теряя важные данные. 3. **Intelligent Search (Интеллектуальный Поиск)**: Эта функция позволяет LLMs искать и извлекать релевантную информацию из контекста, используя специальные алгоритмы поиска. Это помогает моделям быстро находить нужные данные, не предоставляя им неактуальных или несвязанных частей контекста. Эти компоненты вместе позволяют LLMs активно управлять своей рабочей памятью, что помогает минимизировать влияние неактуальной информации и повышает точность рассуждений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Sculptor, были проведены эксперименты на двух наборах данных: PI-LLM (Proactive Interference LLM) и NeedleBench Multi-Needle Reasoning. Эти наборы данных представляют задачи, требующие обработки длинных контекстов с высокой информативностью и требующих высокой точности рассуждений. В результате экспериментов было показано, что Sculptor значительно повышает производительность LLMs, даже без необходимости специального тренировочного набора данных. Это достигается благодаря тому, что LLMs могут естественно освоить и использовать инструменты Sculptor для управления своим контекстом. Кроме того, результаты показали, что Sculptor не только уменьшает влияние проактивного вмешательства, но также повышает надежность и точность рассуждений LLMs на различных типах задач. Это подтверждает, что активное управление контекстом является ключевым фактором для улучшения производительности LLMs при работе с длинными контекстами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость Sculptor заключается в том, что этот подход может быть применен в различных областях, где необходимо обрабатывать большие объемы информации. Например, в области медицинского диагностирования, юридического анализа, или финансового мониторинга, где контекст может быть чрезвычайно длинным и содержать множество несвязанных деталей. Преимущества Sculptor включают в себя улучшенную эффективность LLMs, уменьшение ошибок, связанных с неактуальной информацией, и повышение надежности рассуждений. Это может привести к более надежным и точным решениям в задачах, требующих обработки длинных и сложных контекстов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, Sculptor представляет собой новый подход к управлению контекстом в LLMs, который позволяет моделям активно формировать свою рабочую память и фокусироваться на релевантной информации. Этот метод показал значительные улучшения в производительности LLMs при работе с длинными контекстами, даже без необходимости специальной подготовки. В будущем, этот подход может быть развит для решения более широкого круга задач, включая многомодальные контексты и задачи, требующие динамического управления информацией. Более того, Sculptor может быть интегрирован в другие модели и архитектуры, чтобы улучшить их производительность в различных приложениях.

Annotation:

Large Language Models (LLMs) suffer from significant performance degradation when processing long contexts due to proactive interference, where irrelevant information in earlier parts of the context disrupts reasoning and memory recall. While most research focuses on external memory systems to augment LLMs' capabilities, we propose a complementary approach: empowering LLMs with Active Context Management (ACM) tools to actively sculpt their internal working memory. We introduce Sculptor, a framew...

ID: 2508.04664v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 How are CS students using resources and AI tools for coding tasks?

2025-08-08

Авторы:

Natalia Echeverry, Arun Lekshmi Narayanan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование проводится в контексте стремительной интеграции искусственного интеллекта в образовательные процессы, особенно в области программирования. С появлением инструментов вроде GitHub Copilot, ChatGPT, CodeT5 и других AI-ассистентов, студенты компьютерных наук получили доступ к мощным средствам автоматизации кодирования, отладки и объяснения концепций. Однако несмотря на массовое распространение этих технологий, остается неясным, как именно студенты используют AI-инструменты в повседневной учебной практике, какие задачи они доверяют алгоритмам, а какие предпочитают решать традиционными методами, и как варьируются паттерны использования в зависимости от уровня опыта кодирования. Существующая проблематика включает несколько аспектов. Во-первых, отсутствует систематическое понимание того, как AI-ассистенты влияют на процесс обучения программированию: способствуют ли они глубокому пониманию концепций или, наоборот, создают иллюзию компетентности. Во-вторых, неясно, как соотносится использование AI-инструментов с традиционными источниками помощи вроде документации, онлайн-форумов, помощи преподавателей и коллег. В-третьих, открытым остается вопрос о потенциальном цифровом неравенстве: могут ли студенты с разным уровнем начального опыта по-разному эффективно использовать AI-ассистентов. Наконец, существуют этические и педагогические опасения по поводу академической честности и необходимости адаптировать методики преподавания к новой реальности. Мотивация исследования заключается в необходимости получить эмпирические данные для информирования преподавателей, разработчиков образовательных программ и самих студентов о том, как наилучшим образом интегрировать AI-инструменты в образовательный процесс, не разрушая при этом фундаментальные принципы обучения программированию и сохраняя баланс между эффективностью и глубиной понимания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование применяет смешанный метод, сочетающий количественный онлайн-опрос с качественными интервью. Выборка состоит из 26 студентов компьютерных наук разных курсов и уровней опыта (от начинающих до продвинутых). Ключевым методом сбора данных является структурированный опросник, включающий 47 вопросов, охватывающих следующие области: демографические характеристики, год обучения, самооценка уровня навыков программирования, частота использования различных AI-инструментов, типы задач, для которых используются AI-ассистенты, предпочитаемые источники помощи при решении разных типов проблем. Опросник структурирован по блокам: первый блок фокусируется на использовании AI-ассистентов для написания кода (GitHub Copilot, CodeWhisperer, TabNine), второй - на использовании AI-чатботов для отладки и объяснения ошибок (ChatGPT, Claude, Bard), третий - на сравнении эффективности AI-инструментов с традиционными источниками помощи. Для каждого типа задачи респонденты оценивали частоту использования разных ресурсов по 5-балльной шкале Ликерта. Дополнительно проводятся полуструктурированные интервью с подмножеством участников (n=8) для получения более глубоких качественных данных о мотивации выбора конкретных инструментов, стратегиях применения AI-ассистентов, проблемах и барьерах использования. Интервью анализируются с использованием тематического анализа для выявления повторяющихся паттернов использования и вариаций в зависимости от уровня опыта. Методология включает статистический анализ для выявления корреляций между уровнем опыта и предпочтениями в использовании ресурсов, анализ кластеров для идентификации типичных профилей использования AI-инструментов, и регрессионный анализ для предсказания вероятности использования конкретного типа помощи на основе характеристик студента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Основные результаты опроса показывают четкую иерархию предпочтений в использовании ресурсов для разных типов задач. Для написания нового кода на первом месте оказались онлайн-поиски (средний балл 4.2 из 5), за которыми следуют AI-ассистенты для кодирования (3.8), документация (3.5), помощь коллег (2.9) и помощь преподавателей (2.4). Наиболее удивительным результатом стало то

Annotation:

A survey of 26 CS students reveals that AI coding assistants are mainly used for writing code (second to online searches) while AI chatbots are the top resource for debugging. Participants with different coding experience prefer online help over direct human help from peers and instructors.

ID: 2508.04667v1 cs.HC, cs.AI

arXiv PDF

📄 GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

2025-08-08

Авторы:

Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Непрерывное обучение (continual learning) является ключевым фактором для развития искусственного общего интеллекта, особенно в контексте крупных языковых моделей (LLMs). Однако при непрерывной файн-тюнинге LLMs на различных доменах возникает проблема катастрофического забывания (catastrophic forgetting). Эта проблема проявляется в двух основных аспектах: существенное забывание общих возможностей модели и резкое снижение эффективности на ранее выученных задачах. Традиционные подходы к решению этой проблемы часто требуют больших вычислительных ресурсов или затрат на хранение данных. Это создает серьезные ограничения для практического применения LLMs в непрерывном обучении. Мотивацией данного исследования является разработка эффективного и стабильного метода для предотвращения катастрофического забывания, способного одновременно сохранять общие возможности модели и повышать её производительность на последовательных задачах. Такой подход должен быть простым в реализации и мало затратным в плане вычислений и хранения данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод General Sample Replay (GeRe), основанный на использовании обычных текстов предварительного обучения для эффективного предотвращения забывания. Основная идея GeRe заключается в повторном использовании небольшого, фиксированного набора общих образцов для поддержания стабильности активационных состояний модели во время непрерывного обучения. Кроме того, в рамках GeRe введен метод оптимизации с использованием потерь на основе пороговой маржи (TM-loss). Этот метод позволяет сохранять согласованность активационных состояний модели во время повторного обучения. TM-loss оптимизирует модель, учитывая разницу между текущими и предыдущими активационными состояниями, что помогает избежать переобучения и поддерживает стабильность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов, сравнивая TM-loss с другими стратегиями повторения, такими как ванильное фиттирование по меткам, имитация логитов через KL-дивергенцию и имитация функций через L1/L2 потери. Использовались контролируемые наборы данных для моделирования непрерывного обучения. Результаты показали, что TM-loss последовательно превосходит другие стратегии в плане качества и робастности. Метод позволяет эффективно сохранять общие возможности модели и повышает её производительность на последовательных задачах. Было также подтверждено, что небольшой набор общих репликационных образцов достаточен для достижения этих целей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод GeRe имеет широкое применение в областях, требующих непрерывное обучение LLMs, таких как адаптивные системы диалогов, анализ текстов в различных доменах и автоматическое обучение на основе потоковых данных. Благодаря низким затратам на вычисления и хранение, GeRe делает непрерывное обучение более доступным для практического использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что использование фиксированного набора общих образцов в сочетании с TM-loss является эффективным способом для предотвращения катастрофического забывания в LLMs. Будущие исследования могут фокусироваться на дальнейшей оптимизации метода для более сложных сценариев и расширения его применимости к различным архитектурам моделей.

Annotation:

The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usua...

ID: 2508.04676v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
3392
3393
3394
3395
3396
3402
3403

Показано 33931 - 33940 из 34022 записей