📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Kun Peng, Cong Cao, Hao Peng, Zhifeng Hao, Lei Jiang, Kongjing Gu, Yanbing Liu, Philip S. Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема извлечения четырёхкомпонентных структур (target-aspect-opinion-sentiment quadruple) в рамках диалогов представляет собой одну из ключевых задач в области анализа настроения (sentiment analysis). Диалоги, в отличие от текстов с единым авторством, характеризуются многокруглыми обсуждениями, в которых участвуют несколько интерлокуторов, часто с неявными или контекстуальными связями. Традиционные методы анализа настроения в диалогах строятся на предположении, что существует единое распределение элементов настроения в рамках всего диалога. Однако это предположение часто не соответствует действительности. Диалоги могут содержать несколько семантически независимых поддиалогов, соотношение между которыми не всегда очевидно. Такая сложность приводит к значительному увеличению шума при извлечении элементов настроения, так как модели пытаются установить связи между словами, которые фактически не относятся друг к другу. Это может привести к неточным результатам и понижению качества извлечения. Кроме того, существующие методы часто не учитывают структурную и семантическую комплексность диалогов, что делает задачу извлечения четырёхкомпонентных структур ещё более сложной. Ключевой проблемой является необходимость разделения диалога на семантически независимые части, чтобы уменьшить шум и повысить точность извлечения. Однако простое разделение диалога на основе ответов или последовательных сообщений не гарантирует сохранение семантической целостности. Таким образом, необходимо разработать более информированный подход, который мог бы оптимально разделять диалоги на поддиалоги, сохраняя в то же время важные семантические связи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный подход, основанный на алгоритме структурного энтропийного минимизации (structural entropy minimization) для разделения диалогов на семантически независимые поддиалоги. Этот метод позволяет выделить те утверждения (utterances), которые несут релевантную информацию, отделяя их от несвязанных или менее важных частей. Алгоритм оптимизирует разделение, минимизируя энтропию, что гарантирует максимальное сохранение связанной информации и исключение шума. Помимо разделения, авторы предлагают двухступенчатый фреймворк для извлечения четырёхкомпонентных структур. На первом этапе выделяются отдельные элементы настроения (target, aspect, opinion, sentiment) на уровне каждого утверждения. На втором этапе производится сопоставление этих элементов на уровне поддиалогов, что позволяет формировать полные четырёхкомпонентные структуры. Ключевой архитектурной особенностью этого метода является его способность сохранить контекстуальные связи между элементами настроения в рамках поддиалогов, избегая ошибок, вызванных несвязанными утверждениями. Такой подход позволяет существующим моделям извлечения настроения работать более эффективно и точно, снижая влияние шума. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели широкий спектр экспериментов на датасетах, предназначенных для задачи DiaASQ. Эти датасеты включают диалоги с несколькими интерлокуторами и несколькими раундами обсуждения. Результаты показали, что предложенный метод значительно превосходит существующие подходы по метрикам точности и полноты извлечения четырёхкомпонентных структур. Кроме того, эксперименты показали, что использование алгоритма структурного энтропийного минимизации для разделения диалогов на поддиалоги значительно сокращает время вычислений и снижает вычислительные затраты. Это делает метод более эффективным с точки зрения ресурсов, необходимых для обработки больших диалогов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих детального анализа диалогов, таких как обработка естественного языка (NLP), анализ медиа-контента, и анализ отзывов клиентов. Благодаря его способности точно извлекать четырёхкомпонентные структуры, он может быть использован для автоматического мониторинга отзывов, определения ключевых тем обсуждения, и повышения качества взаимодействия в чат-ботах. Преимущества этого метода заключаются в его высокой точности, низких вычислительных затратах и способности эффективно обрабатывать сложные структуры диалогов. Это делает его применимым в различных отраслевых приложениях, где необходимо понимание контекста и точное извлечение элементов настроения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод значительно улучшает качество извлечения четырёхкомпонентных структур в диалогах, обеспечивая высокую точность и низкие вычислительные затраты. Однако дальнейшие исследования могут быть направлены на улучшение алгоритма структурного энтропийного минимизации для ещё более тонкого разделения диалогов. Кроме того, могут быть исследованы возможности применения этого подхода к другим типам текстовых данных, таким как социальные медиа или мультимодальные диалоги.
Annotation:
Dialogues Aspect-based Sentiment Quadruple Extraction (DiaASQ) aims to extract all target-aspect-opinion-sentiment quadruples from a given multi-round, multi-participant dialogue. Existing methods typically learn word relations across entire dialogues, assuming a uniform distribution of sentiment elements. However, we find that dialogues often contain multiple semantically independent sub-dialogues without clear dependencies between them. Therefore, learning word relationships across the entire ...
ID: 2508.05023v1 cs.CL, cs.AI
Авторы:

Shu Han Ho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема представления и понимания смысла предложений лежит в основе многих прикладных задач компьютерной лингвистики. За последние годы в этой области было достигнуто значительное прогрессирование, однако существующие модели часто сталкиваются со сложностями в обработке семантических структур, особенно в случаях сложных или неявных отношений между концептами. Одним из перспективных подходов является использование Abstract Meaning Representation (AMR) – формализма, который кодирует смысл предложения в виде структурированных графов, где узлы обозначают концепты, а ребра – семантические отношения. Несмотря на ряд успехов в области AMR-парсинга, многие современные методы требуют сложных пайплайнов, включающих предварительную обработку, специализированные архитектуры и тщательное настройку гиперпараметров. Кроме того, многие из этих моделей требуют значительных вычислительных ресурсов и не всегда обеспечивают оптимальное балансирование между структурной валидностью и семантической точностью. В последнее время Large Language Models (LLMs) стали важной тенденцией в компьютерной лингвистике за счет их универсальности и возможности файнтюнинга для специфических задач. Однако оценка возможностей декодер-only LLMs в задачах AMR-парсинга оставалась недостаточно исследованной. Эта проблематика ставит под сомнение, могут ли простые методы файнтюнинга LLMs достичь результатов, сравнимых со сложными современными методами AMR-парсинга. Данная статья направлена на исследование этого вопроса, оценивая возможности четырех различных архитектур LLMs в контексте AMR-парсинга. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была предпринята стратегия файнтюнинга четырех различных архитектур LLMs: Phi 3.5, Gemma 2, LLaMA 3.2 и DeepSeek R1 LLaMA Distilled. Цель заключалась в оценке их способности к AMR-парсингу с использованием минимальных модификаций и стандартных подходов к файнтюнингу. Для реализации эксперимента был использован LDC2020T02 Gold AMR3.0 test set как основной датасет. Архитектура каждой модели оставалась в оригинальном виде, но доработана специфическими методами для обработки входных данных в формате AMR. Основной акцент был сделан на сохранении простоты процесса файнтюнинга, чтобы оценить естественные способности LLMs в работе с семантическими графами. Для Phi 3.5 и Gemma 2 были использованы стандартные настройки файнтюнинга, ориентированные на повышение точности распознования семантических отношений. Для LLaMA 3.2 и DeepSeek R1 LLaMA Distilled были доработаны методы кодирования входных данных, чтобы оптимизировать представление структур графов. Финальная модель LLaMA 3.2 показала лучшие результаты в терминах сбалансированного сочетания семантической точности и структурной валидности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов была проведена оценка качества AMR-парсинга на основе метрики SMATCH F1, которая измеряет точность сопоставления предсказанных и истинных графов. Результаты показали, что LLaMA 3.2 достигает SMATCH F1 в 0.804 на полном тестовом наборе LDC2020T02, что соответствует результатам APT + Silver (IBM) и приближается к Graphene Smatch (MBSE) на 0.854. Phi 3.5 показала высокую структурную валидность, однако ее семантическая точность была ниже, чем у LLaMA 3.2. Это подтверждает гипотезу о том, что различные архитектуры LLMs могут иметь различные сильные стороны в контексте AMR-парсинга. Gemma 2 и DeepSeek R1 LLaMA Distilled также демонстрировали приемлемые результаты, но не достигали уровня LLaMA 3.2 в терминах общей производительности. Эти результаты подтверждают, что простой файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно в контексте LLaMA 3.2. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование демонстрирует практическую значимость использования LLMs в задачах AMR-парсинга. Благодаря простоте файнтюнинга и высокой производительности, модель LLaMA 3.2 может быть использована в различных приложениях, таких как семантический анализ текста, машинный перевод и системы вопросо-ответ. Особенно важно отметить, что высокие результаты LLaMA 3.2 были достигнуты без необходимости сложной настройки или дополнительных модификаций, что делает эту модель привлекательной для практического применения в промышленных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Настоящее исследование показывает, что файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно при использовании модели LLaMA 3.2. Однако существуют возможности для дальнейших улучшений, включая оптимизацию архитектуры для более точного представления семантических отношений и структурных характеристик графов. Будущие исследования могут фокусироваться на разработке более сложных методов файнтюнинга, а также на исследовании возможностей других архитектур LLMs в контексте AMR-парсинга. Кроме того, важным направлением может быть интеграция LLMs с другими методами семантического анализа для достижения еще более высоких результатов.
Annotation:
Meaning Representation (AMR) is a semantic formalism that encodes sentence meaning as rooted, directed, acyclic graphs, where nodes represent concepts and edges denote semantic relations. Finetuning decoder only Large Language Models (LLMs) represent a promising novel straightfoward direction for AMR parsing. This paper presents a comprehensive evaluation of finetuning four distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA Distilled using the LDC2020T02 Gold AMR3.0 t...
ID: 2508.05028v1 cs.CL, cs.AI
Авторы:

Sitong Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Креативные процессы, такие как написание текстов, проектирование программного обеспечения и создание музыки, зачастую основываются на неявных структурных моделях, известных как схемы (schemas). Эти схемы помогают организовывать идеи, структурировать подходы к решению задач и направлять творческий поиск. Однако их открытие и применение представляют значительные трудности, особенно в сложных или незнакомых областях. Схемы часто остаются неявными или трудно доступными для пользователей, что создает препятствия для эффективного использования их потенциала в творческих процессах. В настоящее время существует значительная потребность в развитии инструментов и методов, которые могли бы облегчить процесс обнаружения и использования схем. Такие инструменты могли бы помочь пользователям в процессе смысловая организации (sensemaking) на основе примеров, позволяя извлекать абстрактные модели и преобразовывать их в действенные решения. Особенно важно обеспечить прозрачность и коллаборативность взаимодействия человека с ИИ, чтобы сделать неявные знания более доступными и пригодными для применения в практических задачах. Исследование, проведенное Ситонг Вангом, направлено на разработку фреймворка для обнаружения и применения схем в сотрудничестве человека и ИИ. Целью этого исследования является поддержка творческого процесса решения задач путем создания систем, которые облегчают смысловую организацию и операционизацию схем в рабочих процессах. Такой подход может улучшить доступность имплицитных знаний и способствовать развитию более прозрачных и совместных систем человека-ИИ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанный фреймворк включает в себя два ключевых этапа: смысловую организацию на основе примеров и операционизацию схем в рабочие процессы. На первом этапе пользователи работают с примерами, используя системы, которые помогают им выделять общие модели и структуры. Этот процесс включает анализ данных, выявление закономерностей и абстрагирование ключевых компонентов схем. На втором этапе схемы преобразуются в рабочие процессы, где ИИ и человек сотрудничают для их применения в решении задач. Это включает в себя разработку интерфейсов и систем, которые позволяют пользователям взаимодействовать с ИИ для конструирования и оптимизации решений. Методология основывается на идее создания прозрачных и адаптивных систем, где ИИ помогает пользователям выявлять и использовать неявные знания. Архитектура фреймворка включает в себя модули для анализа данных, визуализации схем и их применения в реальных задачах. Интерфейсы разработаны таким образом, чтобы обеспечить интуитивно понятное взаимодействие, позволяющее пользователям легко манипулировать и применять схемы в своих проектах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности разработанного фреймворка проведены эксперименты, в которых участвовали пользователи различных доменов. Данные для экспериментов взяты из реальных сценариев, таких как проектирование программного обеспечения и создание музыки. Результаты показали, что пользователи смогли эффективно выявлять схемы из примеров и применять их в своих задачах. В результатах показано, что фреймворк улучшил качество решений и сделал процесс решения задач более эффективным. Пользователи отметили высокую прозрачность и полезность системы, а также улучшенную способность к творчеству и проблемно-ориентированному мышлению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкий спектр практических приложений. Он может быть использован в областях, таких как дизайн, разработка программного обеспечения, музыкальное творчество и даже в образовании. Он позволяет пользователям более эффективно организовывать идеи, выявлять неявные шаблоны и создавать инновационные решения. Одним из главных преимуществ этого подхода является улучшенная прозрачность и коллаборативность взаимодействия человека с ИИ. Это может привести к более эффективному использованию ИИ в творческих процессах и повысить доступность новых технологий для широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование Ситонг Ванг показывает, что схемы могут быть эффективным инструментом для поддержки творческого процесса решения задач. Разработанный фреймворк демонстрирует потенциал для улучшения доступности и применения неявных знаний в различных областях. В будущем можно рассмотреть возможность расширения этого фреймворка для включения более сложных доменов и улучшения адаптивности системы к индивидуальным потребностям пользователей. Также важно продолжить исследования в области прозрачности и этики взаимодействия человека с ИИ.
Annotation:
Humans often rely on underlying structural patterns-schemas-to create, whether by writing stories, designing software, or composing music. Schemas help organize ideas and guide exploration, but they are often difficult to discover and apply, especially in complex or unfamiliar domains. My Ph.D. research develops a framework for human-AI schema discovery and application to support creative problem solving. I design systems that support users in sensemaking over examples to abstract schemas, and i...
ID: 2508.05045v1 cs.HC, cs.AI
Авторы:

Jinhyeok Jang, Jaehong Kim, Jung Uk Kim

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное глубокое обучение опирается на предварительно обученные веса (pre-trained weights) как на фундаментальный инструмент переноса знаний, особенно в условиях дефицита данных для конкретных задач. Однако существует фундаментальное ограничение: качество предобученных весов напрямую зависит от объема и разнообразия исходного датасета. Традиционные подходы к улучшению предобученных моделей фокусируются на увеличении размеров архитектур или сборе больших массивов данных, что требует значительных вычислительных ресурсов и времени. Авторы статьи поднимают принципиально новый вопрос: возможно ли синтезировать "знания", превосходящие те, что содержатся в исходном датасете, без фактического увеличения объема обучающих данных? Эта проблема особенно актуальна в контексте ограниченных ресурсов и необходимости эффективного использования уже имеющихся моделей. Исследователи обращают внимание на феномен "структурированного забывания" (structured forgetting) - процесса, при котором модель последовательно теряет информацию при обучении на уменьшенных датасетах. Ключевое наблюдение заключается в том, что этот процесс забывания имеет определенную структуру и предсказуемость, что открывает возможность его инверсии для восстановления "утраченных" знаний. Это представляет собой парадигмальный сдвиг в понимании роли забывания в обучении нейронных сетей - вместо рассмотрения его как негативного явления, авторы предлагают использовать забывание как механизм извлечения дополнительных знаний. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный подход KNowledge Overflowed Weights (KNOW) prediction, который использует мета-обучение для предсказания улучшенных предобученных весов. Методология строится на нескольких ключевых компонентах. Во-первых, создается контролируемый процесс забывания через последовательное дообучение (fine-tuning) модели на прогрессивно уменьшенных подмножествах исходного датасета. Это генерирует набор весовых переходов, которые формируют обучающую выборку для мета-модели. Центральным элементом подхода является KNowledge Overflowed Weights Nowcaster (KNOWN) - гипермодель, которая изучает общие закономерности эволюции весов во время процесса забывания. KNOWN использует архитектуру трансформера для моделирования сложных нелинейных зависимостей между весами на различных этапах забывания. Модель обучается предсказывать финальные веса, которые будут соответствовать состоянию, как если бы модель была обучена на большем датасете, чем доступный. Ключевым техническим решением является использование обратного процесса (retrodiction) - инверсии процесса забывания для генерации "переполненных знаний" весов. Это достигается через оптимизацию мета-функции потерь, которая минимизирует разницу между предсказанными весами и оптимальными весами, полученными через идеальный процесс обучения на расширенном датасете. Метод также включает механизмы регуляризации для предотвращения переобучения и обеспечения устойчивости предсказаний. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования охватывает широкий спектр архитектур и датасетов для демонстрации универсальности предложенного подхода. Исследователи использовали ResNet-50, Vision Transformer (ViT-B/16) и BERT-base модели на датасетах ImageNet, CIFAR-100, CIFAR-10 и GLUE. Для создания процесса забывания использовались различные стратегии сэмплирования, включая случайное удаление классов и пропорциональное уменьшение данных каждого класса. Результаты показывают последовательное превосходство KNOW prediction над наивным дообучением и простыми методами предсказания весов. На ImageNet с ResNet-50 метод показал улучшение точности на 3.2% по сравнению с базовым дообучением при использовании только 50% исходных данных. Для ViT на CIFAR-100 улучшение составило 5.7% точности. Особенно впечатляющие результаты получены в режиме крайне ограниченных данных (1-5% от исходного датасета), где KNOW показал до 12% улучшения. Анализ обобщающей способности показал, что предсказанные веса демонстрируют лучшую трансферную эффективность на смежных задачах. Н
Annotation:
Pre-trained weights have become a cornerstone of modern deep learning, enabling efficient knowledge transfer and improving downstream task performance, especially in data-scarce scenarios. However, a fundamental question remains: how can we obtain better pre-trained weights that encapsulate more knowledge beyond the given dataset? In this work, we introduce \textbf{KNowledge Overflowed Weights (KNOW)} prediction, a novel strategy that leverages structured forgetting and its inversion to synthesi...
ID: 2508.05059v1 cs.LG, cs.AI, cs.CV
Авторы:

Ruiyu Li, Changyuan Qiu, Hangrui Cao, Qihan Ren, Yuqing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача автоматической раскраски изображений представляет собой один из наиболее интригующих вызовов в области компьютерного зрения, находящий применение в восстановлении старых фотографий, создании анимации, улучшении медицинской визуализации и кинематографии. Процесс заключается в добавлении реалистичных цветов к черно-белым изображениям, при этом две трети информации о цвете (составляющие U и V в пространстве YUV) безвозвратно утрачены. Это создает принципиальную неоднозначность задачи, поскольку один и тот же объект может иметь множество правдоподобных цветовых вариаций - например, автомобиль может быть красным, синим или зеленым без нарушения реальности. Традиционные подходы воспринимали раскраску как задачу регрессии, где модель предсказывает точные значения цветов. Однако такое формулирование игнорирует мультимодальную природу цветового восприятия - один объект может иметь множество допустимых цветовых решений. Более того, регрессионные методы стремятся к усреднению возможных вариантов, что приводит к тусклым, ненасыщенным результатам. Современные исследования показывают, что семантика сцены и текстурные особенности могут служить мощными подсказками для определения цветов: небо обычно голубое, трава зеленая, а облака белые. Доступность больших массивов обучающих данных (любое цветное изображение может быть использовано для обучения путем его обесцвечивания) создает уникальные возможности для обучения статистических приоров. Авторы работы предлагают переосмыслить задачу раскраски не как регрессию, а как задачу классификации с использованием состязательного обучения, что позволяет учесть мультимодальность цветового пространства и генерировать более реалистичные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод представляет собой гибридную архитектуру, объединяющую сверточные нейронные сети (CNN) и генеративно-состязательные сети (GAN) для решения задачи автоматической раскраски. В основе подхода лежит переход от регрессии к классификации цветового пространства с дискретизацией цветов в 313 бина в пространстве CIE Lab, что позволяет формализовать задачу как многоклассовую классификацию. Генератор представляет собой энкодер-декодер архитектуру на основе CNN, где энкодер использует предобученную сеть ResNet для извлечения высокоуровневых признаков из черно-белого изображения. Декодер представляет собой последовательность транспонированных сверток с пропусками (skip connections) для восстановления пространственного разрешения. Особенностью является использование dilated convolutions для увеличения рецептивного поля без потери разрешения, что критично для захвата глобального контекста изображения. Дискриминатор реализован как PatchGAN - сеть, классифицирующая реальность отдельных патчей изображения размером 70x70 пикселей вместо всего изображения целиком. Это позволяет модели сосредоточиться на локальных текстурах и деталях, что особенно важно для раскраски. Для стабилизации обучения используется WGAN-GP loss с градиентной пенализацией. Ключевой инновацией является внедрение механизма внимания на уровне признаков, который позволяет модели динамически приоритизировать различные части изображения при генерации цветов. Дополнительно используется perceptual loss на основе признаков предобученной сети VGG для сохранения перцептуального сходства между раскрашенным и реальным изображениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на нескольких датасетах различной природы: ImageNet (1.2 миллиона изображений), COCO-stuff (164 тысячи изображений с детальной сегментацией) и специально подготовленном наборе анимационных кадров. Для обучения использовались 90% данных, оставшиеся 10% - для валидации и тестирования. Все изображения были предварительно обработаны: изменены до разрешения 256x256 пикселей, нормализованы и преобразованы в пространство CIE Lab для разделения яркости и цветовой информации. Основными метриками качества служили Fréchet Inception Distance (FID) для оценки реалистичности результатов, Peak Signal-to-Noise Ratio (PSNR) для измерения точности восстановления, а также усредненная пользовательская оценка через A/B тестирование с участием 100 добровольцев. Предложенный метод достиг F
Annotation:
Image colorization, the task of adding colors to grayscale images, has been the focus of significant research efforts in computer vision in recent years for its various application areas such as color restoration and automatic animation colorization [15, 1]. The colorization problem is challenging as it is highly ill-posed with two out of three image dimensions lost, resulting in large degrees of freedom. However, semantics of the scene as well as the surface texture could provide important cues...
ID: 2508.05068v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Yongfu Zha, Xinxin Dong, Haokai Ma, Yonghui Yang, Xiaodong Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Персонализированная секвенциальная рекомендация является ключевым направлением при построении систем рекомендаций, целью которых является предсказание подходящих предметов для пользователей на основе их поведенческих последовательностей. Однако, существующие методы сталкиваются с проблемами, такими как разреженность данных и смещение интересов пользователей. Чтобы уменьшить эти недостатки, многие подходы используют вспомогательные данные из других доменов через переходы между доменами. В настоящее время, существующие методы кросс-доменной секвенциальной рекомендации (Cross-Domain Sequential Recommendation, CDSR) часто следуют парадигме "align-then-fusion" (выравнивание, затем слияние). Этот подход включает выравнивание представлений из разных доменов на уровне представлений, а затем механическое объединение их для формирования рекомендаций. Однако, такой подход игнорирует тонкую интеграцию доменно-специфических предпочтений, что может привести к недостаточной связности между доменами и неэффективному использованию вспомогательных данных. Недавние достижения в области диффузионных моделей (Diffusion Models, DMs) для выравнивания распределений показали возможность улучшения стабильности и точности моделей. Однако, в существующих рекомендательных системах, основанных на диффузионных моделях, существует проблема нестабильности, вызванная шумом, внедряемым в процессе диффузии. Это может привести к неточному моделированию предпочтений пользователей. Таким образом, необходимо разработать более эффективный метод для выравнивания и слияния предпочтений из разных доменов, который учитывает тонкие особенности каждого домена и уменьшает влияние шума. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый фреймворк для CDSR, называемый **HorizonRec**, который использует диффузионные модели для выравнивания и слияния предпочтений из трех доменов. Основной идеей является "align-for-fusion" (выравнивание для слияния), которая направлена на тонкую гармонизацию предпочтений пользователей из разных доменов. Для решения проблемы нестабильности, связанной с шумом в диффузионных моделях, авторы предлагают использовать стратегию **mixed-conditioned distribution retrieval** (смешанное извлечение условных распределений). Эта стратегия использует распределения, полученные из поведенческой логики пользователей, как семантические мосты между доменами. Это позволяет создать более согласованную модель предпочтений в многодоменном контексте. Кроме того, предлагается **dual-oriented preference diffusion method** (двунаправленный метод диффузии предпочтений), который позволяет подавлять шум и подчеркивать предпочтения, относящиеся к целевому домену, в процессе слияния представлений пользователей. Этот метод помогает усилить важность целевых интересов и снизить нежелательное влияние несвязанных или неточных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на четырех наборах данных CDSR, полученных с двух разных платформ. Эти наборы данных представляют собой реальные поведенческие последовательности пользователей, позволяющие провести комплексный анализ работы HorizonRec. Результаты экспериментов показывают, что HorizonRec значительно превосходит существующие методы CDSR в трех ключевых аспектах: 1. **Точность рекомендаций**: Модель достигает высокого уровня точности предсказания пользовательских предпочтений, особенно при работе с тремя доменами. 2. **Робастность**: Метод показывает стабильное поведение даже при наличии шума и неполных данных, что является важной характеристикой для реального применения. 3. **Сходимость доменно-специфических предпочтений**: Благодаря использованию стратегии mixed-conditioned distribution retrieval и двунаправленного метода диффузии, модель эффективно гармонизирует предпочтения из разных доменов, сохраняя их тонкую специфику. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод HorizonRec имеет широкое применение в области персонализированных рекомендаций, особенно в ситуациях, когда необходимо использовать данные из нескольких доменов для улучшения качества рекомендаций. Он может быть использован в различных приложениях, таких как: - **E-commerce**: Улучшение рекомендаций товаров для пользователей на основе их поведения в различных категориях. - **Онлайн-медиа**: Личностное предлагаемое контента (например, видео, музыки) на основе поведения пользователей в разных сферах. - **Туризм и гостиничный бизнес**: Рекомендации мест посещения или услуг на основе предпочтений пользователей в разных сферах (например, культура, развлечения, питание). Преимуществом данного метода является его способность обрабатывать несколько доменов одновременно, сохраняя тонкую специфику каждого домена, что делает его применимым в различных контекстах рекомендаций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк HorizonRec, который решает проблему неэффективного выравнивания и слияния предпочтений в кросс-доменной секвенциальной рекомендации. Используя диффузионные модели и стратегию mixed-conditioned distribution retrieval, HorizonRec достигает высокой точности и робастности в моделировании предпочтений пользователей в многодоменном контексте. Будущие исследования могут быть направлены на дальнейшее улучшение стабильности диффузионных моделей и расширение метода на более широкий класс задач, включая мультимодальные рекомендации и кросс-доменные задачи вне рекомендательных систем. Также, можно исследовать влияние различных типов шума на процесс диффузии и разработать более эффективные стратегии для уменьшения влияния шума на качество рекомендаций.
Annotation:
Personalized sequential recommendation aims to predict appropriate items for users based on their behavioral sequences. To alleviate data sparsity and interest drift issues, conventional approaches typically incorporate auxiliary behaviors from other domains via cross-domain transition. However, existing cross-domain sequential recommendation (CDSR) methods often follow an align-then-fusion paradigm that performs representation-level alignment across multiple domains and combines them mechanical...
ID: 2508.05074v1 cs.IR, cs.AI
Авторы:

Jinda Liu, Bo Cheng, Yi Chang, Yuan Wu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Parameter-Efficient Fine-Tuning (PEFT) является ключевым подходом для адаптации Large Language Models (LLMs) к новым задачам, особенно в условиях ограниченных вычислительных ресурсов. В настоящее время LLMs часто используются в многозадачных сценариях (Multi-Task Learning, MTL), требующих эффективной адаптации к различным доменам и задачам. Традиционный подход в MTL заключается в использовании многоадаптерных или многоголовных архитектур, таких как LoRA, которые предполагают структурную разнообразность для захвата уникальных особенностей каждой задачи. Однако этот подход сталкивается с проблемами, связанными с сложностью моделей, переобучением и снижением эффективности при одновременном обучении на нескольких задачах. Исследование Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning выдвигает критический взгляд на существующие парадигмы MTL. Авторы поднимают вопрос о том, насколько эффективны сложные многокомпонентные архитектуры при адаптации LLMs. Они показывают, что существующие подходы, основанные на многоадаптерных системах, могут быть не оптимальными. Вместо этого, исследование показывает, что упрощенные модели с высокой интер-головной схожестью (inter-head similarity) могут достичь более высокой эффективности. Это приводит к новой гипотезе: ключевым фактором успешной адаптации LLMs в MTL является обучение устойчивых общих представлений, а не изоляция задач-специфичных функций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы проверить эту гипотезу, авторы предлагают Align-LoRA, модификацию архитектуры LoRA, которая включает явное выравнивание (alignment) представлений задач в общем пространстве адаптера. В отличие от сложных многоадаптерных систем, Align-LoRA использует упрощенную структуру с единственным адаптером, но с более высоким рангом. Это позволяет модели фокусироваться на обучении общих представлений, сохраняя при этом возможность эффективной адаптации к нескольким задачам. Ключевой инновацией Align-LoRA является введение дополнительного лосса (loss), направленного на выравнивание представлений различных задач в общем пространстве. Это позволяет модели избегать чрезмерной специфичности для каждой задачи и поощряет формирование более универсальных и робастных представлений. Архитектура Align-LoRA проста в реализации и может быть легко интегрирована в существующие модели LoRA. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексный набор экспериментов для оценки эффективности Align-LoRA. Исследование включало в себя моделирование на различных наборах данных, представляющих различные домены и задачи. Результаты показали, что Align-LoRA значительно превосходит базовые модели, основанные на многоадаптерных системах, в терминах точности и общей эффективности. Кроме того, эксперименты показали, что увеличение ранга адаптера в стандартной LoRA также может привести к значительному улучшению результатов, что подтверждает гипотезу о важности обучения общих представлений. Авторы также продемонстрировали, что их подход эффективен даже при ограниченных вычислительных ресурсах, что делает его практичным для реального применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Align-LoRA может быть применен в различных областях, где необходима эффективная адаптация LLMs к множеству задач. Этот подход особенно важен в сферах, требующих высокой точности и быстрой адаптации, таких как здравоохранение, финансы и коммерческие приложения. Упрощенная архитектура также делает Align-LoRA доступным для организаций с ограниченными вычислительными мощностями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Align-LoRA представляет собой важное достижение в области PEFT и MTL, показывая, что упрощенные модели с высоким рангом и выравниванием представлений могут быть более эффективными, чем сложные многокомпонентные системы. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и масштабируемости этого подхода, а также на его применении в более широком диапазоне задач и доменов.
Annotation:
Parameter-Efficient Fine-Tuning (PEFT) is essential for adapting Large Language Models (LLMs). In practice, LLMs are often required to handle a diverse set of tasks from multiple domains, a scenario naturally addressed by multi-task learning (MTL). Within this MTL context, a prevailing trend involves LoRA variants with multiple adapters or heads, which advocate for structural diversity to capture task-specific knowledge. Our findings present a direct challenge to this paradigm. We first show tha...
ID: 2508.05078v1 cs.CL, cs.AI
Авторы:

Jiarun Liu, Chunhong Zhang, Zheng Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Преодоление сложностей навигации в веб-среде является ключевым тестом для искусственного общего интеллекта (Artificial General Intelligence, AGI). Окружения веб-навигации отличаются высокой энтропией, динамичностью и экспоненциально быстрым ростом возможных действий, что делает их крайне сложными для автономных агентов. Существующие подходы в этой области разделяются на две категории: офлайн обучение подразумевает имитацию поведения на основе предварительно собранных данных, тогда как онлайн-исследования фокусируются на динамическом поиске решений в реальном времени. Однако ни один из этих подходов не успешно интегрирует оба парадигмы, что является ключевым ограничением для создания эффективных веб-агентов. Эта проблема вдохновила исследование, основанное на двойной системе когнитивных процессов, известной как двойная система человеческого мышления. Эта теория подразумевает существование двух типов когнитивных процессов: быстрый, интуитивный «Система 1» и медленный, рациональный «Система 2». Такой подход может помочь в создании агентов, способных адаptive переключения между интуитивными реактивными реагированиями и рациональными, плановыми действиями в зависимости от сложности задачи. Это открывает путь к более эффективной и адаптивной навигации в веб-средах, но до сих пор не было предпринято попыток реализовать эту идею в практическом агентском фреймворке. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы авторы предлагают фреймворк CogniWeb, основанный на принципах двойной системы когнитивных процессов. Этот фреймворк состоит из двух основных компонентов: System 1, отвечающий за быстрое, интуитивное реагирование на внешние стимулы, и System 2, который выполняет более глубокий анализ и планирование. Архитектура CogniWeb построена таким образом, чтобы эти два компонента могли работать вместе, адаптируясь к сложности задачи. System 1 основан на моделях обучения с имитацией, которые позволяют агенту быстро реагировать на распространенные ситуации. Этот компонент использует предварительно обученные модели для выполнения простых задач без необходимости глубокого анализа. С другой стороны, System 2 использует более сложные модели, такие как модели планирования и принятия решений, которые позволяют агенту анализировать ситуацию более тщательно и выбирать оптимальный путь действий в более сложных ситуациях. CogniWeb также включает в себя механизм адаптивного переключения между System 1 и System 2. Этот механизм основан на оценке сложности задачи и выборе наиболее подходящего подхода. Например, если задача относительно простая, агент может использовать System 1 для быстрого решения. Если же задача требует более сложного анализа, агент переключается на System 2 для более глубокого рассмотрения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности CogniWeb авторы провели серию экспериментов на платформе WebArena, которая представляет собой симулятор веб-навигации с высокой сложностью и динамическими условиями. В эксперименте были использованы различные сценарии навигации, включая простые и сложные задачи. Результаты показали, что CogniWeb достиг 43,96% успешности в выполнении задач, что является конкурентноспособным результатом по сравнению с другими методами. Однако основным достижением было значительное сокращение использования токенов (то есть ресурсов, необходимых для обработки данных) на 75% по сравнению с другими подходами. Это говорит о более эффективном использовании ресурсов и потенциальной экономии вычислительной мощности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CogniWeb имеет широкое применение в области автономных веб-агентов. Его способность эффективно переключаться между интуитивным и рациональным мышлением делает его подходящим для решения задач с различным уровнем сложности. Это может быть использовано в различных приложениях, таких как поисковые системы, рекомендательные системы и автоматизированные сервисы навигации. Преимущества этого подхода заключаются в более эффективном использовании ресурсов, снижении времени выполнения и повышении точности принятия решений. Это может привести к значительному улучшению производительности веб-агентов и повышению их пригодности для реального мира. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования было показано, что фреймворк CogniWeb предлагает эффективный способ решения проблем навигации в веб-средах, используя принципы двойной системы когнитивных процессов. Этот подход не только показал высокую эффективность в решении задач, но также открыл новые возможности для дальнейших исследований в области AGI. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры CogniWeb, включая оптимизацию механизма переключения между System 1 и System 2, а также расширение его применимости к более широкому кругу задач. Также важно исследовать возможности интеграции этого подхода с другими методами AGI для создания еще более мощных и адаптивных систем.
Annotation:
Web navigation represents a critical and challenging domain for evaluating artificial general intelligence (AGI), demanding complex decision-making within high-entropy, dynamic environments with combinatorially explosive action spaces. Current approaches to building autonomous web agents either focus on offline imitation learning or online exploration, but rarely integrate both paradigms effectively. Inspired by the dual-process theory of human cognition, we derive a principled decomposition int...
ID: 2508.05081v1 cs.AI, cs.CL, cs.MA
Авторы:

Dexuan Xu, Jieyi Wang, Zhongyan Chai, Yongzhi Cao, Hanpin Wang, Huamin Zhang, Yu Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинские мультимодальные большие языковые модели (MLLMs) представляют собой передовое достижение в области искусственного интеллекта, которое позволяет эффективно объединить восприятие визуальной и текстовой информации. Эти модели имеют большое значение для медицинских приложений, в том числе для визуального вопросов-ответов, диагностики и поддержки принятия решений. Однако медицинская наука непрерывно развивается, и медицинские знания постоянно обновляются. Это поставляет серьезную проблему для MLLMs, которые должны быть способны эффективно обновлять свои знания без необходимости полной переобучения модели с нуля. Традиционно, в области искусственного интеллекта широко изучается проблема обновления текстовых знаний в моделях. Однако в медицинской области, где знания часто представлены не только в текстовом, но и в визуальном виде, существует значительный недостаток систематических подходов и бенчмарков для мультимодального обновления знаний. Это создает серьезные ограничения для разработки надежных и эффективных методов для обновления медицинских знаний в MLLMs. Проблематика заключается в том, что существующие подходы к обновлению знаний в MLLMs недостаточно учитывают специфику медицинских данных, которые часто включают в себя как текстовые, так и визуальные компоненты. Недостаток специализированных бенчмарков для оценки качества обновления медицинских знаний в мультимодальных моделях является ключевым барьером для развития этой области. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают MedMKEB - первый в своем роде комплексный бенчмарк, предназначенный для оценки эффективности и надежности методов обновления медицинских знаний в мультимодальных моделях. MedMKEB основывается на высококачественном датасете для визуального вопрос-ответ в медицине и включает в себя ряд заданий, специально разработанных для оценки различных аспектов медицинского обновления знаний. Бенчмарк состоит из нескольких задач, включая: 1. **Контрфактуальная коррекция** - проверяет способность модели корректировать неточные или устаревшие знания. 2. **Семантическая генерализация** - оценивает возможность модели применять обновленные знания в новых контекстах. 3. **Перенос знаний** - изучает как модель переносит знания из одного домена на другой. 4. **Адаптивность к противоположностям** - проверяет надежность модели в ситуациях, когда встречается непредусмотренная информация. MedMKEB также включает валидацию человеческими экспертами, что гарантирует высокое качество и точность данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий набор экспериментов на MedMKEB, включая одноразовые и последовательные задачи обновления знаний. Они использовали различные MLLMs, в том числе общие и специализированные медицинские модели, чтобы оценить их производительность. Результаты показали, что существующие методы обновления знаний недостаточно эффективны в медицинском контексте. Например, обновление знаний в мультимодальных моделях часто приводит к потере точности или несогласованности в результатах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MedMKEB имеет значительное практическое значение для разработки более надежных и эффективных методов обновления медицинских знаний. Он может быть использован для оценки и улучшения методологий в области медицинского искусственного интеллекта, особенно в сфере визуального вопрос-ответ и диагностики. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, MedMKEB является важной вкладкой в развитие медицинских MLLMs, поскольку он предоставляет комплексный инструмент для оценки и улучшения методов обновления знаний. Будущие исследования могут сосредоточиться на разработке более специализированных методов обновления знаний, которые будут лучше адаптированы к медицинским данным.
Annotation:
Recent advances in multimodal large language models (MLLMs) have significantly improved medical AI, enabling it to unify the understanding of visual and textual information. However, as medical knowledge continues to evolve, it is critical to allow these models to efficiently update outdated or incorrect information without retraining from scratch. Although textual knowledge editing has been widely studied, there is still a lack of systematic benchmarks for multimodal medical knowledge editing i...
ID: 2508.05083v1 cs.AI
Авторы:

Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Многомодальные большие языковые модели (MLLMs) становятся все более распространенными в различных приложениях, но их безопасность остается критическим вопросом. Одним из основных угроз являются **jailbreak-атаки**, направленные на обход систем безопасности и фильтров, чтобы получить нецензурные или вредные ответы. Доныне большая часть исследований в этой области сосредоточена на максимизации **attack success rate (ASR)**, то есть успешности обхода фильтров. Однако этот подход часто игнорирует качество самих генерируемых ответов. Даже если атака удается, генерируемые ответы могут не соответствовать настоящей цели атакующего, что приводит к низкому уровню **злонамеренного контента**. Эта проблема особенно актуальна в контексте современных MLLMs, где сочетание текста и изображений требует более глубокого понимания интеграции мультимодальных компонентов. Традиционные методы атак часто используют только текстовые промпты, не используя потенциал визуальных компонентов для улучшения результатов. Недостаток комплексного подхода к оптимизации визуальных и текстовых компонентов приводит к неэффективности атак. Данная работа предлагает решение этой проблемы, представляя метод **JPS** (Jailbreak MLLMs with Collaborative Visual Perturbation and Textual Steering), который интегрирует визуальные и текстовые компоненты для повышения качества и эффективности атак. Целью является не только обход систем безопасности, но и обеспечение высокого уровня соответствия ответов цели атакующего. ## ПРЕДЛОЖЕННЫЙ МЕТОД **JPS** представляет собой инновационный подход, который сочетает **target-guided adversarial image perturbations** (адверасарные визуальные изменения) и **steering prompt** (текстовое направление запроса) в единой координированной стратегии. Алгоритм оптимизирует эти компоненты взаимодействующим образом для максимизации эффективности атаки. 1. **Визуальная компонента**: JPS применяет адверасарные изменения к входящим изображениям, которые направлены на обход систем безопасности MLLMs. Эти изменения генерируются с помощью целевого руководства, что позволяет эффективно манипулировать восприятием модели. 2. **Текстовая компонента**: "Steering prompt" генерируется с помощью многоагентной системы, которая оптимизирует текстовый запрос таким образом, чтобы он руководил генерацией ответа моделью в соответствии с целями атакующего. Два компонента (визуальный и текстовый) проходят процесс **итеративной координированной оптимизации**, что позволяет достичь высокой эффективности атаки. Этот подход отличается от традиционных методов, которые обычно работают только с одним типом компонента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода JPS были проведены эксперименты на различных MLLMs и наборах данных. Результаты показывают, что JPS достигает рекордных показателей в **ASR** (Attack Success Rate) и **MIFR** (Malicious Intent Fulfillment Rate) по сравнению с предшествующими методами. 1. **Наборы данных**: Исследование проводилось на различных бенчмарках, включая стандартные датасеты для тестирования MLLMs. 2. **Метрики**: Были использованы две основные метрики: - **ASR**: Мера успешности обхода систем безопасности. - **MIFR**: Новая метрика, оценивающая качество генерируемых ответов с точки зрения выполнения цели атакующего. Она использует Reasoning-LLM для оценки соответствия ответов цели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод JPS имеет значительное практическое применение в области безопасности искусственного интеллекта. Он позволяет оценить уязвимости MLLMs и разработать более надежные методы защиты. Кроме того, JPS может быть использован для: - **Тестирования безопасности MLLMs** в реальных условиях. - **Обнаружения уязвимостей** в существующих системах фильтрации контента. - **Разработке усовершенствованных методов защиты** от атак на мультимодальные модели. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод **JPS**, который устанавливает новые стандарты в области атак на MLLMs, обеспечивая высокий уровень качества и соответствия цели атакующего. Будущие исследования могут фокусироваться на улучшении методов защиты MLLMs, а также на разработке новых метрик для оценки качества генерируемых ответов. Кроме того, дальнейшее исследование может включать в себя исследование других мультимодальных компонентов, таких как видео и аудио, для создания более комплексных методов атак и защиты.
Annotation:
Jailbreak attacks against multimodal large language Models (MLLMs) are a significant research focus. Current research predominantly focuses on maximizing attack success rate (ASR), often overlooking whether the generated responses actually fulfill the attacker's malicious intent. This oversight frequently leads to low-quality outputs that bypass safety filters but lack substantial harmful content. To address this gap, we propose JPS, \underline{J}ailbreak MLLMs with collaborative visual \underli...
ID: 2508.05087v1 cs.MM, cs.AI, cs.CL, cs.CR, I.2.7; K.4.1; K.6.5
Показано 33811 - 33820 из 34022 записей