📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

2025-08-08

Авторы:

Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Непрерывное обучение (continual learning) является ключевым фактором для развития искусственного общего интеллекта, особенно в контексте крупных языковых моделей (LLMs). Однако при непрерывной файн-тюнинге LLMs на различных доменах возникает проблема катастрофического забывания (catastrophic forgetting). Эта проблема проявляется в двух основных аспектах: существенное забывание общих возможностей модели и резкое снижение эффективности на ранее выученных задачах. Традиционные подходы к решению этой проблемы часто требуют больших вычислительных ресурсов или затрат на хранение данных. Это создает серьезные ограничения для практического применения LLMs в непрерывном обучении. Мотивацией данного исследования является разработка эффективного и стабильного метода для предотвращения катастрофического забывания, способного одновременно сохранять общие возможности модели и повышать её производительность на последовательных задачах. Такой подход должен быть простым в реализации и мало затратным в плане вычислений и хранения данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод General Sample Replay (GeRe), основанный на использовании обычных текстов предварительного обучения для эффективного предотвращения забывания. Основная идея GeRe заключается в повторном использовании небольшого, фиксированного набора общих образцов для поддержания стабильности активационных состояний модели во время непрерывного обучения. Кроме того, в рамках GeRe введен метод оптимизации с использованием потерь на основе пороговой маржи (TM-loss). Этот метод позволяет сохранять согласованность активационных состояний модели во время повторного обучения. TM-loss оптимизирует модель, учитывая разницу между текущими и предыдущими активационными состояниями, что помогает избежать переобучения и поддерживает стабильность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов, сравнивая TM-loss с другими стратегиями повторения, такими как ванильное фиттирование по меткам, имитация логитов через KL-дивергенцию и имитация функций через L1/L2 потери. Использовались контролируемые наборы данных для моделирования непрерывного обучения. Результаты показали, что TM-loss последовательно превосходит другие стратегии в плане качества и робастности. Метод позволяет эффективно сохранять общие возможности модели и повышает её производительность на последовательных задачах. Было также подтверждено, что небольшой набор общих репликационных образцов достаточен для достижения этих целей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод GeRe имеет широкое применение в областях, требующих непрерывное обучение LLMs, таких как адаптивные системы диалогов, анализ текстов в различных доменах и автоматическое обучение на основе потоковых данных. Благодаря низким затратам на вычисления и хранение, GeRe делает непрерывное обучение более доступным для практического использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что использование фиксированного набора общих образцов в сочетании с TM-loss является эффективным способом для предотвращения катастрофического забывания в LLMs. Будущие исследования могут фокусироваться на дальнейшей оптимизации метода для более сложных сценариев и расширения его применимости к различным архитектурам моделей.

Annotation:

The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usua...

ID: 2508.04676v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models

2025-08-06

Авторы:

Pingchuan Ma, Xiaopei Yang, Yusong Li, Ming Gui, Felix Krause, Johannes Schusterbauer, Björn Ommer

**Резюме:** SCFlow — это новое решение для неявного разделения стиля и содержания в визуальных моделях, которое избегает заморочки с явным разделением этих концептов. Обычно это сложно из-за их семантического перекрытия и субъективности человеческого восприятия. Существующие методы пытаются отделить стиль и содержание через генеративные или дискриминативные подходы, но сталкиваются с неоднозначностью этих задач. SCFlow использует подход flow-matching, чтобы обучить модель непосредственно слиянию стиля и содержания в обратимом процессе, позволяя разделение возникать естественным образом. Основные идеи заключаются в том, что: 1) обучение только на слияние этих концептов — это хорошо определенная задача; 2) flow-matching работает на произвольных распределениях, не ограничиваясь нормальными распределениями как в диффузионных моделях и нормализующих потоках; 3) синтетический датасет из 510 тысяч образцов (51 стиля × 10 тысяч содержаний) был создан для симуляции данного процесса. Кроме того, SCFlow демонстрирует хорошие результаты в задачах контролируемой генерации и нулевого шота на ImageNet-1k и WikiArt, показывая, что разделение содержания и стиля возникает естественным образом из обратимого процесса слияния.

Annotation:

Explicitly disentangling style and content in vision models remains challenging due to their semantic overlap and the subjectivity of human perception. Existing methods propose separation through generative or discriminative objectives, but they still face the inherent ambiguity of disentangling intertwined concepts. Instead, we ask: Can we bypass explicit disentanglement by learning to merge style and content invertibly, allowing separation to emerge naturally? We propose SCFlow, a flow-matchin...

ID: 2508.03402v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation

2025-08-06

Авторы:

Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun

**Резюме:** Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus. Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.

Annotation:

X-ray medical report generation is one of the important applications of artificial intelligence in healthcare. With the support of large foundation models, the quality of medical report generation has significantly improved. However, challenges such as hallucination and weak disease diagnostic capability still persist. In this paper, we first construct a large-scale multi-modal medical knowledge graph (termed M3KG) based on the ground truth medical report using the GPT-4o. It contains 2477 entit...

ID: 2508.03426v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 BitsAI-Fix: LLM-Driven Approach for Automated Lint Error Resolution in Practice

2025-08-06

Авторы:

Yuanpeng Li, Qi Long, Zhiyuan Yao, Jian Xu, Lintao Xie, Xu He, Lu Geng, Xin Han, Yueyan Chen, Wenbo Duan

Увеличивающийся объём линтер-ошибок в корпоративных кодовых базах превысил возможности ручного исправления. Авторы предлагают BitsAI-Fix — автоматизированный пайплайн на базе LLM, который с помощью tree-sitter расширяет контекст, генерирует патчи в формате search-and-replace, перезапускает линтер и оставляет только прошедшие проверки изменения. Система обучается прогрессивным RL: на холодном старте формирует верифицируемые примеры, после развёртки собирает онлайн-фидбек по «code diff matching». Целевая функция сочетает корректность, минимальность изменений и правильность формата. В продакшене ByteDance решение обслуживает 5 000 инженеров, разрешило >12 000 ошибок с точностью 85 % и привлекает ~1 000 активных пользователей в неделю, демонстрируя жизнеспособность LLM-подхода для масштабного автоматического ремонта кода.

Annotation:

As enterprise codebases continue to grow in scale and complexity, the volume of lint errors far exceeds engineers' manual remediation capacity, leading to continuous accumulation of technical debt and hindered development efficiency. This paper presents BitsAI-Fix, an automated lint error remediation workflow based on Large Language Models (LLMs), designed to address this critical challenge in industrial-scale environments. BitsAI-Fix employs tree-sitter for context expansion and generates searc...

ID: 2508.03487v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-06

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

Статья решает задачу прогнозирования многомерных временных рядов при очень большом количестве входов. Классические методы главных компонент не учитывают целевую переменную и теряют предиктивную информацию. Предложенный SDDP-фреймворк использует нейросеть, которая взвешивает исходные признаки пропорционально их полезности для прогноза; на полученных «таргет-ориентированных» данных затем применяется динамический PCA. Это делает латентные факторы одновременно компактными, интерпретируемыми и максимально предиктивными. Расширение на частично наблюдаемые признаки позволяет работать с реальными пропусками. На четырёх публичных наборах (макроэкономика, финансы, энергетика) SDDP существенно превосходит DR-методы и state-of-the-art модели по точности, а факторы легко интерпретируются экспертами.

Annotation:

This paper studies the problem of dimension reduction, tailored to improving time series forecasting with high-dimensional predictors. We propose a novel Supervised Deep Dynamic Principal component analysis (SDDP) framework that incorporates the target variable and lagged observations into the factor extraction process. Assisted by a temporal neural network, we construct target-aware predictors by scaling the original predictors in a supervised manner, with larger weights assigned to predictors ...

ID: 2508.03546v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations at eBay

2025-08-06

Авторы:

Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире электронной коммерции, где конкуренция среди продавцов постоянно растет, одним из ключевых факторов успешности рекламных кампаний является правильный выбор ключевых фраз для торгов на платформах, таких как eBay. Рекомендации по ключевым фразам должны быть релевантными и точно соответствовать интересам продавцов, а также поисковым запросам пользователей. Однако, из-за сложности получения негативных оценок от пользователей в больших масштабах, многие исследования начали использовать большие языковые модели (LLM) в качестве инструмента для имитации суждений продавцов. Основная проблема заключается в том, что традиционные модели на основе встраиваний (EBR) подвержены различным предвзятостям из-за данных о кликах, что может приводить к рекомендациям нерелевантных ключевых фраз. Это требует разработки новых методов, которые могли бы эффективно устранять такие предвзятости и обеспечивать высокую точность рекомендательных систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют инновационный двухшаговый процесс дистилляции LLM, который направлен на устранение предвзятостей в модели EBR. Методология включает использование LLM в качестве "судьи", который помогает скорректировать модель, чтобы она лучше соответствовала ожиданиям продавцов. Процесс дистилляции осуществляется через кросс-энкодер, который выступает в роли посредника между учителем LLM и учеником - би-энкодером. Используя подход мультизадачной тренировки, би-энкодер обучается извлекать релевантные ключевые фразы для рекламодателей. Эта методология позволяет эффективно интегрировать сигналы от LLM, улучшая производительность би-энкодера в сложных условиях реального мира. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты с использованием данных от eBay. В процессе экспериментов сравнивалась производительность традиционной модели на основе встраиваний с новой моделью, улучшенной за счет дистилляции LLM. Результаты показали, что интеграция знаний от LLM в мультизадачной тренировочной среде значительно улучшает способность би-энкодера извлекать релевантные ключевые фразы. Более того, новая модель продемонстрировала устойчивость к предвзятостям, характерным для данных о кликах, что привело к более точным рекомендациям и, как следствие, улучшению восприятия продавцами системы рекомендаций. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие перспективы применения в области электронной коммерции, особенно в контексте платформ с высокой конкуренцией, таких как eBay. Улучшение точности рекомендаций по ключевым фразам может способствовать увеличению эффективности рекламных кампаний, что, в свою очередь, приводит к повышению доходов продавцов и улучшению пользовательского опыта. Использование LLM для дистилляции знаний также открывает новые возможности для применения в других областях, где важно учитывать человеческие суждения и минимизировать предвзятости в данных. Таким образом, метод имеет потенциал для значительного влияния на развитие рекомендательных систем в целом. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данного исследования является разработка эффективного метода дистилляции знаний от LLM для улучшения производительности моделей извлечения ключевых фраз. Этот метод не только устраняет предвзятости, но и обеспечивает соответствие рекомендаций ожиданиям пользователей, что является ключевым аспектом в контексте рекламных платформ. В будущем исследования могут быть направлены на дальнейшую оптимизацию предложенной архитектуры и расширение ее применения на другие сферы, требующие точных рекомендаций. Также перспективным направлением является изучение возможности интеграции других типов данных и методов машинного обучения для повышения адаптивности и точности рекомендательных систем.

Annotation:

Sellers at eBay are recommended keyphrases to bid on to enhance the performance of their advertising campaigns. The relevance of these keyphrases is crucial in avoiding the overcrowding of search systems with irrelevant items and maintaining a positive seller perception. It is essential that keyphrase recommendations align with both seller and Search judgments regarding auctions. Due to the difficulty in procuring negative human judgment at scale, employing LLM-as-a-judge to mimic seller judgmen...

ID: 2508.03628v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Agent Lightning: Train ANY AI Agents with Reinforcement Learning

2025-08-06

Авторы:

Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang

Современные методы дообучения LLM-агентов через RL требуют либо глубокой переработки кода агента, либо громоздкого конкатенирования последовательностей с маскированием. Авторы предлагают фреймворк Agent Lightning, который полностью развязывает исполнение агента от процесса обучения. Система представляет выполнение агента как марковский процесс принятия решений и через единый интерфейс преобразует любые траектории (LangChain, OpenAI Agents SDK, AutoGen или «самописные» агенты) в обучающие переходы без изменения кода агента. Введённый RL-алгоритм LightningRL с модулем кредитного присвоения справляется со сложными сценариями: мульти-агентные взаимодействия, динамические workflow. Эксперименты на задачах text-to-SQL, RAG и использовании математических инструментов показали стабильный рост качества, подтверждая пригодность фреймворка для практического дообучения и развёртывания агентов.

Annotation:

We present Agent Lightning, a flexible and extensible framework that enables Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for any AI agent. Unlike existing methods that tightly couple RL training with agent or rely on sequence concatenation with masking, Agent Lightning achieves complete decoupling between agent execution and training, allowing seamless integration with existing agents developed via diverse ways (e.g., using frameworks like LangChain, OpenAI Agents ...

ID: 2508.03680v1 cs.AI, cs.LG

arXiv PDF

Показано 1681 - 1687 из 1687 записей