📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом для решения многих задач, однако, когда речь идет о работе с длинными контекстами, их производительность сильно снижается из-за явления проактивного вмешательства (proactive interference). Это случается, когда неуместная информация из ранних частей контекста мешает рациональному мышлению и восстановлению памяти. До сих пор, многие исследования были направлены на создание внешних систем памяти, которые дополняют возможности LLMs. Однако, эти методы часто требуют значительных изменений в архитектуре модели или дополнительной подготовки. Проблема в том, что LLMs должны уметь эффективно управлять своей внутренней памятью и вниманием, чтобы справиться с длинными контекстами. Традиционные подходы, такие как увеличение длины контекста или использование внешних мемориальных систем, не всегда эффективны в борьбе со специфичными проблемами, такими как неуместное воздействие неактуальной информации. Это подчеркивает необходимость разработки новых методов, которые позволят LLMs активно управлять своим контекстом и фокусироваться на актуальной информации. В этой статье предлагается новый подход, называемый Sculptor, который разработан для активного управления контекстом LLMs. Он позволяет моделям самостоятельно формировать и оптимизировать свою внутреннюю рабочую память, подобно тому, как человек выбирает актуальную информацию, отбрасывая неактуальную. Этот подход основывается на идее "скульптурирования" контекста, где LLMs могут активно управлять информацией, которая доступна им для рассмотрения, что повышает их эффективность в решении задач с длинными контекстами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Sculptor представляет собой фреймворк, основанный на трех основных компонентах, которые позволяют LLMs управлять своим контекстом: 1. **Context Fragmentation (Фрагментация Контекста)**: Этот компонент позволяет разделять длинный контекст на более мелкие, управляемые фрагменты. Это помогает LLMs сосредоточиться на актуальных частях без необходимости обрабатывать весь контекст целиком. 2. **Summary, Hide, and Restore (Создание Кратких Сводок, Скрытие и Восстановление)**: Sculptor позволяет LLMs сжимать информацию в краткие сводки, скрывать несущественные детали, и восстанавливать важные части контекста когда это необходимо. Это позволяет моделям сосредоточиться на ключевых моментах, не теряя важные данные. 3. **Intelligent Search (Интеллектуальный Поиск)**: Эта функция позволяет LLMs искать и извлекать релевантную информацию из контекста, используя специальные алгоритмы поиска. Это помогает моделям быстро находить нужные данные, не предоставляя им неактуальных или несвязанных частей контекста. Эти компоненты вместе позволяют LLMs активно управлять своей рабочей памятью, что помогает минимизировать влияние неактуальной информации и повышает точность рассуждений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Sculptor, были проведены эксперименты на двух наборах данных: PI-LLM (Proactive Interference LLM) и NeedleBench Multi-Needle Reasoning. Эти наборы данных представляют задачи, требующие обработки длинных контекстов с высокой информативностью и требующих высокой точности рассуждений. В результате экспериментов было показано, что Sculptor значительно повышает производительность LLMs, даже без необходимости специального тренировочного набора данных. Это достигается благодаря тому, что LLMs могут естественно освоить и использовать инструменты Sculptor для управления своим контекстом. Кроме того, результаты показали, что Sculptor не только уменьшает влияние проактивного вмешательства, но также повышает надежность и точность рассуждений LLMs на различных типах задач. Это подтверждает, что активное управление контекстом является ключевым фактором для улучшения производительности LLMs при работе с длинными контекстами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость Sculptor заключается в том, что этот подход может быть применен в различных областях, где необходимо обрабатывать большие объемы информации. Например, в области медицинского диагностирования, юридического анализа, или финансового мониторинга, где контекст может быть чрезвычайно длинным и содержать множество несвязанных деталей. Преимущества Sculptor включают в себя улучшенную эффективность LLMs, уменьшение ошибок, связанных с неактуальной информацией, и повышение надежности рассуждений. Это может привести к более надежным и точным решениям в задачах, требующих обработки длинных и сложных контекстов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, Sculptor представляет собой новый подход к управлению контекстом в LLMs, который позволяет моделям активно формировать свою рабочую память и фокусироваться на релевантной информации. Этот метод показал значительные улучшения в производительности LLMs при работе с длинными контекстами, даже без необходимости специальной подготовки. В будущем, этот подход может быть развит для решения более широкого круга задач, включая многомодальные контексты и задачи, требующие динамического управления информацией. Более того, Sculptor может быть интегрирован в другие модели и архитектуры, чтобы улучшить их производительность в различных приложениях.
Annotation:
Large Language Models (LLMs) suffer from significant performance degradation when processing long contexts due to proactive interference, where irrelevant information in earlier parts of the context disrupts reasoning and memory recall. While most research focuses on external memory systems to augment LLMs' capabilities, we propose a complementary approach: empowering LLMs with Active Context Management (ACM) tools to actively sculpt their internal working memory. We introduce Sculptor, a framew...
ID: 2508.04664v1 cs.CL, cs.AI, cs.LG
Авторы:

Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Непрерывное обучение (continual learning) является ключевым фактором для развития искусственного общего интеллекта, особенно в контексте крупных языковых моделей (LLMs). Однако при непрерывной файн-тюнинге LLMs на различных доменах возникает проблема катастрофического забывания (catastrophic forgetting). Эта проблема проявляется в двух основных аспектах: существенное забывание общих возможностей модели и резкое снижение эффективности на ранее выученных задачах. Традиционные подходы к решению этой проблемы часто требуют больших вычислительных ресурсов или затрат на хранение данных. Это создает серьезные ограничения для практического применения LLMs в непрерывном обучении. Мотивацией данного исследования является разработка эффективного и стабильного метода для предотвращения катастрофического забывания, способного одновременно сохранять общие возможности модели и повышать её производительность на последовательных задачах. Такой подход должен быть простым в реализации и мало затратным в плане вычислений и хранения данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод General Sample Replay (GeRe), основанный на использовании обычных текстов предварительного обучения для эффективного предотвращения забывания. Основная идея GeRe заключается в повторном использовании небольшого, фиксированного набора общих образцов для поддержания стабильности активационных состояний модели во время непрерывного обучения. Кроме того, в рамках GeRe введен метод оптимизации с использованием потерь на основе пороговой маржи (TM-loss). Этот метод позволяет сохранять согласованность активационных состояний модели во время повторного обучения. TM-loss оптимизирует модель, учитывая разницу между текущими и предыдущими активационными состояниями, что помогает избежать переобучения и поддерживает стабильность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов, сравнивая TM-loss с другими стратегиями повторения, такими как ванильное фиттирование по меткам, имитация логитов через KL-дивергенцию и имитация функций через L1/L2 потери. Использовались контролируемые наборы данных для моделирования непрерывного обучения. Результаты показали, что TM-loss последовательно превосходит другие стратегии в плане качества и робастности. Метод позволяет эффективно сохранять общие возможности модели и повышает её производительность на последовательных задачах. Было также подтверждено, что небольшой набор общих репликационных образцов достаточен для достижения этих целей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод GeRe имеет широкое применение в областях, требующих непрерывное обучение LLMs, таких как адаптивные системы диалогов, анализ текстов в различных доменах и автоматическое обучение на основе потоковых данных. Благодаря низким затратам на вычисления и хранение, GeRe делает непрерывное обучение более доступным для практического использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что использование фиксированного набора общих образцов в сочетании с TM-loss является эффективным способом для предотвращения катастрофического забывания в LLMs. Будущие исследования могут фокусироваться на дальнейшей оптимизации метода для более сложных сценариев и расширения его применимости к различным архитектурам моделей.
Annotation:
The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usua...
ID: 2508.04676v1 cs.CL, cs.AI, cs.LG
Показано 371 - 372 из 372 записей