📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуально-языковое отслеживание представляет собой быстроразвивающееся направление в компьютерном зрении, которое объединяет визуальную информацию из видеопоследовательностей с текстовыми описаниями целевого объекта. Традиционные методы визуального отслеживания сталкиваются с фундаментальной проблемой: они полагаются исключительно на визуальные признаки, что делает их негибкими и подверженными ошибкам при изменении внешнего вида объекта, появлении препятствий или в условиях сложных сцен. Текстовое описание объекта, содержащее семантическую информацию о его характеристиках, может существенно повысить надежность и точность отслеживания в долгосрочной перспективе. Существующие подходы к визуально-языковому отслеживанию страдают от нескольких ключевых ограничений. Первые работы просто объединяли фиксированные языковые описания с визуальными признаками без адаптивной способности реагировать на изменения внешнего вида объекта. Более современные методы используют механизмы внимания для модификации языковых признаков, но они не способны к глубокому пониманию контекста и семантически осмысленному обновлению описаний. Недавние исследования попытались применить генеративные модели для динамического обновления текстовых описаний, однако эти методы оказались "черными ящиками" - они не предоставляют интерпретируемую информацию о процессе принятия решений и не полностью используют потенциал больших языковых моделей. Критическая проблема заключается в отсутствии крупномасштабных долгосрочных бенчмарков для визуально-языкового отслеживания, что затрудняет объективную оценку методов и сравнение различных подходов. Долгосрочное отслеживание особенно сложно, так как требует устойчивости к полным исчезновениям объекта из кадра, его повторному появлению после длительного отсутствия и устойчивости к значительным изменениям внешнего вида. Эти вызовы требуют разработки новых методов, способных к рассуждениям и адаптивному обновлению текстовых описаний на основе накопленной информации о треке. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningTrack представляет собой инновационную рамку для визуально-языкового отслеживания, которая использует pre-trained мультимодальную модель Qwen2.5-VL в качестве основы. Ключевой концепцией является внедрение цепочки рассуждений (Chain-of-Thought) в процесс генерации и обновления текстовых описаний целевого объекта. В отличие от предыдущих работ, которые использовали статические или поверхностно обновляемые языковые признаки, ReasoningTrack динамически генерирует обоснованные текстовые описания, которые адаптируются к изменениям внешнего вида объекта на протяжении всей видеопоследовательности. Архитектура системы состоит из трех основных компонентов: модуля рассуждений на основе языковой модели, унифицированной трекинговой backbone-сети и предсказывающей головки. Модуль рассуждений использует Qwen2.5-VL для генерации последовательных рассуждений о текущем состоянии объекта на основе исторической информации и текущего визуального наблюдения. Эти рассуждения представлены в виде естественного языка и включают анализ изменений внешнего вида, потенциальных причин сбоев в отслеживании и обновленное описание объекта. Генерация текста оптимизируется через два этапа: сначала используется Supervised Fine-Tuning (SFT) для обучения базовой способности к рассуждениям, затем применяется алгоритм GRPO (Group Relative Policy Optimization) из области reinforcement learning для дальнейшего улучшения качества рассуждений и их полезности для задачи отслеживания. Обновленные языковые описания затем эмбедируются и объединяются с визуальными признаками в унифицированной backbone-сети, которая использует механизмы перекрестного внимания для эффективного взаимодействия между модальностями. Конечная трекинговая голова генерирует предсказания границ объекта на основе объединенных мультимодальных признаков. Уникальность подхода заключается в том, что языковые рассуждения не только предоставляют семантическую информацию, но и служат формой внешней памяти, сохраняя контекстуальную информацию о треке на протяжении времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для всесторонней оценки пред
Annotation:
Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however,...
ID: 2508.05221v1 cs.CV, cs.AI, cs.LG
Авторы:

Yiheng Liu, Junhao Ning, Sichen Xia, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) являются мощными инструментами в области естественного языка, но их развертывание в реальных приложениях часто сталкивается с проблемами, связанными со скоростью выполнения и потреблением GPU-памяти. Одним из ключевых подходов к решению этих проблем является структурная обрезка (structured pruning), которая позволяет сократить размер модели, удаляя менее важные единицы структуры, такие как нейроны или связи между ними. Однако существующие методы structured pruning часто игнорируют важный аспект LLMs — взаимодействие и сотрудничество между искусственными нейронами, которые критически важны для функциональности моделей. Традиционные подходы к обрезке основываются на оценке важности отдельных единиц структуры, но не учитывают макроскопическую архитектуру функциональных сетей в LLMs. Такой подход может привести к разрушению важных функциональных взаимосвязей, что, в свою очередь, снижает эффективность самой обрезки. Чтобы решить эту проблему, необходимо рассмотреть LLMs как комплексные системы, где взаимодействие между нейронами играет ключевую роль в поддержании их функциональности. Вдохновленные природными аналогами, такими как функциональные нейронные сети человеческого мозга, авторы предлагают новый подход к обрезке LLMs. Этот подход основывается на идентификации и сохранении функциональных сетей внутри модели, что позволяет сохранить ключевые функции модели даже после существенной её компрессии. Такой метод предлагает более глубокое понимание внутренней структуры LLMs и может повысить эффективность их работы в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках этого исследования авторы предлагают метод обрезки LLMs, основанный на идентификации и сохранении функциональных сетей. Они рассматривают LLMs как "цифровой мозг", который можно разбить на функциональные сети, аналогично тому, как в области нейроимеджинга идентифицируют функциональные сети мозга. Этот подход позволяет выделить ключевые нейроны, которые играют важную роль в обеспечении функциональности модели. Первым шагом является декомпозиция LLMs на функциональные сети. Для этого используются методы, аналогичные тем, что применяются в нейроимеджинге для анализа мозговых сетей. После идентификации этих сетей, авторы сохраняют ключевые нейроны, необходимые для поддержания функциональности сетей. Затем происходит фаза обрезки, в которой удаляются менее важные нейроны, не входящие в функциональные сети. Этот подход позволяет сократить размер модели, сохранив при этом её функциональность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Для этого использовались различные датасеты и модели LLMs. Результаты показали, что предлагаемый метод успешно идентифицирует и сохраняет функциональные сетей в LLMs, что приводит к более эффективной обрезке моделей. Кроме того, эксперименты показали, что сохранение ключевых нейронов внутри функциональных сетей позволяет сократить размер модели без существенного ухудшения качества её производительности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод обрезки LLMs имеет значительный практический потенциал. Он может быть применен для ускорения выполнения моделей и снижения потребления GPU-памяти, что делает LLMs более доступными для реального времени и мобильных приложений. Кроме того, этот подход может быть использован для оптимизации LLMs в различных доменах, где важна высокая скорость выполнения и низкие требования к ресурсам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предлагаемый метод обрезки LLMs представляет собой значительный шаг вперед в области компрессии моделей. Он не только позволяет сократить размер моделей, но и сохраняет их функциональность благодаря идентификации и сохранению ключевых функциональных сетей. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода и его применении к более широкому кругу задач и моделей.
Annotation:
Structured pruning is one of the representative techniques for compressing large language models (LLMs) to reduce GPU memory consumption and accelerate inference speed. It offers significant practical value in improving the efficiency of LLMs in real-world applications. Current structured pruning methods typically rely on assessment of the importance of the structure units and pruning the units with less importance. Most of them overlooks the interaction and collaboration among artificial neuron...
ID: 2508.05239v1 cs.CL, cs.AI, cs.LG
Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## КОНТЕКСТ И ПРОБЛЕМАТИКА Классификация пола является важной областью в различных приложениях, таких как слежение и наблюдение, корпоративное профайлинг, и взаимодействие человека с компьютером. Определение пола человека представляет собой форму мягкой биометрии, которая помогает в идентификации личности. За последние годы было разработано множество методов для определения пола, основанных на различных физических признаках, таких как лицо, отпечатки пальцев, отпечатки ладони, ДНК, ухо, шаг и рост ребра. Однако методы, основанные на физических характеристиках лица, являются самыми популярными и широко используемыми. Одним из наиболее перспективных биометрических признаков является рост ребра. Исследования показали, что рост ребра остается вероятно константным на протяжении всей жизни человека. Кроме того, рост ребра виден извне и не требует вторжения в организм пользователя, что делает его удобным и практичным для реальных приложений. Доступны хорошо разработанные методы для сегментации и кодирования изображений роста ребра, что облегчает выбор и извлечение векторов атрибутов из текстур роста ребра. Однако, несмотря на широкое распространение методов классификации пола, существуют некоторые проблемы и пробелы в этой области. Например, многие существующие методы страдают от недостатков в точности и надежности, особенно при работе с большими и разнообразными наборами данных. Кроме того, существует потребность в более глубоком анализе и сравнении различных подходов для классификации пола, чтобы понять их сильные и слабые стороны. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании предлагается детальный обзор и анализ различных методов классификации пола, основанных на росте ребра. Авторы предоставляют подробное описание методологий, используемых на различных этапах классификации пола. Обзор включает в себя различные подходы к сегментации и кодированию текстур роста ребра, а также методы извлечения и выбора векторов атрибутов. Авторы также обсуждают различные методы классификации, используемые в предыдущих исследованиях, и анализируют их эффективность. Они предлагают новые подходы и улучшения для существующих методов, направленные на повышение точности и надежности классификации пола. Кроме того, исследование охватывает использование различных алгоритмов машинного обучения и глубокого обучения для улучшения процесса классификации. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проводятся эксперименты с использованием различных наборов данных для оценки эффективности предлагаемых методов. Авторы используют как синтетические, так и реальные данные для тестирования и сравнения различных подходов к классификации пола. Результаты экспериментов показывают, что предлагаемые методы могут достигать высокой точности классификации, особенно при использовании современных методов машинного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Классификация пола имеет широкое применение в различных областях, таких как безопасность, маркетинг, и медицинские исследования. Использование роста ребра как биометрического признака предоставляет некоторые преимущества, такие как неинвазивность и константность на протяжении жизни. Это делает его привлекательным для практических приложений, где необходима высокая точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании представлены основные достижения в области классификации пола на основе роста ребра. Авторы выделяют значительные улучшения в точности и надежности методов, а также предлагают направления для будущих исследований. Они подчеркивают необходимость дальнейшего исследования и разработки более эффективных методов для обработки и анализа текстур роста ребра. Кроме того, исследование выделяет необходимость в создании более крупных и разнообразных наборов данных для тестирования и улучшения методов классификации пола.
Annotation:
Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric.Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other han...
ID: 2508.05246v1 cs.CV, cs.AI, cs.LG
Авторы:

Zhouyao Qian, Yang Chen, Baodian Li, Shuyi Zhang, Zhen Tian, Gongsen Wang, Tianyue Gu, Xinyu Zhou, Huilin Chen, Xinyi Li, Hao Zhu, Shuyao Zhang, Zongheng Li, Siyuan Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Концентрация хлорофилла в морских водах является важным показателем состояния экосистемы и силы углеродного цикла. Точная прогнозирование этого показателя играет ключевую роль в предупреждении о «красных волнах» (red tide) и адаптивном управлении экологическими системами. Традиционные модели прогнозирования, такие как Long Short-Term Memory (LSTM) и Random Forest (RF), сталкиваются со сложностями в моделировании временных рядов и характеризации нелинейных зависимостей. LSTM хорошо справляется с временными зависимостями, но может быть неэффективен в портретировании комплексных нелинейных связей, тогда как RF Excel в нелинейных анализах, но страдает от недостатков в обработке временных последовательностей. В данном исследовании авторы предлагают гибридную модель LSTM-RF, которая сочетает преимущества обоих подходов, обеспечивая более точный прогноз концентрации хлорофилла. Использование многоисточниковых океанических данных, таких как температура, соленость, растворенный кислород и другие, позволяет создать комплексную модель, способную учитывать разнообразные факторы влияющие на экосистему. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемая модель LSTM-RF состоит из двух основных компонентов: LSTM для моделирования временных рядов и RF для анализа нелинейных зависимостей. LSTM, как рекуррентная нейронная сеть, обрабатывает последовательности входных данных, учитывая их временной контекст. RF, с другой стороны, используется для извлечения и анализа нелинейных функций из входных данных. В качестве входных данных модель использует много источников океанической информации, включая температуру, соленость, растворенный кислород и другие физико-химические параметры. Для улучшения точности прогноза, авторы применили стандартизированную обработку данных и метод скользящего окна. Скользящее окно позволяет разбивать временные ряды на меньшие фрагменты, улучшая моделирование короткосрочных изменений. Архитектура модели включает два этапа: в первом этапе, LSTM обрабатывает временные ряды и генерирует временно-зависимые функции; во втором этапе, RF анализирует выходные данные LSTM и нелинейные зависимости между различными факторами. Такая комбинация позволяет добиться лучшей точности в прогнозировании концентрации хлорофилла. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности модели LSTM-RF, авторы провели сравнительные эксперименты с использованием только LSTM и только RF. Данные были получены из многоисточниковых океанических наборов данных, включающих температуру, соленость, растворенный кислород и другие параметры. Результаты показали, что LSTM-RF модель достигла коэффициента детерминации (R^2) в 0.5386, среднеквадратичную ошибку (MSE) в 0.005806, и среднюю абсолютную ошибку (MAE) в 0.057147 на тестовом наборе данных. Эти результаты значительно превосходят производительность модели LSTM (R^2 = 0.0208) и RF (R^2 = 0.4934) использованных в отдельности. Стандартизированная обработка данных и метод скользящего окна также улучшили точность модели. Эти методы позволили лучше учесть короткосрочные изменения в временных рядах и улучшить моделирование нелинейных зависимостей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель LSTM-RF имеет значительное практическое применение в области экологического мониторинга и управления. Точный прогноз концентрации хлорофилла может использоваться для предупреждения о «красных волнах» (red tide), что позволяет быстрее реагировать на экологические кризисы. Кроме того, модель может быть использована для мониторинга состояния экосистем, оценки влияния климатических изменений на морские экосистемы, и разработки стратегий адаптации. Преимущества LSTM-RF модели заключаются в ее способности обрабатывать многоисточниковые данные, обеспечивая более точный и надежный прогноз. Это может привести к улучшению систем мониторинга и управления экологическими ресурсами, а также повышению эффективности мер по сохранению биологического разнообразия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этом исследовании была разработана гибридная модель LSTM-RF, которая эффективно сочетает в себе способность LSTM к моделированию временных рядов и RF к анализу нелинейных зависимостей. Эксперименты показали, что модель достигает значительно вышей точности в прогнозировании концентрации хлорофилла по сравнению с использованием LSTM или RF в отдельности. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая использование более разнообразных источников данных, оптимизацию параметров модели, и расширение ее применения на другие экологические переменные. Кроме того, можно исследовать возможности интеграции модели в реальные системы мониторинга для более эффективного управления экологическими ресурсами.
Annotation:
Marine chlorophyll concentration is an important indicator of ecosystem health and carbon cycle strength, and its accurate prediction is crucial for red tide warning and ecological response. In this paper, we propose a LSTM-RF hybrid model that combines the advantages of LSTM and RF, which solves the deficiencies of a single model in time-series modelling and nonlinear feature portrayal. Trained with multi-source ocean data(temperature, salinity, dissolved oxygen, etc.), the experimental results...
ID: 2508.05260v1 cs.LG, cs.AI
Авторы:

Lars Graf, Thomas Ortner, Stanisław Woźniak, Angeliki Pantazi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Time series forecasting является ключевой областью в машинном обучении, применяемой в различных сферах, таких как экономика, промышленность, здравоохранение и многие другие. Однако, несмотря на успех фаундэйшн моделей (FMs) в области естественного языка, их применение к задачам прогнозирования временных рядов остается проблематичным. Традиционные модели, основанные на вариантах трансформеров, сталкиваются с несколькими критичными ограничениями, включая сложности при адаптации к различным темпоральным разрешениям (sampling rates), неэффективность вычислений и ограниченную способность к обобщению на различных промежутках времени. Существующие time series foundation models (TSFMs) требуют больших вычислительных ресурсов для обучения на разных темпоральных разрешениях, что снижает их практическую применимость. Более того, их невозможность эффективно адаптироваться к входным данным разной частоты делает их менее гибкими на практике. Также, многие существующие модели требуют предварительного обучения на данных с различными частотами выборки, что усложняет процесс разработки и применения. В связи с этим, необходимо разработать модель, которая могла бы эффективно работать с временными рядами разной частоты выборки, не требуя для этого значительных компьютерных ресурсов, и обеспечивала бы высокую точность прогнозов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новая архитектура **FlowState**, которая решает проблемы существующих моделей за счет двух ключевых инноваций: **state space model (SSM) based encoder** и **functional basis decoder**. SSM-based encoder позволяет модели работать в непрерывном временном пространстве, что обеспечивает возможность динамической адаптации к различным темпоральным разрешениям. Функциональный декодер, в свою очередь, позволяет модели формировать прогнозы на основе базисных функций, что дает ей возможность гибко регулировать прогнозируемые горизонты. FlowState отличается от других TSFMs тем, что не требует данных с разными частотами выборки для обучения, а вместо этого адаптирует свои внутренние динамические процессы к заданному темпоральному разрешению. Это уменьшает необходимость в больших объемах данных и повышает эффективность модели. Кроме того, авторы предлагают **эффективную стратегию предварительного обучения**, которая улучшает устойчивость модели и ускоряет процесс обучения. Несмотря на то, что FlowState является одной из самых маленьких моделей по количеству параметров, она достигает высокой точности прогнозов и превзойдет все другие модели на задачах GIFT-ZS и Chronos-ZS. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на двух задачах: GIFT-ZS и Chronos-ZS. Эти данные представляют собой временные ряды с различными частотами выборки. Модель FlowState была протестирована на различных конфигурациях, включая различные частоты выборки и прогнозируемые горизонты. Результаты показали, что FlowState не только превзошла все другие модели в терминах точности прогнозов, но и показала высокую эффективность в терминах вычислительных затрат. Благодаря своей способности адаптироваться к разным частотам выборки, FlowState показала стабильно хорошие результаты даже при изменении входных данных в режиме реального времени. Были также проведены **абляционные исследования**, которые подтвердили эффективность каждого компонента модели, включая SSM-based encoder и functional basis decoder. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FlowState имеет широкое применение в различных областях, где необходимо прогнозирование временных рядов с разными частотами выборки. Например, в области финансов, модель может быть использована для прогнозирования цен на фондовом рынке с различными интервалами времени. В промышленности, она может помочь в мониторинге и прогнозировании работы оборудования. Одним из ключевых преимуществ FlowState является её эффективность и малая размерность модели, что делает её пригодной для развертывания на устройствах с ограниченными вычислительными ресурсами. Кроме того, модель подходит для онлайн-адаптации, что делает её подходящей для приложений, требующих динамического изменения частоты выборки. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FlowState представляет собой значительный шаг вперед в области time series forecasting. Благодаря своей способности адаптироваться к разным частотам выборки и эффективному предварительному обучению, она предлагает новый подход к решению задач прогнозирования. В будущем, модель может быть дальше улучшена путем исследования более сложных декодеров или интеграции дополнительных функций для обработки многомерных временных рядов. Также, можно рассмотреть возможность применения FlowState в реальном времени для задач, требующих быстрого реагирования на изменения в данных.
Annotation:
Foundation models (FMs) have transformed natural language processing, but their success has not yet translated to time series forecasting. Existing time series foundation models (TSFMs), often based on transformer variants, struggle with generalization across varying context and target lengths, lack adaptability to different sampling rates, and are computationally inefficient. We introduce FlowState, a novel TSFM architecture that addresses these challenges through two key innovations: a state s...
ID: 2508.05287v1 cs.LG, cs.AI
Авторы:

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено новой парадигме создания автономных робототехнических систем, в которой роль центрального интеллекта играют фундаментальные модели — большие языковые модели (LLM) и зрительно-языковые модели (VLM). Традиционные подходы к построению поведения роботов опирались на жёстко заданные правила, конечные автоматы или узкоспециализированные нейросети, способные решать лишь заранее предопределённые задачи в ограниченных средах. Однако стремительное развитие фундаментальных моделей, обученных на масштабных интернет-данных, открыло возможность перенести универсальные способности к обобщению, рассуждению и пониманию естественного языка в физический мир. Появление моделей типа GPT-4, PaLM-E или Flamingo позволяет роботу интерпретировать человеческие инструкции в свободной форме, формировать высокоуровневые планы, запрашивать дополнительную информацию и даже самостоятельно исправлять ошибки. Однако интеграция этих моделей в реальные робототехнические системы сталкивается с рядом фундаментальных проблем. Во-первых, LLM/VLM демонстрируют «галлюцинации» и могут выдавать небезопасные или невыполнимые команды. Во-вторых, языковые модели оперируют токенами, тогда как роботам необходимы низкоуровневые сигналы управления (торques, joint angles, end-effector poses). В-третьих, отсутствует единая методология классификации и сравнения подходов: одни работы используют LLM как высокоуровневого планировщика, другие — как генератора кода, третьи — как унифицированный интерфейс к набору специализированных API. Наконец, поле развивается столь стремительно (еженедельно появляются новые open-source проекты, ROS-пакеты и промышленные фреймворки), что традиционные обзоры быстро устаревают. В статье предпринята попытка систематизировать как академические публикации, так и практические наработки сообщества, выделив архитектурные паттерны и предложив таксономию, способную вместить даже экспериментальные прототипы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию. На первом уровне формулируется таксономия, разделяющая все существующие решения по четырём осям: (1) «роль агента», (2) «глубина интеграции модели», (3) «уровень абстракции действий» и (4) «механизм обратной связи». Роль агента охватывает категории «планировщик» (LLM формирует последовательность подзадач), «координатор» (модель выбирает, какой из доступных модулей вызвать), «перцептор» (VLM извлекает семантику из сенсорных данных) и «универсальный интерфейс» (единая точка взаимодействия оператора и системы). Глубина интеграции варьируется от лёгкого «prompt-only» (LLM вызывается как внешняя API без дообучения) до «deep fine-tuning», где модель полностью переобучается на робототехнических датасетах. Уровень абстракции действий разделяет высокоуровневые символьные команды (например, «открой дверь»), среднеуровневые примитивы («схватить ручку») и низкоуровневые сигналы управления (joint torques). Обратная связь может быть лингвистической (успешность задачи описывается текстом), визуальной (сравнение «до/после» кадров) или цифровой (метрики измеряются скалярно). На втором уровне строится сравнительная таблица из 100+ проектов: от ранних работ 2022 года (PaLM-SayCan) до свежих open-source решений вроде ROS 2 GPT Integration или NVIDIA Isaac LLM Agent. Для каждого проекта фиксируется стек ПО (ROS 2, MoveIt, custom simulators), используемые модели (OpenAI GPT-4, Google PaLM-E, open-source LLaVA), типы сенсоров, пространство действий и репортированные метрики. Кроме того, авторы выделяют три архитектурных паттерна: (A) «LLM as Code Generator» (модель пишет Python-скрипты, которые затем исполняются средой), (B) «LLM as Policy Prior» (языковая модель задаёт распределение вероятностей над примитивами, которые уточняются RL или MPC), (C) «LLM as World-Model» (модель имитирует последствия действий и выбирает оптимальные). Предложенная таксономия динамическая: каждый новый проект может быть классифицирован по четырём признакам за
Annotation:
Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (BLMs) are increasing the dexterity and capabilities of robotic systems. This survey paper focuses on those words advancing towards agentic applications and architectures. This includes initial efforts exploring GPT-style interfaces to tooling, as...
ID: 2508.05294v1 cs.RO, cs.AI, cs.LG
Авторы:

Jelle Luijkx, Zlatan Ajanović, Laura Ferranti, Jens Kober

## КОНТЕКСТ И ПРОБЛЕМАТИКА Имитационное обучение является ключевым подходом в области машинного обучения, где агент учится выполнять задачи, имитируя поведение эксперта. Однако в интерактивном имитационном обучении (Interactive Imitation Learning, IIL), требуется значительный уровень взаимодействия с человеческим экспертом, что представляет собой существенное ограничение для широкого применения этого метода. Традиционные методы IIL часто опираются на активное обучение (Active Learning), чтобы сократить количество необходимых запросов к эксперту, фокусируясь на ситуациях, характеризующихся высокой неопределенностью, риском или новизной. Однако, в этих ситуациях, запланированные действия новичка (новичковские действия) обычно не используются, несмотря на то, что они могут содержать ценную информацию о возможностях и уровне неопределенности новичка. Проблема заключается в том, что традиционные подходы не позволяют эффективно использовать новичковские действия для улучшения процесса обучения. Это приводит к неоптимальному использованию ресурсов и повышенной необходимости в человеческом вмешательстве. Чтобы решить эту проблему, необходимо разработать метод, который не только сократит количество запросов к эксперту, но и будет эффективно использовать новичковские действия для улучшения процесса обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый метод под названием **Active Skill-level Data Aggregation (ASkDAgger)**, который использует обратную связь от учителя (эксперта) по отношению к запланированным действиям новичка. Этот метод включает в себя три основных компонента: 1. **S-Aware Gating (SAG)**: Этот компонент регулирует пороговые значения для отбора данных, основываясь на чувствительности, специфичности и минимальной скорости успешного выполнения. Это позволяет адаптировать процесс отбора данных к текущему уровню способностей новичка. 2. **Foresight Interactive Experience Replay (FIER)**: Этот компонент преобразует запланированные действия новичка в демонстрации, которые могут быть использованы для последующего обучения. Это позволяет использовать даже неудачные попытки новичка как ценный источник информации. 3. **Prioritized Interactive Experience Replay (PIER)**: Этот компонент оптимизирует процесс повторного использования данных, определяя приоритеты на основе уровня неопределенности, успешности новичка и возраста демонстраций. Это помогает сократить количество требуемых демонстраций и ускорить адаптацию агента к изменяющимся условиям. Общая архитектура ASkDAgger построена так, чтобы сбалансировать частоту запросов к эксперту и частоту неудачных попыток, уменьшить количество необходимых демонстраций и улучшить обобщающую способность агента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода ASkDAgger были проведены эксперименты на задачах манипуляции, управляемых языком, как в симуляционном, так и в реальном мире. Эксперименты показали, что ASkDAgger уменьшает количество необходимых запросов к эксперту, одновременно повышая успешность выполнения задач и скорость адаптации агента. В экспериментах использовались данные, полученные из симулятора и реального окружения, для моделирования различных сценариев взаимодействия между новичком и экспертом. Результаты показали, что ASkDAgger не только сокращает количество запросов к эксперту, но также повышает качество данных, используемых для обучения, благодаря эффективному использованию новичковских действий. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод ASkDAgger имеет значительное практическое применение в областях, где необходимо обучение агентов на основе демонстраций эксперта. Он может быть использован в таких доменах, как робототехника, автономные транспортные системы и интерактивные системы обучения. Преимущества ASkDAgger включают в себя сокращение частоты запросов к эксперту, улучшение качества обучения и быструю адаптацию к изменяющимся условиям. Потенциальное влияние этого метода заключается в упрощении процесса обучения агентов, что может привести к более широкому использованию имитационного обучения в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ASkDAgger представляет собой значительный шаг вперед в области имитационного обучения, позволяющий эффективно использовать новичковские действия для улучшения процесса обучения. Основные достижения этого метода включают в себя сокращение количества запросов к эксперту, повышение качества обучения и ускорение адаптации агента. В будущем, дальнейшие исследования могут фокусироваться на расширении этого метода для более сложных задач и доменов, а также на интеграции ASkDAgger с другими методами имитационного обучения для дальнейшего улучшения производительности.
Annotation:
Human teaching effort is a significant bottleneck for the broader applicability of interactive imitation learning. To reduce the number of required queries, existing methods employ active learning to query the human teacher only in uncertain, risky, or novel situations. However, during these queries, the novice's planned actions are not utilized despite containing valuable information, such as the novice's capabilities, as well as corresponding uncertainty levels. To this end, we allow the novic...
ID: 2508.05310v1 cs.LG, cs.AI, cs.HC, cs.RO, 68T05, I.2.6; I.2.8; I.2.9
Авторы:

Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Reasoning Language Models (LRLMs) стали важной составляющей для решения сложных задач вывода, используя методы chain-of-thought reasoning. Эти модели генерируют длинные последовательности логических шагов, обычно спускаясь в детали, чтобы достичь более точных решений. Однако, эффективность такого подхода становится все более проблематичной по причине растущего количества циклов рефлексии, вызванных определенными триггер-словами, такими как "Wait" («Ждите») и "Alternatively" («Иначе»). Эти рефлексивные поведения, хоть и помогают улучшить результаты в некоторых случаях, часто приводят к **overthinking problem** – генерации избыточных шагов вывода, которые не несут дополнительной полезности, но значительно увеличивают количество токенов, время выполнения и стоимость вычислений. Проблема в том, что излишняя рефлексия может не только повысить затраты на вычисления, но и ухудшить практическую применимость LRLMs, особенно в ситуациях, где время отклика и эффективность критичны. Таким образом, необходимо разработать методы, которые бы позволили контролировать и оптимизировать процесс рефлексии в моделях, сохраняя при этом высокое качество результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод под названием **Certainty-Guided Reflection Suppression (CGRS)**, который направлен на уменьшение излишней рефлексии в LRLMs. Основная идея заключается в том, чтобы динамически подавлять генерацию рефлексивных триггеров в моменты, когда модель выражает высокую уверенность в своем текущем ответе. Это позволяет избежать ненужных циклов рефлексии без ущерба для качества вывода. CGRS работает как дополнение к существующим autoregressive generation pipelines, не требуя модификации архитектуры модели или дополнительного тренировочного процесса. Алгоритм основывается на оценке уверенности модели в каждом шаге вывода. Если уровень уверенности превышает заданный порог, то генерация рефлексивных триггеров прекращается, что эффективно предотвращает излишнюю генерацию. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на четырех различных бенчмарках резонанса: **AIME24**, **AMC23**, **MATH500** и **GPQA-D**. Результаты показали, что CGRS способен значительно сократить количество токенов, необходимых для генерации ответов, при этом сохраняя точность вывода. В среднем, эффективность сокращения токенов составила от 18.5% до 41.9% в зависимости от задачи и модели. Кроме того, эксперименты показали, что CGRS эффективен на различных архитектурах моделей (DeepSeek-R1-Distill, QwQ-32B, Qwen3) и в различных диапазонах размеров моделей (от 4B до 32B параметров). Это демонстрирует универсальность и скалируемость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CGRS имеет значительное практическое значение для повышения эффективности LRLMs в реальных приложениях. Уменьшение количества токенов не только снижает вычислительные затраты, но также улучшает время отклика моделей, что критично для задач, требующих быстрых решений. Кроме того, метод легко интегрируется в существующие пайплайны, что делает его пригодным для широкого круга приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод CGRS, который эффективно снижает излишнюю рефлексию в LRLMs, сохраняя при этом высокий уровень точности. Будущие исследования могут фокусироваться на дальнейшей оптимизации таких моделей, в том числе на адаптации CGRS к более широкому спектру задач и доменов. Также, исследование влияния других факторов, таких как тип задачи и контекст, может помочь в улучшении эффективности метода.
Annotation:
Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Supp...
ID: 2508.05337v1 cs.CL, cs.AI, cs.LG
Авторы:

Yi-Hsiu Liao, Cheng Shen, Brenda, Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Нейронные системы машинного перевода (Neural Machine Translation, NMT) достигли высоких результатов в автоматическом переводе, однако они часто сталкиваются с проблемами, связанными с разнообразием и качеством обучающих данных. Традиционные подходы к обучению NMT-моделей не учитывают метаданные корпуса, такие как доменность, качество и характеристики исходных данных. Это может приводить к недостаточной адаптации модели к конкретным доменам или низкому качеству перевода в незнакомых условиях. Одним из предложенных решений является подход Corpus Aware Training (CAT), который интегрирует метаданные корпуса непосредственно в процесс обучения, дополняя каждый пример данными о его происхождении. Этот подход, известный как "тэгирование", позволяет моделиадаптироваться к различным доменам и качественным характеристикам данных. Однако, традиционный CAT требует предварительного выбора высококачественных данных перед началом обучения, что может быть неэффективным и подверженным ошибкам. Кроме того, он может быть чувствителен к гиперпараметрам и иметь риск переобучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают Optimal Corpus Aware Training (OCAT), который является улучшенным вариантом CAT. OCAT основывается на использовании предварительно обученной CAT-модели, но вводит новый этап файн-тюнинга (fine-tuning), в ходе которого замораживаются большинство параметров модели, а только небольшая часть параметров, связанных с корпусом, подвергается дообучению. Этот подход позволяет сохранить общую структуру модели, избежать переобучения и сделать процесс обучения более эффективным. В рамках OCAT используется метод файн-тюнинга, который оптимизирует параметры, связанные только с корпусом, в то время как основная модель остается неизменной. Это позволяет модели эффективно адаптироваться к новым доменам или корпусам без необходимости переобучения всей модели. Авторы также показывают, что OCAT менее чувствителен к выбору гиперпараметров по сравнению с другими методами файн-тюнинга. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на двух наборах данных: WMT23 English to Chinese и WMT23 English to German translation tasks. Результаты показали значительное улучшение качества перевода по метрике chrF. Используя OCAT, модель достигла улучшения на +3.6 chrF для английского-китайского перевода и +1.8 chrF для английского-немецкого перевода по сравнению со стандартным обучением. Кроме того, OCAT показал сравнимые или лучшие результаты по сравнению с другими современными методами файн-тюнинга, при этом оказавшись менее чувствительным к выбору гиперпараметров. Это подтверждает преимущество OCAT в стабильности и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод OCAT имеет широкое применение в области нейронного машинного перевода, особенно в случаях, когда требуется быстрая адаптация модели к новым доменам или корпусам данных. Его легковесная архитектура и устойчивость к переобучению делают его привлекательным для практического использования в промышленных приложениях. OCAT также может быть полезен в ситуациях, где данные имеют различные качественные характеристики, позволяя модели эффективно адаптироваться к разным условиям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен метод Optimal Corpus Aware Training (OCAT), который значительно улучшает качество перевода в нейронных системах машинного перевода, используя метаданные корпуса. Результаты показали, что OCAT не только эффективен, но и менее чувствителен к гиперпараметрам по сравнению с другими методами. В будущем, авторы планируют исследовать применение OCAT на большем количестве языковых пар и доменов, а также исследовать влияние различных стратегий файн-тюнинга на качество перевода.
Annotation:
Corpus Aware Training (CAT) leverages valuable corpus metadata during training by injecting corpus information into each training example, and has been found effective in the literature, commonly known as the "tagging" approach. Models trained with CAT inherently learn the quality, domain and nuance between corpora directly from data, and can easily switch to different inference behavior. To achieve the best evaluation, CAT models pre-define a group of high quality data before training starts wh...
ID: 2508.05364v1 cs.LG, cs.AI
Авторы:

Jie Xiao, Shaoduo Gan, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные методы обучения с подкреплением (RL) для больших языковых моделей (LLMs) сталкиваются с значительными проблемами в системной эффективности и масштабируемости. Традиционные подходы к обучению RL-политик для LLMs требуют совмещения двух критических фаз — генерации траекторий (inference) и оптимизации политики (training) — на одном и том же кластере GPU. Это приводит к необходимости постоянного переключения между рабочими нагрузками, нарушая принцип single-program-multiple-data (SPMD), лежащий в основе современных распределенных систем обучения. Данная проблема особенно актуальна при работе с крупными моделями и распределенными вычислениями, где эффективное использование ресурсов является ключевым фактором. Существующие решения, такие как Verl, используют колокацию inference и training на одном кластере, что ограничивает возможности использования разнородных вычислительных ресурсов. Кроме того, сериализация этих фаз создает дополнительные узкие места, в том числе повышенную задержку и неэффективное использование ресурсов. Мотивацией данного исследования является разработка системы, которая могла бы эффективно разделять эти фазы на разных типах аппаратных платформ, сохраняя при этом высокую статистическую эффективность обучения. Решение данной проблемы позволило бы расширить область применения RL-методов, в том числе к обучению на распределенных и гетерогенных вычислительных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем была разработка система Echo, которая децентрализирует процессы генерации траекторий и обучения политик на разных типах вычислительных средах. Echo вводит два легковесных протокола синхронизации, позволяющие эффективно координатизировать работу между "inference" и "training" кластерами. Первый протокол — **секундный pull-режим** — обеспечивает периодическое обновление весов семплеров на каждом вызове API, что позволяет минимизировать биас в генерации траекторий. Второй протокол — **асинхронный push-pull-режим** — предназначен для потоковой передачи версионированных траекторий через реплей-буфер, что повышает использование аппаратных ресурсов. Архитектура Echo основывается на использовании гетерогенных сред, включая высокопроизводительные GPU-кластеры для обучения и коммерческие (commodity) ресурсы для генерации траекторий. Это позволяет разгрузить тяжеловесные вычисления на более доступные платформы, сохраняя при этом высокую эффективность обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на трех репрезентативных RL-задачах, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B. Эксперименты проводились на распределенном кластере, расположенном в различных географических регионах. Результаты показали, что Echo сопоставима по скорости сходимости и качеству финального решения с Verl, но при этом использует децентрализованные ресурсы, включая коммерческие платформы. Это демонстрирует возможность достижения высокой производительности RL-систем на распределенных и гетерогенных системах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Echo имеет широкий потенциал применения в областях, требующих больших вычислительных мощностей для обучения RL-политик, в том числе в облачных вычислениях, автономных системах и распределенных вычислительных системах. Децентрализованный подход Echo позволяет эффективно использовать доступные ресурсы, в том числе низкоуровневые коммерческие платформы, что может существенно снизить стоимость и сложность развертывания RL-систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Echo представляет собой значительный шаг вперед в области RL-систем для обучения LLMs. Она показывает, что децентрализованные и гетерогенные системы могут достигать производительности, сопоставимой с традиционными дата-центральными подходами. Будущие исследования могут фокусироваться на дальнейшей оптимизации протоколов синхронизации и расширении области применения Echo на более широкий класс задач.
Annotation:
Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving stati...
ID: 2508.05387v1 cs.LG, cs.AI
Показано 13941 - 13950 из 13987 записей