📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Linxiao Yang, Xinyu Gu, Liang Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение вопросы интерпретируемости и прозрачности моделей машинного обучения приобрели особую актуальность. Одним из ключевых направлений в этой области является **data attribution**, то есть определение влияния отдельных обучающих примеров на результаты модели. Это позволяет лучше понять, как модель принимает решения, и повысить её прозрачность. Однако существующие методы data attribution сталкиваются с некоторыми проблемами. Первая проблема — это **локализованность объяснений**. Многие методы, основанные на методе leave-one-out (LOO), анализируют влияние только одного обучающего примера, игнорируя коллективное влияние всего набора данных. Это ограничивает глубину и точность объяснений, так как реальное влияние обучающих данных часто является результатом взаимодействия множества примеров. Вторая проблема — **отсутствие базового уровня (baseline)** во многих методах. Базовый уровень позволяет сравнивать текущий набор данных с каким-либо начальным состоянием, что может быть полезно для построения контрфактуальных объяснений. Например, без базового уровня невозможно оценить, как изменение набора данных может повлиять на результат модели. Наконец, многие существующие методы недостаточно гибкие и не позволяют эффективно идентифицировать проблемы, такие как ошибочно отмеченные примеры. Это ограничивает их практическую применимость. Таким образом, требуется новый подход, который бы учитывал коллективное влияние данных и предоставлял более гибкие возможности для объяснений. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый метод под названием **Integrated Influence**, который решает проблемы существующих подходов. Основная идея заключается в том, чтобы определить **базовый набор данных** и провести процесс **дегенерации данных**, при котором текущий набор данных переходит к этому базовому состоянию. Во время этого процесса вычисляется влияние каждого обучающего примера. Технически, метод основан на **теоретическом рамках**, который позволяет формализовать процесс дегенерации данных. Базовый набор данных определяется как начальное состояние, к которому текущий набор данных должен сходиться. Процесс дегенерации описывается как последовательное удаление или изменение обучающих примеров, при котором вычисляется их влияние на модель. Кроме того, метод **Integrated Influence** показывает, что некоторые существующие методы, такие как **influence functions**, могут быть рассмотрены как специальные случаи этого подхода. Это подчеркивает теоретическую значимость и гибкость предлагаемого метода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Чтобы провести оценку метода, были проведены эксперименты на различных наборах данных. Авторы сравнили **Integrated Influence** с другими популярными методами data attribution, такими как LOO-based методы и influence functions. В экспериментах было показано, что **Integrated Influence** дает более **надёжные и точные объяснения** по сравнению с другими методами. Он лучше справляется с задачей идентификации ошибочно отмеченных примеров и позволяет получить более информативные объяснения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где необходима прозрачность и интерпретируемость моделей машинного обучения. Он может быть использован для **обнаружения ошибочно отмеченных данных**, что критически важно для повышения качества моделей. Кроме того, **Integrated Influence** может быть применен в задачах **контрфактуального объяснения**, которые позволяют понять, как изменения в данных могут повлиять на результат модели. Преимущества метода заключаются в его **гибкости** и **надёжности**. Он позволяет получить более глубокие и точные объяснения, что может быть полезно в таких областях, как медицина, финансы и автономные транспортные системы, где прозрачность решений критически важна. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод **Integrated Influence**, который решает проблемы существующих подходов к data attribution. Он позволяет учитывать коллективное влияние данных и предоставляет более гибкие возможности для объяснений. Экспериментальные результаты показали, что этот метод является более надёжным и точным по сравнению с другими подходами. В будущем можно рассмотреть дальнейшее развитие этого метода, в том числе его применение к более сложным моделям и наборам данных. Также можно исследовать возможности интеграции этого метода в различные практические приложения, где прозрачность моделей играет ключевую роль.
Annotation:
As an effective approach to quantify how training samples influence test sample, data attribution is crucial for understanding data and model and further enhance the transparency of machine learning models. We find that prevailing data attribution methods based on leave-one-out (LOO) strategy suffer from the local-based explanation, as these LOO-based methods only perturb a single training sample, and overlook the collective influence in the training set. On the other hand, the lack of baseline ...
ID: 2508.05089v1 cs.LG, cs.AI
Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развертывание крупных языковых моделей (LLM) в реальных приложениях требует эффективных возможностей вызывать функции, что является ключевым фактором для их функциональности. Однако существующие подходы обучения не приводят к появлению устойчивых стратегий вывода, необходимых для этих задач. Традиционные методы, такие как супервизорское тонкое настройка (supervised fine-tuning), часто приводят к моделям, которые основываются на поверхностном поиске закономерностей, не способных обеспечить глубокое понимание контекста. Аналогично, стандартные методы обучения с подкреплением (reinforcement learning) сталкиваются с серьезными трудностями из-за высокой размерности пространства функциональных вызовов, что делает их неэффективными в обработке сложных структурированных задач. Три основных проблемы оказывают влияние на качество вызова функций в существующих моделях: недостаточное исследование пространства политик (policy space) во время обучения, отсутствие структурированного логического вывода в цепочках мыслей (chain-of-thought generation) и неадекватная проверка параметров, извлекаемых из запросов. Эти проблемы становятся критичными в контексте сложных сценариев, требующих вызова нескольких функций, где точность и корректность вывода имеют решающее значение. Настоящее исследование предлагает новую платформу, основанную на обучении с подкреплением, которая специально разработана для решения этих проблем. Она использует стратегическую энтропию для оптимизации политик взаимодействия между группами, что позволяет достичь более глубокого и эффективного исследования пространства функциональных вызовов. Метод также адресует необходимость в высококачественных данных для обучения, создавая их через итеративную процедуру проверки с использованием моделей LLM и валидации с помощью абстрактных синтаксических деревьев (abstract syntax trees). ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод основывается на новой рамке работы для обучения с подкреплением, направленной на оптимизацию групповых политик с использованием стратегического поиска по энтропии. Эта стратегия позволяет эффективнее исследовать пространство функциональных вызовов, обеспечивая глубокое понимание контекста и структурированное принятие решений. Архитектура работы состоит из двух основных этапов подготовки данных. На первом этапе, модель LLM используется для создания высококачественных образцов данных, которые затем проверяются с помощью абстрактного синтаксического дерева для обеспечения точности и логичности. Это гарантирует, что данные для обучения будут качественными и соответствовать требованиям сложного функционального вызова. На втором этапе, модель обучается с помощью специально разработанного алгоритма обучения с подкреплением, который использует стратегическую энтропию для повышения эффективности исследования пространства политик. Этот подход позволяет модели избегать поверхностных решений и развивать более глубокие стратегии вывода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на Berkeley Function Calling Leaderboard. Результаты показывают, что предложенный метод достигает 86.02% общей точности, превосходя стандартные методы GRPO на 6% в сложных множественных сценариях функциональных вызовов. Это показывает высокую эффективность метода в решении сложных задач. Кроме того, предложенный метод показывает особую эффективность на моделях, предварительно обученных на кодовых данных. Это указывает на то, что возможности генерации структурированного языка являются преимущественным фактором для успешного применения обучения с подкреплением в задачах функционального вызова. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в реальных сценариях использования LLMs, особенно в областях, требующих высокой точности вызова функций, таких как разработка программного обеспечения, автоматизация процессов и поддержка пользователей. Преимущества этого метода включают улучшенную точность, глубокий вывод и возможность обработки сложных множественных сценариев, что делает его пригодным для использования в промышленных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успешное применение стратегического поиска по энтропии для улучшения вызова функций в LLMs. Разработанный метод не только показывает высокую эффективность, но и открывает новые возможности для дальнейшего исследования в области обучения с подкреплением для структурированного вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения и расширении областей применения этого метода. Кроме того, релиз кода, моделей и данных для сообщества позволит стимулировать дальнейшее развитие в этой области.
Annotation:
Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strat...
ID: 2508.05118v1 cs.LG, cs.AI, cs.CL
Авторы:

Rishabh Gaur, Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка агентных моделей (ABM) и рациональных агентных моделей (RABM) для сложных социальных систем представляет собой быстро развивающуюся область исследований, особенно в контексте моделирования распространения инфекционных заболеваний. Традиционные эпидемиологические модели, такие как модели SIR/SEIR, ограничены в своей способности учитывать поведенческие аспекты населения и динамику принятия решений индивидуальными агентами. В ответ на эти ограничения исследователи активно внедряют методы обучения с подкреплением (RL) для оптимизации поведения агентов в ABM/RABM, что позволяет моделировать адаптивное поведение в условиях пандемии, включая ношение масок, вакцинацию и соблюдение карантинных мер. Однако существует критическая проблема оценки эффективности RL-алгоритмов в таких сложных стохастических системах. Традиционные метрики RL, такие как совокупное вознаграждение или скорость сходимости, не учитывают специфику прикладной области и могут давать искаженное представление о качестве политики в контексте общественного здравоохранения. Например, политика, максимизирующая экономическую активность, может привести к катастрофическим последствиям в виде высокой смертности. Отсутствие стандартизированных, ориентированных на предметную область метрик затрудняет сравнение различных RL-алгоритмов и их применение в критически важных сферах, таких как реагирование на пандемические угрозы. Авторы статьи подчеркивают, что существующие подходы к оценке RL-моделей в эпидемиологическом моделировании игнорируют ключевые аспекты: динамику изменения поведения населения, неравномерный доступ к ресурсам (например, маскам или вакцинам), а также морально-этические аспекты принятия решений. Эти пропуски в методологии оценки могут привести к разработке политик, которые формально оптимальны с точки зрения RL-метрик, но неприемлемы или вредны в реальном мире. Исследование направлено на разработку комплексной системы метрик, которая учитывает как традиционные показатели эффективности RL, так и критически важные для общественного здравоохранения аспекты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют новую систему метрик "Domain-driven-RL-metrics", которая интегрирует традиционные RL-показатели с предметно-ориентированными метриками, специфичными для эпидемиологического моделирования. Методология строится на трехуровневой архитектуре оценки: базовом уровне RL-метрик, промежуточном уровне адаптированных эпидемиологических показателей и верхнем уровне комплексных метрик общественного здравоохранения. На базовом уровне используются стандартные RL-метрики: совокупное вознаграждение, скорость обучения, стабильность политики и разнообразие поведения. Однако эти метрики дополняются специфическими весами, отражающими приоритеты в области здравоохранения. Например, компонент вознаграждения за снижение смертности получает экспоненциально возрастающий вес по мере роста показателей смертности. Промежуточный уровень включает адаптированные эпидемиологические показатели: эффективное репродуктивное число (Rt), учитывающее поведенческие изменения; интегрированную нагрузку на систему здравоохранения, включающую не только количество госпитализаций, но и стратификацию по возрасту и коморбидностям; метрики экономического бремени, связанные с потерей рабочих дней и затратами на лечение. Особое внимание уделяется метрикам неравенства в доступе к средствам защиты, где вводится коэффициент Джини для распределения масок и вакцин среди различных социоэкономических групп. Верхний уровень представлен комплексными метриками, объединяющими показатели предыдущих уровней. Ключевыми являются: "Сбалансированный индекс пандемического отклика" (BPR), который взвешивает снижение смертности, экономические потери и социальное неравенство; "Индект устойчивости политики", оценивающий гибкость стратегии при появлении новых штаммов; и "Метрика общественного доверия", отражающая динамику комплаентности населения в ответ на рекомендации. Эти метрики рассчитываются как взвешенные комбинации базовых показ
Annotation:
For the development and optimization of agent-based models (ABMs) and rational agent-based models (RABMs), optimization algorithms such as reinforcement learning are extensively used. However, assessing the performance of RL-based ABMs and RABMS models is challenging due to the complexity and stochasticity of the modeled systems, and the lack of well-standardized metrics for comparing RL algorithms. In this study, we are developing domain-driven metrics for RL, while building on state-of-the-art...
ID: 2508.05154v1 cs.LG, cs.AI
Авторы:

Mason Nakamura, Saaduddin Mahmud, Kyle H. Wray, Hamed Zamani, Shlomo Zilberstein

## КОНТЕКСТ И ПРОБЛЕМАТИКА Актуальность выравнивания больших языковых моделей (LLM) с человеческими предпочтениями выросла стремительно после появления ChatGPT, Claude и других систем общего назначения. Без финего выравнивания даже самые мощные модели продолжают порождать вредоносный, токсичный или просто неполезный контент, что делает их непригодными для коммерческого и корпоративного использования. Традиционные подходы к выравниванию опираются на дорогостоящий процесс RLHF (Reinforcement Learning from Human Feedback), включающий подготовку тысяч человеческих примеров, обучение отдельной reward-модели и дальнейший финетюнинг целевой LLM. Этот процесс может занимать недели и требовать десятков тысяч долларов GPU-времени, что делает его недоступным для большинства исследователей и малых компаний. Альтернативой является выравнивание во время инференса (inference-time alignment), при котором модель не переобучается, а лишь переупорядочивает или фильтрует уже сгенерированные кандидаты с помощью reward-модели. Однако существующие методы (best-of-N sampling, beam search, MCTS и др.) либо не учитывают стоимость инференса, либо требуют доступа к градиентам модели, либо не способны балансировать между множественными целями (например, «ответь кратко, но будь полезен»). Критическая проблема — отсутствие практичного решения для сценариев, где разрешено сделать всего 1-3 вызова модели. В таких условиях даже обычный best-of-N терпит неудачу: он просто выбирает лучший из N кандидатов, не имея возможности «подсказать» модели, как улучшить ответ. Накопленный практический опыт показывает, что пользователи готовы жертвовать частью качества ради скорости и дешевизны, но ни одна из текущих систем не позволяет явно задать бюджет инференса и получить максимально возможное качество в рамках этого бюджета. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают HIA (Heuristic-Guided Inference-time Alignment) — метод, который не требует дообучения LLM, работает в «черном ящике» (достаточно лишь API модели) и позволяет строго ограничить число обращений к модели. HIA состоит из трёх ключевых компонентов. Во-первых, легковесный prompt-optimizer на основе «heuristic reward model» (HRM) — маленькой (≈ 770 M параметров) обученной модели, которая по тексту промпта и кандидат-ответа выдаёт скалярную оценку качества. HRM обучается на публичных датасетах с человеческими предпочтениями и потому не требует дорогостоящей разметки. В отличие от крупных reward-моделей в RLHF, HRM работает за доли секунды и может быть запущена локально на CPU. Вторая часть — двухэтапная фильтрация. На первом этапе («exploration») из исходного prompt генерируется k кандидат-ответов (обычно k ≤ 4). HRM оценивает каждый кандидат и выбирает лучший. Однако вместо того чтобы сразу отдавать его пользователю, HIA переходит ко второму этапу («refinement»). Лучший кандидат вместе с кратким «heuristic feedback» (например, «слишком длинный, добавь пример») подаётся обратно в LLM с просьбой улучшить. В результате получается окончательный ответ. Весь процесс расходует ровно k+1 вызовов модели, что позволяет заранее задать бюджет. Третье новшество — многокритериальная оптимизация. HRM может быть обучен одновременно по нескольким осям (helpfulness, conciseness, harmlessness). Во время инференса пользователь задаёт желаемый вектор приоритетов (например, «безопасность важнее краткости»), и HRM автоматически пересчитывает скалярную награду как взвешенную сумму. Это позволяет персонализировать поведение модели без переобучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки качества использовались два публичных набора реальных промптов: HelpSteer (19 200 примеров с 4-уровневой шкалой полезности) и ComPRed (6 000 промптов с критериями полезности, правдивости, краткости и безопасности). В экспериментах сравнивались четыре метода: (1) жадный генерация (Greedy), (2) best-of-N, (3) beam search с шириной N, (4) предложенный HIA при одинаковом общем бюджете вызовов k+1. В качестве backbone-мод
Annotation:
Aligning LLMs with user preferences is crucial for real-world use but often requires costly fine-tuning or expensive inference, forcing trade-offs between alignment quality and computational cost. Existing inference-time methods typically ignore this balance, focusing solely on the optimized policy's performance. We propose HIA (Heuristic-Guided Inference-time Alignment), a tuning-free, black-box-compatible approach that uses a lightweight prompt optimizer, heuristic reward models, and two-stage...
ID: 2508.05165v1 cs.LG, cs.AI, cs.CL, I.2.7; I.2.6; I.2.8
Авторы:

Mengao Zhang, Jiayu Fu, Tanya Warrier, Yuwen Wang, Tianhui Tan, Ke-wei Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) становятся все более популярными в приложениях, требующих обработку естественного языка. Однако, в финансовой области, где точность и надежность критически важны, проблема галлюцинаций (Hallucination) остается ключевой преградой для их широкого применения. Галлюцинации — это ситуации, когда модель генерирует неточную или фальсифицированную информацию, что может привести к серьезным последствиям в финансовой аналитике. Финансовые приложения требуют высокой точности при работе с табличными данными, особенно теми, которые содержат контекстно-зависимую и часто конфиденциальную информацию. Маленькие цифровые ошибки могут не только подвергнуть сомнению решения, но и нарушить соблюдение регулярных требований. Несмотря на развитие методологий для оценки галлюцинаций в естественном языке, финансовые данные обладают уникальными характеристиками, которые не покрываются существующими стандартами. Авторы статьи подчеркивают необходимость разработки специализированных инструментов для оценки точности LLMs при работе с финансовыми табличными данными. Их работа направлена на создание методологии, которая позволит оценивать интринсические галлюцинации (Intrinsic Hallucinations) — неточности, которые возникают из самой модели, без учета внешних факторов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить проблему галлюцинаций в финансовых LLMs, авторы предлагают новый фреймворк под названием **FAITH** (Framework for Assessing Intrinsic Tabular Hallucinations in finance). Этот фреймворк основывается на маскированной предсказательной модели (Masked Span Prediction) и использует реальные финансовые документы для создания набора данных. FAITH включает в себя следующие ключевые компоненты: 1. **Автоматизированное создание датасета**: Авторы разработали метод маскирования, который позволяет автоматически генерировать данные для оценки точности моделей. Этот подход позволяет создавать реалистичные сценарии, где LLMs должны заполнить пропуски в табличных данных на основе контекста. 2. **Финансовый датасет**: Для оценки был создан датасет на основе годовых отчетов S&P 500. Этот датасет представляет собой коллекцию реальных финансовых документов, которые содержат контекстно-зависимые табличные данные. 3. **Оценка LLMs**: Авторы провели комплексный анализ работы современных LLMs на финансовых данных, оценивая их способность к точной экстракции и вычислению цифровых значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FAITH, авторы провели ряд экспериментов на базе различных моделей LLMs. Эти модели были протестированы на способность к точному извлечению информации из табличных данных. Результаты показали, что существующие модели LLMs часто представляют неточные или неполные данные при работе с финансовыми таблицами. FAITH позволил выявить шаблоны галлюцинаций, которые могут быть связаны с контекстными ошибками или недостатками в моделях. Кроме того, эксперименты показали, что FAITH может быть эффективно использован для оценки различных моделей LLMs, предоставляя инструмент для их сравнения и оптимизации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FAITH предлагает ценный инструмент для финансовых организаций, которые используют LLMs для анализа и обработки данных. Благодаря точной оценке галлюцинаций, финансовые институты могут более надежно использовать генеративные модели AI в своих приложениях. Преимущества FAITH включают: - **Улучшение точности**: Фреймворк позволяет выявлять и исправлять неточности в генерируемых моделями данных. - **Соответствие нормативным требованиям**: Точность в работе с финансовыми данными критически важна для соблюдения нормативных требований. - **Оптимизация LLMs**: FAITH помогает оптимизировать модели, улучшая их надежность и точность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FAITH является важной отправной точкой для развития более надежных и точных финансовых LLMs. Разработанный фреймворк не только позволяет оценивать существующие модели, но и ставит начало для будущих исследований в области генеративного AI в финансовой сфере. В будущем, авторы планируют расширить FAITH для работы с более широким спектром финансовых данных и исследовать методы для автоматического исправления галлюцинаций. Это позволит создавать более надежные и точные финансовые системы на основе генеративного AI.
Annotation:
Hallucination remains a critical challenge for deploying Large Language Models (LLMs) in finance. Accurate extraction and precise calculation from tabular data are essential for reliable financial analysis, since even minor numerical errors can undermine decision-making and regulatory compliance. Financial applications have unique requirements, often relying on context-dependent, numerical, and proprietary tabular data that existing hallucination benchmarks rarely capture. In this study, we deve...
ID: 2508.05201v1 cs.LG, cs.AI, cs.CL
Авторы:

Saddam Hussain Khan

**Резюме:** Точная прогнозирование темпа проходки (ROP) является ключевым фактором для оптимизации бурения, однако его высокая динамичность и многомерность данных существенно усложняют этот процесс. Традиционные модели, включая эмпирические, физико-математические и базовые методы машинного обучения, не могут эффективно учесть сложные временные и контекстуальные зависимости. Для решения этой проблемы предлагается новая гибридная архитектура на основе Long Short-Term Memory (LSTM), Transformer-энкодеров, TS-Mixer блоков и механизмов внимания. Эта модель эффективно моделирует временные зависимости, взаимодействия статических и динамических признаков, а также их контекстуальную значимость. На реальных данных бурения модель достигла R-квадратического коэффициента 0.9988 и средней абсолютной процентной ошибки 1.447%, превосходя базовые модели. Интерпретируемость модели была обеспечена с помощью SHAP и LIME, подтвердив её точность и справедливость. Результаты демонстрируют потенциал этого подхода для реального времени прогнозирования ROP и оптимизации бурения.
Annotation:
The Rate of Penetration (ROP) is crucial for optimizing drilling operations; however, accurately predicting it is hindered by the complex, dynamic, and high-dimensional nature of drilling data. Traditional empirical, physics-based, and basic machine learning models often fail to capture intricate temporal and contextual relationships, resulting in suboptimal predictions and limited real-time utility. To address this gap, we propose a novel hybrid deep learning architecture integrating Long Short...
ID: 2508.05210v1 cs.LG, cs.AI, cs.SY, eess.SY
Авторы:

Zhouyao Qian, Yang Chen, Baodian Li, Shuyi Zhang, Zhen Tian, Gongsen Wang, Tianyue Gu, Xinyu Zhou, Huilin Chen, Xinyi Li, Hao Zhu, Shuyao Zhang, Zongheng Li, Siyuan Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Концентрация хлорофилла в морских водах является важным показателем состояния экосистемы и силы углеродного цикла. Точная прогнозирование этого показателя играет ключевую роль в предупреждении о «красных волнах» (red tide) и адаптивном управлении экологическими системами. Традиционные модели прогнозирования, такие как Long Short-Term Memory (LSTM) и Random Forest (RF), сталкиваются со сложностями в моделировании временных рядов и характеризации нелинейных зависимостей. LSTM хорошо справляется с временными зависимостями, но может быть неэффективен в портретировании комплексных нелинейных связей, тогда как RF Excel в нелинейных анализах, но страдает от недостатков в обработке временных последовательностей. В данном исследовании авторы предлагают гибридную модель LSTM-RF, которая сочетает преимущества обоих подходов, обеспечивая более точный прогноз концентрации хлорофилла. Использование многоисточниковых океанических данных, таких как температура, соленость, растворенный кислород и другие, позволяет создать комплексную модель, способную учитывать разнообразные факторы влияющие на экосистему. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемая модель LSTM-RF состоит из двух основных компонентов: LSTM для моделирования временных рядов и RF для анализа нелинейных зависимостей. LSTM, как рекуррентная нейронная сеть, обрабатывает последовательности входных данных, учитывая их временной контекст. RF, с другой стороны, используется для извлечения и анализа нелинейных функций из входных данных. В качестве входных данных модель использует много источников океанической информации, включая температуру, соленость, растворенный кислород и другие физико-химические параметры. Для улучшения точности прогноза, авторы применили стандартизированную обработку данных и метод скользящего окна. Скользящее окно позволяет разбивать временные ряды на меньшие фрагменты, улучшая моделирование короткосрочных изменений. Архитектура модели включает два этапа: в первом этапе, LSTM обрабатывает временные ряды и генерирует временно-зависимые функции; во втором этапе, RF анализирует выходные данные LSTM и нелинейные зависимости между различными факторами. Такая комбинация позволяет добиться лучшей точности в прогнозировании концентрации хлорофилла. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности модели LSTM-RF, авторы провели сравнительные эксперименты с использованием только LSTM и только RF. Данные были получены из многоисточниковых океанических наборов данных, включающих температуру, соленость, растворенный кислород и другие параметры. Результаты показали, что LSTM-RF модель достигла коэффициента детерминации (R^2) в 0.5386, среднеквадратичную ошибку (MSE) в 0.005806, и среднюю абсолютную ошибку (MAE) в 0.057147 на тестовом наборе данных. Эти результаты значительно превосходят производительность модели LSTM (R^2 = 0.0208) и RF (R^2 = 0.4934) использованных в отдельности. Стандартизированная обработка данных и метод скользящего окна также улучшили точность модели. Эти методы позволили лучше учесть короткосрочные изменения в временных рядах и улучшить моделирование нелинейных зависимостей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель LSTM-RF имеет значительное практическое применение в области экологического мониторинга и управления. Точный прогноз концентрации хлорофилла может использоваться для предупреждения о «красных волнах» (red tide), что позволяет быстрее реагировать на экологические кризисы. Кроме того, модель может быть использована для мониторинга состояния экосистем, оценки влияния климатических изменений на морские экосистемы, и разработки стратегий адаптации. Преимущества LSTM-RF модели заключаются в ее способности обрабатывать многоисточниковые данные, обеспечивая более точный и надежный прогноз. Это может привести к улучшению систем мониторинга и управления экологическими ресурсами, а также повышению эффективности мер по сохранению биологического разнообразия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этом исследовании была разработана гибридная модель LSTM-RF, которая эффективно сочетает в себе способность LSTM к моделированию временных рядов и RF к анализу нелинейных зависимостей. Эксперименты показали, что модель достигает значительно вышей точности в прогнозировании концентрации хлорофилла по сравнению с использованием LSTM или RF в отдельности. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая использование более разнообразных источников данных, оптимизацию параметров модели, и расширение ее применения на другие экологические переменные. Кроме того, можно исследовать возможности интеграции модели в реальные системы мониторинга для более эффективного управления экологическими ресурсами.
Annotation:
Marine chlorophyll concentration is an important indicator of ecosystem health and carbon cycle strength, and its accurate prediction is crucial for red tide warning and ecological response. In this paper, we propose a LSTM-RF hybrid model that combines the advantages of LSTM and RF, which solves the deficiencies of a single model in time-series modelling and nonlinear feature portrayal. Trained with multi-source ocean data(temperature, salinity, dissolved oxygen, etc.), the experimental results...
ID: 2508.05260v1 cs.LG, cs.AI
Авторы:

Lars Graf, Thomas Ortner, Stanisław Woźniak, Angeliki Pantazi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Time series forecasting является ключевой областью в машинном обучении, применяемой в различных сферах, таких как экономика, промышленность, здравоохранение и многие другие. Однако, несмотря на успех фаундэйшн моделей (FMs) в области естественного языка, их применение к задачам прогнозирования временных рядов остается проблематичным. Традиционные модели, основанные на вариантах трансформеров, сталкиваются с несколькими критичными ограничениями, включая сложности при адаптации к различным темпоральным разрешениям (sampling rates), неэффективность вычислений и ограниченную способность к обобщению на различных промежутках времени. Существующие time series foundation models (TSFMs) требуют больших вычислительных ресурсов для обучения на разных темпоральных разрешениях, что снижает их практическую применимость. Более того, их невозможность эффективно адаптироваться к входным данным разной частоты делает их менее гибкими на практике. Также, многие существующие модели требуют предварительного обучения на данных с различными частотами выборки, что усложняет процесс разработки и применения. В связи с этим, необходимо разработать модель, которая могла бы эффективно работать с временными рядами разной частоты выборки, не требуя для этого значительных компьютерных ресурсов, и обеспечивала бы высокую точность прогнозов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новая архитектура **FlowState**, которая решает проблемы существующих моделей за счет двух ключевых инноваций: **state space model (SSM) based encoder** и **functional basis decoder**. SSM-based encoder позволяет модели работать в непрерывном временном пространстве, что обеспечивает возможность динамической адаптации к различным темпоральным разрешениям. Функциональный декодер, в свою очередь, позволяет модели формировать прогнозы на основе базисных функций, что дает ей возможность гибко регулировать прогнозируемые горизонты. FlowState отличается от других TSFMs тем, что не требует данных с разными частотами выборки для обучения, а вместо этого адаптирует свои внутренние динамические процессы к заданному темпоральному разрешению. Это уменьшает необходимость в больших объемах данных и повышает эффективность модели. Кроме того, авторы предлагают **эффективную стратегию предварительного обучения**, которая улучшает устойчивость модели и ускоряет процесс обучения. Несмотря на то, что FlowState является одной из самых маленьких моделей по количеству параметров, она достигает высокой точности прогнозов и превзойдет все другие модели на задачах GIFT-ZS и Chronos-ZS. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на двух задачах: GIFT-ZS и Chronos-ZS. Эти данные представляют собой временные ряды с различными частотами выборки. Модель FlowState была протестирована на различных конфигурациях, включая различные частоты выборки и прогнозируемые горизонты. Результаты показали, что FlowState не только превзошла все другие модели в терминах точности прогнозов, но и показала высокую эффективность в терминах вычислительных затрат. Благодаря своей способности адаптироваться к разным частотам выборки, FlowState показала стабильно хорошие результаты даже при изменении входных данных в режиме реального времени. Были также проведены **абляционные исследования**, которые подтвердили эффективность каждого компонента модели, включая SSM-based encoder и functional basis decoder. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FlowState имеет широкое применение в различных областях, где необходимо прогнозирование временных рядов с разными частотами выборки. Например, в области финансов, модель может быть использована для прогнозирования цен на фондовом рынке с различными интервалами времени. В промышленности, она может помочь в мониторинге и прогнозировании работы оборудования. Одним из ключевых преимуществ FlowState является её эффективность и малая размерность модели, что делает её пригодной для развертывания на устройствах с ограниченными вычислительными ресурсами. Кроме того, модель подходит для онлайн-адаптации, что делает её подходящей для приложений, требующих динамического изменения частоты выборки. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FlowState представляет собой значительный шаг вперед в области time series forecasting. Благодаря своей способности адаптироваться к разным частотам выборки и эффективному предварительному обучению, она предлагает новый подход к решению задач прогнозирования. В будущем, модель может быть дальше улучшена путем исследования более сложных декодеров или интеграции дополнительных функций для обработки многомерных временных рядов. Также, можно рассмотреть возможность применения FlowState в реальном времени для задач, требующих быстрого реагирования на изменения в данных.
Annotation:
Foundation models (FMs) have transformed natural language processing, but their success has not yet translated to time series forecasting. Existing time series foundation models (TSFMs), often based on transformer variants, struggle with generalization across varying context and target lengths, lack adaptability to different sampling rates, and are computationally inefficient. We introduce FlowState, a novel TSFM architecture that addresses these challenges through two key innovations: a state s...
ID: 2508.05287v1 cs.LG, cs.AI
Авторы:

Jelle Luijkx, Zlatan Ajanović, Laura Ferranti, Jens Kober

## КОНТЕКСТ И ПРОБЛЕМАТИКА Имитационное обучение является ключевым подходом в области машинного обучения, где агент учится выполнять задачи, имитируя поведение эксперта. Однако в интерактивном имитационном обучении (Interactive Imitation Learning, IIL), требуется значительный уровень взаимодействия с человеческим экспертом, что представляет собой существенное ограничение для широкого применения этого метода. Традиционные методы IIL часто опираются на активное обучение (Active Learning), чтобы сократить количество необходимых запросов к эксперту, фокусируясь на ситуациях, характеризующихся высокой неопределенностью, риском или новизной. Однако, в этих ситуациях, запланированные действия новичка (новичковские действия) обычно не используются, несмотря на то, что они могут содержать ценную информацию о возможностях и уровне неопределенности новичка. Проблема заключается в том, что традиционные подходы не позволяют эффективно использовать новичковские действия для улучшения процесса обучения. Это приводит к неоптимальному использованию ресурсов и повышенной необходимости в человеческом вмешательстве. Чтобы решить эту проблему, необходимо разработать метод, который не только сократит количество запросов к эксперту, но и будет эффективно использовать новичковские действия для улучшения процесса обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый метод под названием **Active Skill-level Data Aggregation (ASkDAgger)**, который использует обратную связь от учителя (эксперта) по отношению к запланированным действиям новичка. Этот метод включает в себя три основных компонента: 1. **S-Aware Gating (SAG)**: Этот компонент регулирует пороговые значения для отбора данных, основываясь на чувствительности, специфичности и минимальной скорости успешного выполнения. Это позволяет адаптировать процесс отбора данных к текущему уровню способностей новичка. 2. **Foresight Interactive Experience Replay (FIER)**: Этот компонент преобразует запланированные действия новичка в демонстрации, которые могут быть использованы для последующего обучения. Это позволяет использовать даже неудачные попытки новичка как ценный источник информации. 3. **Prioritized Interactive Experience Replay (PIER)**: Этот компонент оптимизирует процесс повторного использования данных, определяя приоритеты на основе уровня неопределенности, успешности новичка и возраста демонстраций. Это помогает сократить количество требуемых демонстраций и ускорить адаптацию агента к изменяющимся условиям. Общая архитектура ASkDAgger построена так, чтобы сбалансировать частоту запросов к эксперту и частоту неудачных попыток, уменьшить количество необходимых демонстраций и улучшить обобщающую способность агента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода ASkDAgger были проведены эксперименты на задачах манипуляции, управляемых языком, как в симуляционном, так и в реальном мире. Эксперименты показали, что ASkDAgger уменьшает количество необходимых запросов к эксперту, одновременно повышая успешность выполнения задач и скорость адаптации агента. В экспериментах использовались данные, полученные из симулятора и реального окружения, для моделирования различных сценариев взаимодействия между новичком и экспертом. Результаты показали, что ASkDAgger не только сокращает количество запросов к эксперту, но также повышает качество данных, используемых для обучения, благодаря эффективному использованию новичковских действий. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод ASkDAgger имеет значительное практическое применение в областях, где необходимо обучение агентов на основе демонстраций эксперта. Он может быть использован в таких доменах, как робототехника, автономные транспортные системы и интерактивные системы обучения. Преимущества ASkDAgger включают в себя сокращение частоты запросов к эксперту, улучшение качества обучения и быструю адаптацию к изменяющимся условиям. Потенциальное влияние этого метода заключается в упрощении процесса обучения агентов, что может привести к более широкому использованию имитационного обучения в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ASkDAgger представляет собой значительный шаг вперед в области имитационного обучения, позволяющий эффективно использовать новичковские действия для улучшения процесса обучения. Основные достижения этого метода включают в себя сокращение количества запросов к эксперту, повышение качества обучения и ускорение адаптации агента. В будущем, дальнейшие исследования могут фокусироваться на расширении этого метода для более сложных задач и доменов, а также на интеграции ASkDAgger с другими методами имитационного обучения для дальнейшего улучшения производительности.
Annotation:
Human teaching effort is a significant bottleneck for the broader applicability of interactive imitation learning. To reduce the number of required queries, existing methods employ active learning to query the human teacher only in uncertain, risky, or novel situations. However, during these queries, the novice's planned actions are not utilized despite containing valuable information, such as the novice's capabilities, as well as corresponding uncertainty levels. To this end, we allow the novic...
ID: 2508.05310v1 cs.LG, cs.AI, cs.HC, cs.RO, 68T05, I.2.6; I.2.8; I.2.9
Авторы:

Yi-Hsiu Liao, Cheng Shen, Brenda, Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Нейронные системы машинного перевода (Neural Machine Translation, NMT) достигли высоких результатов в автоматическом переводе, однако они часто сталкиваются с проблемами, связанными с разнообразием и качеством обучающих данных. Традиционные подходы к обучению NMT-моделей не учитывают метаданные корпуса, такие как доменность, качество и характеристики исходных данных. Это может приводить к недостаточной адаптации модели к конкретным доменам или низкому качеству перевода в незнакомых условиях. Одним из предложенных решений является подход Corpus Aware Training (CAT), который интегрирует метаданные корпуса непосредственно в процесс обучения, дополняя каждый пример данными о его происхождении. Этот подход, известный как "тэгирование", позволяет моделиадаптироваться к различным доменам и качественным характеристикам данных. Однако, традиционный CAT требует предварительного выбора высококачественных данных перед началом обучения, что может быть неэффективным и подверженным ошибкам. Кроме того, он может быть чувствителен к гиперпараметрам и иметь риск переобучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают Optimal Corpus Aware Training (OCAT), который является улучшенным вариантом CAT. OCAT основывается на использовании предварительно обученной CAT-модели, но вводит новый этап файн-тюнинга (fine-tuning), в ходе которого замораживаются большинство параметров модели, а только небольшая часть параметров, связанных с корпусом, подвергается дообучению. Этот подход позволяет сохранить общую структуру модели, избежать переобучения и сделать процесс обучения более эффективным. В рамках OCAT используется метод файн-тюнинга, который оптимизирует параметры, связанные только с корпусом, в то время как основная модель остается неизменной. Это позволяет модели эффективно адаптироваться к новым доменам или корпусам без необходимости переобучения всей модели. Авторы также показывают, что OCAT менее чувствителен к выбору гиперпараметров по сравнению с другими методами файн-тюнинга. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на двух наборах данных: WMT23 English to Chinese и WMT23 English to German translation tasks. Результаты показали значительное улучшение качества перевода по метрике chrF. Используя OCAT, модель достигла улучшения на +3.6 chrF для английского-китайского перевода и +1.8 chrF для английского-немецкого перевода по сравнению со стандартным обучением. Кроме того, OCAT показал сравнимые или лучшие результаты по сравнению с другими современными методами файн-тюнинга, при этом оказавшись менее чувствительным к выбору гиперпараметров. Это подтверждает преимущество OCAT в стабильности и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод OCAT имеет широкое применение в области нейронного машинного перевода, особенно в случаях, когда требуется быстрая адаптация модели к новым доменам или корпусам данных. Его легковесная архитектура и устойчивость к переобучению делают его привлекательным для практического использования в промышленных приложениях. OCAT также может быть полезен в ситуациях, где данные имеют различные качественные характеристики, позволяя модели эффективно адаптироваться к разным условиям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен метод Optimal Corpus Aware Training (OCAT), который значительно улучшает качество перевода в нейронных системах машинного перевода, используя метаданные корпуса. Результаты показали, что OCAT не только эффективен, но и менее чувствителен к гиперпараметрам по сравнению с другими методами. В будущем, авторы планируют исследовать применение OCAT на большем количестве языковых пар и доменов, а также исследовать влияние различных стратегий файн-тюнинга на качество перевода.
Annotation:
Corpus Aware Training (CAT) leverages valuable corpus metadata during training by injecting corpus information into each training example, and has been found effective in the literature, commonly known as the "tagging" approach. Models trained with CAT inherently learn the quality, domain and nuance between corpora directly from data, and can easily switch to different inference behavior. To achieve the best evaluation, CAT models pre-define a group of high quality data before training starts wh...
ID: 2508.05364v1 cs.LG, cs.AI
Показано 2871 - 2880 из 2901 записей