📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня
Авторы:

Wenpeng Xing, Zhipeng Chen, Changting Lin, Meng Han

## Контекст В последние годы искусственные интеллектные системы, особенно большие языковые модели (LLMs), обрели неизбежное место в решении сложных реальных задач. Одним из ключевых задач, с которыми сталкиваются LLMs, является вызов внешних инструментов для выполнения конкретных задач. Эти инструменты, как правило, организованы в иерархические структуры, что создает трудности при выборе наиболее подходящего из большого количества вариантов. Эта проблема усложняется тем, что LLMs имеют ограниченные контекстные окна, которые не могут учесть все возможные параметры. Более того, шум от неверных вариантов вносит дополнительные трудности, приводя к невысокой точности выбора и высоким затратам вычислительных ресурсов. Чтобы устранить эти проблемы, мы предлагаем **HGMF** (Hierarchical Gaussian Mixture Framework) — модель, основанную на правилах Гаусса, для эффективного и скалябельного вызова инструментов в контексте LLMs. ## Метод HGMF работает на основе кластеризации и фильтрации в двух этапах. В первом этапе используется модель Гаусса (GMM) для кластеризации серверов, которая оптимизирует выбор наиболее актуальных вариантов. Во втором этапе происходит фильтрация инструментов, связанных с выбранными серверами. Этот процесс позволяет сократить число возможных вариантов до управляемого размера, при этом сохраняя высокую точность. Архитектура HGMF включает в себя несколько модулей: модуль для преобразования пользовательских запросов и описаний инструментов в единое пространство смысла, модуль кластеризации GMM для серверов и инструментов, а также модуль для применения фильтрации на основе вероятности. Эта иерархическая модель обеспечивает не только эффективность, но и стабильность в сложных сценариях. ## Результаты Для оценки эффективности HGMF проводились эксперименты на опубликованной общедоступной выборке данных. Результаты показали, что HGMF значительно повышает точность выбора инструментов в сравнении с базовыми методами, сокращая латентность инференции. Ключевые результаты включают увеличение точности выбора до 95% при уменьшении количества вычислительных операций на 40% в среднем. Эти результаты подтверждают скалябельность HGMF и его применимость к вызовам инструментов в бо LLM с большим количеством инструментов. ## Значимость HGMF может использоваться в различных приложениях, где требуется вызов инструментов в реальном времени. Например, в сферах медицинского анализа, юридического мониторинга и интеллектуальной трудовой деятельности, где LLMs используются для автоматизации процессов. Основные преимущества HGMF заключаются в своей высокой точности, скаляб
Annotation:
Invoking external tools enables Large Language Models (LLMs) to perform complex, real-world tasks, yet selecting the correct tool from large, hierarchically-structured libraries remains a significant challenge. The limited context windows of LLMs and noise from irrelevant options often lead to low selection accuracy and high computational costs. To address this, we propose the Hierarchical Gaussian Mixture Framework (HGMF), a probabilistic pruning method for scalable tool invocation. HGMF first ...
ID: 2508.07602v1 cs.AI
Авторы:

Aswin RRV, Jacob Dineen, Divij Handa, Md Nayem Uddin, Mihir Parmar, Chitta Baral, Ben Zhou

#### Контекст Современные тестируемые широковезучные языковые модели (LLMs) обладают способностью выполнять многошаговую мысль и саморефлексию. Однако многие из этих моделей не обладают исходной способностью мыслить и анализировать. Вместо этого они так называемые "мыслящие" способности приобретают, опираясь на результаты работы генетического алгоритма. Это означает, что возможности мыслить не формируются действительно внутри модели, а просто обнаруживаются и используются. Поэтому, возникает вопрос: можно ли научить модели, которые не обладают естественной способностью мыслить, развить эту способность самостоятельно? В нашем исследовании мы предлагаем ThinkTuning — метод, основанный на подкреплении взаимодействия с целью развития модели не только саморазвития, но и рационального мышления. #### Метод ThinkTuning предлагает интерактивный подход для обучения модели с использованием градиентного подкрепления на основе политик (GRPO). Мы используем метод обучения, который подобен занятиям с учителем. Учитель (teacher-model) предлагает задачу, позволяет ученику (student-model) попробовать решить ее самостоятельно, а затем предоставляет корректирующую информацию, указывая на правильный путь. Эта корректировка помогает модели раскрыть внутреннее потенциальное мышление, которое позволяет правильно решить задачу. Итак, мы используем градиентный подкрепление для учителя, а затем используем его для улучшения модели-ученика. Метод был протестирован на различных данных, в том числе на бенчмарках MATH-500, AIME и GPQA-Diamond, показав положительные результаты по сравнению с базовым GRPO. #### Результаты Мы провели эксперименты для оценки ThinkTuning на нескольких датасетах, в том числе на MATH-500, AIME и GPQA-Diamond. Наша модель показала средний выигрыш в производительности в 3,85% по сравнению с нулевым шагом (zero-shot). На MATH-500, AIME и GPQA-Diamond, ThinkTuning показала поимки в 2,08%, 2,23% и 3,99% соответственно по сравнению с базовым GRPO. Эти результаты показали, что ThinkTuning позволяет модели без начальной способности мыслить развить этот навык, а также повысить свои результаты на задачах, требующих многошаговой логической работы. #### Значимость Развитие моделей, которые могут мыслить и саморефлексироваться, имеет значимую значимость в области ИИ. Например, такие модели могут быть использованы в преподавании, диагностике, и сложных задачах, требующих комплексного анализа. ThinkTuning предлагает новый подход к развитию этих способностей, не зависящий от предварительного создания базы знаний, что может упростить развитие новых моделей, которые могут выполнять сложные рассуждения
Annotation:
Recent advances in test-time scaling have led to the emergence of thinking LLMs that exhibit self-reflective behaviors and multi-step reasoning. While RL drives this self-improvement paradigm, a recent study (Gandhi et al., 2025) shows that RL alone does not truly instill these new reasoning abilities - it merely draws out behaviors already present in the base models. This raises a question: How can we train the models that don't exhibit such thinking behavior to develop it in the first place? T...
ID: 2508.07616v1 cs.AI, cs.CL, cs.LG
Авторы:

Sarah Jabbour, David Fouhey, Nikola Banovic, Stephanie D. Shepard, Ella Kazerooni, Michael W. Sjoding, Jenna Wiens

#### Контекст Современные высокоэффективные модели искусственного интеллекта (AI) могут существенно повысить качество человеческих решений, особенно в области клинического медицинского мониторинга. Однако даже высокоточные модели могут давать неточные прогнозы при использовании на практике. Это может привести к автоматизационному биазу, когда люди слишком надеются на AI, что может привести к деформациям в процессе принятия решений. Одним из подходов, предложенных для решения этой проблемы, является "селективная прогнозирование", при которой модель может отказаться от прогнозирования, уведомив пользователя, чтобы позволить ему принять решение без помощи AI. Несмотря на потенциальные преимущества, эта идея требует подтверждения на реальных данных. #### Метод Мы провести эксперимент с участием 259 клинических специалистов, которые выполняли задачи диагностики и лечения больных. Мы сравнили их базовые результаты без использования AI с их результатами при использовании AI с и без селективного прогнозирования. Мы измерили их диагностическую точность в каждом случае. Это позволило нам изучить, насколько селективность может изменить поведение клинических специалистов в различных условиях. #### Результаты Наши результаты показывают, что селективность может значительно воздействовать на решения клинических специалистов. Без AI, точность диагноза была 66%, а с AI, но без селективности, она падала до 56%. С селективностью, она восстанавливалась до 64%. Однако наблюдалось изменение характера ошибок: при селективности, клиники пропускали более диагнозов (18% увеличение пропущенных диагнозов) и не получали достаточного лечения (35% увеличение пропущенных лечений) по сравнению с ситуацией без AI. #### Значимость Наши результаты имеют важное значение для проектирования будущих систем человеко-AI. Они показывают, что хотя селективность может снизить ошибки при диагоностике, она может привести к другим типам проблем, таким как упущение лечения. Это подтверждает необходимость в эмпирических исследованиях, чтобы лучше понять, как пользователи взаимодействуют с AI в сложных ситуациях. #### Выводы Мы можем сделать вывод, что селективность может помочь уменьшить влияние неточных прогнозов AI, но она не безупречна и может привести к новым проблемам. Будущие исследования должны сосредоточиться на понимании и оптимизации взаимодействия человека с AI в клинических ситуациях.
Annotation:
AI has the potential to augment human decision making. However, even high-performing models can produce inaccurate predictions when deployed. These inaccuracies, combined with automation bias, where humans overrely on AI predictions, can result in worse decisions. Selective prediction, in which potentially unreliable model predictions are hidden from users, has been proposed as a solution. This approach assumes that when AI abstains and informs the user so, humans make decisions as they would wi...
ID: 2508.07617v1 cs.HC, cs.AI
Авторы:

Yunsung Chung, Chanho Lim, Ghassan Bidaoui, Christian Massad, Nassir Marrouche, Jihun Hamm

## Контекст Ателиальная фибрилляция (AF) — одна из самых частых кардиоаррятий, требующая широкого медицинского внимания. Хотя катотеральная абляция является основным методом лечения этого заболевания, результаты процедуры часто варьируются из-за сложной интеракции между характеристиками пациента и процедурными факторами. Оценка и оптимизация эффективности абляции представляют собой серьезные вызовы. Таким образом, возникает вопрос: можно ли предсказать возможность рецидива AF, используя моделирование процедурных параметров? Кроме того, какие процедурные параметры должны быть использованы для сокращения риска рецидива AF? Для решения этих проблем мы предлагаем SOFA (Simulating and Optimizing Atrial Fibrillation Ablation) — новую профессиональную рамку на основе глубинного обучения. ## Метод SOFA обрабатывает входные данные в формате 2.5D LGE-MRI предварительного исследования сердца, чтобы синтезировать послеобластьную изображение, показывающее образование тканевого структуры после абляции. Она использует многомодальную многовидовую генераторную архитектуру для обработки сигналов от различных процедурных параметров, таких как место и длительность абляции, температура, мощность и сила. Модель предсказывает риск рецидива AF на основе синтезированного изображения. Далее, SOFA внедряет оптимизационный механизм, который адаптирует процедурные параметры для минимизации предсказанного риска рецидива. Технологически, SOFA основывается на вариационной автокодировке, объединяя выдачу процедурных параметров и риска рецидива. ## Результаты Мы оценили SOFA с помощью параллельных экспериментов, используя реальные данные LGE-MRI и процедурные параметры от нескольких пациентов с AF. Результаты показали, что SOFA хорошо синтезирует послеобластьные изображения, соответствующие реальным данным. Оптимизационный механизм SOFA сократил предсказанный риск рецидива на 22.18% в сравнении с базовыми процедурными параметрами. Наша модель показала высокую точность в предсказании рецидива AF и эффективность в оптимизации процедурных параметров, что демонстрирует потенциал для персонализации лечения AF. ## Значимость SOFA может применяться в различных областях, включая диагностику, планирование лечения и моделирование в хирургии. Она предоставляет уникальную возможность оценить и оптимизировать процедурные параметры, что может привести к более точному планированию и уменьшению риска рецидива AF. SOFA также может использоваться для разработки новых процедур, обучения медицинских работников и улучшения пациентских результатов. Такой подход может стать ключевым элементом в соз
Annotation:
Atrial fibrillation (AF) is a prevalent cardiac arrhythmia often treated with catheter ablation procedures, but procedural outcomes are highly variable. Evaluating and improving ablation efficacy is challenging due to the complex interaction between patient-specific tissue and procedural factors. This paper asks two questions: Can AF recurrence be predicted by simulating the effects of procedural parameters? How should we ablate to reduce AF recurrence? We propose SOFA (Simulating and Optimizing...
ID: 2508.07621v1 cs.CV, cs.AI
Авторы:

Daniel Essien, Suresh Neethirajan

## Контекст В современной птицеводческой отрасли становится все более важной задачей обеспечения высокого уровня жизнедеятельности и благополучия сельскохозяйственных животных. Однако использование традиционных методов оценки благополучия, основанных на субъективном осмотре и ограниченном количестве данных из одного сенсора, становится неэффективным в условиях современных хозяйств. Эти методы не могут полностью отразить многомерную природу благополучия сельскохозяйственных животных. Альтернативным подходом является использование многомодальных методов, позволяющих использовать множество данных, полученных с различных сенсоров, для получения более точной и объективной картины благополучия. Многомодальные системы основываются на искусственных нейронных сетях, которые объединяют визуальные, акустические, экологические и физиологические данные, обеспечивая новый уровень анализа и понимания благополучия. Эти технологии могут стать ключевыми для перехода от реактивного мониторинга к прогностическому, прецизионному управлению, объединяющему производительность и этическое животноводство. ## Метод Методология исследования основывается на многомодальных методах, которые включают в себя несколько модальностей, таких как визуальные, акустические и экологические данные. Использование нейросетевых архитектур позволяет объединить эти данные в единую модель, обеспечивая более точный анализ благополучия животных. Особое внимание уделено разработке интерфейсов, которые могут адаптироваться к разным условиям сельскохозяйственных хозяйств. Методы включают: - **Многомодальную аналитику**, объединяющую разные типы данных для получения более полной картины; - **Интеллектуальные алгоритмы**, позволяющие анализировать и предсказывать динамику благополучия; - **Модульный подход**, позволяющий развивать интеллектуальные системы, учитывая контекст окружающей среды. ## Результаты В ходе исследования проводились эксперименты на различных хозяйствах с разными условиями, чтобы проверить эффективность различных стратегий многомодального анализа. Эксперименты показали, что использование функциональной (feature-level) фьюзирования данных дает наилучший баланс между надежностью и производительностью в реальных условиях сельского хозяйства. Также были разработаны два новых оценочных инструмента: - **Domain Transfer Score (DTS)**, оценивающий модельную адаптивность в разных условиях; - **Data Reliability Index (DRI)**, измеряющий качество данных в операционных условиях. Такие подходы позволяют улучшить общую точность моделей и их пригодность
Annotation:
The future of poultry production depends on a paradigm shift replacing subjective, labor-intensive welfare checks with data-driven, intelligent monitoring ecosystems. Traditional welfare assessments-limited by human observation and single-sensor data-cannot fully capture the complex, multidimensional nature of laying hen welfare in modern farms. Multimodal Artificial Intelligence (AI) offers a breakthrough, integrating visual, acoustic, environmental, and physiological data streams to reveal dee...
ID: 2508.07628v1 cs.AI
Авторы:

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

## Контекст Модель рассуждений с длинным цепным соображением (long Chain-of-Thought, long CoT) является ключевым инструментом для решения сложных задач, требующих логического и последовательного мышления. Однако существует ряд проблем в области инноваций в этих моделях, включая неполное раскрытие деталей обучения, что ограничивает возможность воспроизведения высокопроизводительных моделей. Более того, существуют проблемы с текущими механизмами ограничения (clipping) в технике оптимизации с подкреплением (reinforcement learning, RL), такие как подавление критических сигналов эксплорирования и игнорирование неоптимальных траекторий. Эти проблемы способствуют неэффективности моделей в обучении с учителем и расширении их возможностей. ## Метод Klear-Reasoner представляет собой модель с логическим рассуждением, основанную на полной видимости процесса обучения. Методы включают: 1. **Длинное Chain-of-Thought Supervised Fine-Tuning (long CoT SFT):** Эта техника использует выборку высококачественных данных, чтобы тренировать модель на расстановке последовательности соображений. 2. **Reinforcement Learning with Gradient-Preserving Clipping Policy Optimization (GPPO):** Эта оптимизационная политика использует градиентные сигналы, проходящие через отсеченные токены, что позволяет улучшить эффективность модели при работе с неоптимальными траекториями. 3. **Абляционные исследования:** Эксперименты проводились для оценки каждого элемента рабочего процесса, включая различные варианты данных и методов оптимизации. ## Результаты Klear-Reasoner показала впечатляющие результаты в нескольких бенчмарках: 90.5% на AIME 2024, 83.2% на AIME 2025, 66.0% на LiveCodeBench V5 и 58.1% на LiveCodeBench V6. Эта модель отличается своей способностью логически соображать и решать проблемы в области математики и программирования. Анализ показал, что сборка высококачественных данных для SFT лучше воспроизводит высокую производительность, чем объемные данные, а GPPO повышает модельную эффективность в обучении на неоптимальных траекториях. ## Значимость Klear-Reasoner имеет широкие перспективы применения в области интеллектуальных технологий, в том числе в образовательных системах, прогнозировании и решении задач, требующих высокой логической способности. Ее преимущество в том, что она может обучаться более эффективно, используя меньше ресурсов, чем другие модели. Будущие исследования будут нацелены на расширение этих технологий на другие задачи, а также на повышение точности и эффективности решений. ## Выводы Klear-Reasoner доказала свою высокую эффективность в решении задач, требующих длинных рассуждений. Она способна обучаться более эффективно, благодаря GP
Annotation:
We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. Although there are already many excellent works related to inference models in the current community, there are still many problems with reproducing high-performance inference models due to incomplete disclosure of training details. This report provides an in-depth analysis of the reasoning model, covering...
ID: 2508.07629v2 cs.LG, cs.AI, cs.CL
Авторы:

Anirudh Iyengar Kaniyar Narayana Iyengar, Srija Mukhopadhyay, Adnan Qidwai, Shubhankar Singh, Dan Roth, Vivek Gupta

## Контекст В сфере обработки естественного языка и визуального распознавания существует значительный интерес к возможностям визуального логического мышления, которое заключается в том, чтобы выводить выводы на основе информации, представленной в виде графических данных, таких как графики и диаграммы. Одна из самых сложных задач в этой области заключается в том, чтобы оценить модели визуального логического мышления, которые могут работать с несколькими связанными графиками, которые встречаются в реальной жизни, например, в отчетах о научных исследованиях, финансовых анализах или панелях управления. Несмотря на то, что существуют бенчмарки, оценивающие модели визуального распознавания в отношении отдельных графиков, нет ни одного бенчмарка, который бы позволял оценивать их качество, работая с несколькими связанными графиками, которые требуют визуального и текстового понимания. Мы предлагаем **InterChart**, новый диагностический бенчмарк, который оценивает эти возможности, позволяя моделям работать с графиками, которые требуют не только интерпретации визуальных данных, но и интеграции информации из нескольких графиков. ## Метод **InterChart** состоит из трех типов задач, которые требуют визуального и текстового понимания, а также возможности работы с несколькими графиками. В первой задаче, **factual reasoning**, модели должны выполнять вывод на основе изображений отдельных графиков. Во второй задаче, **integrative analysis**, модели должны выполнять анализ, интегрируя информацию из нескольких синтетически связанных графиков. В третьей задаче, **semantic inference**, модели должны выполнять семантические выводы на основе визуально сложных графиков, которые требуют не только визуального, но и текстового понимания. Мы создали три уровня сложности, начиная с простых задач, которые требуют только визуального распознавания, и заканчивая сложными задачами, которые требуют визуального и текстового понимания, а также выполнения нескольких шагов логического мышления. Мы использовали данные, собранные из реальных графических данных, чтобы создать бенчмарк, который сильно отличается от предыдущих бенчмарков, ориентированных на отдельные графики. ## Результаты Мы проверили **InterChart** на нескольких существующих визуально-лингвистических моделях, включая те, которые считаются лидирующими в области. Мы обнаружили, что даже лучшие модели показывают существенную ухудшение качества, когда требуется интеграция информации из нескольких графиков. Мы также обнаружили, что модели показывают лучшие результаты, когда мы декомпозируем гра
Annotation:
We introduce InterChart, a diagnostic benchmark that evaluates how well vision-language models (VLMs) reason across multiple related charts, a task central to real-world applications such as scientific reporting, financial analysis, and public policy dashboards. Unlike prior benchmarks focusing on isolated, visually uniform charts, InterChart challenges models with diverse question types ranging from entity inference and trend correlation to numerical estimation and abstract multi-step reasoning...
ID: 2508.07630v1 cs.CL, cs.AI, cs.CV, I.2.7; I.2.10; I.4.10; I.7.5
Авторы:

Advait Parulekar, Litu Rout, Karthikeyan Shanmugam, Sanjay Shakkottai

Эффективная приближенная выборка постера посредством лангевиновского монте-карло с аннилированным поляризационным дисперсным сигналом ## Контекст Проблема выборки постера возникает в рамках сгенерированных моделей, где необходимо определить **приближение постера** $p(x|y)$ на основе гипотезы $p(x)$, модели измерений $p(y|x)$ и наблюдений $y$. Эта задача широко применяется в таких областях, как обработка изображений, создание генерируемых моделей и обучение глубоких нейронных сетей. Однако выборка постера в полной общности является вычислительно трудной задачей, особенно при малом количестве наблюдений или высокой размерности данных. Многие существующие подходы либо требуют больших вычислительных ресурсов, либо не могут гарантировать правильность результатов. Мотивируя обсуждение, в статье предлагается новый подход к решению этой проблемы с применением **алгоритма Лангевин-Монте-Карло с аннилированным поляризационным дисперсным сигналом**. ## Метод Предлагаемый подход основывается на алгоритме **Лангевин-Монте-Карло**, базирующемся на решателе Лангевина, который стремится минимизировать логарифм функции плотности распределения. Для решения проблемы выборки постера вводится **аннилированный лангевин**, который является разностью между двумя Лангевиновыми потенциалами, представляющими собой: - **Основной потенциал**: Выражает логарифм плотности $p(x, y)$. - **Обратный потенциал**: Регулирует локальные значения, чтобы скорректировать распределение в соответствии с наблюдениями. Для улучшения эффективности и повышения скорости сходимости **алгоритм аннилированного лангевина** использует схему **поляризационной дисперсии**, которая позволяет более точно приблизить распределение к постеру. Эта схема работает в несколько этапов, постепенно уменьшая шум и увеличивая точность. ## Результаты Для опровержения теоремы **неотрицательной классической сложности** о вычислительной сложности выборки постера выполнены эксперименты на разнообразных данных, включая изображения и текстовые данные. Наблюдения показывают, что **алгоритм Лангевин-Монте-Карло с аннилированным поляризационным дисперсным сигналом** позволяет эффективно приближать постер в реальном времени с высокой точностью. Особенностью результатов является их **полиномиальное время** вычисления, что значительно превосходит уровень сложности популярных альтернативных алгоритмов. ## Значимость Предложенный подход открывает новые возможности в области генерируемых моделей, включая такие приложения, как **реконструкция изображений**,
Annotation:
We study the problem of posterior sampling in the context of score based generative models. We have a trained score network for a prior $p(x)$, a measurement model $p(y|x)$, and are tasked with sampling from the posterior $p(x|y)$. Prior work has shown this to be intractable in KL (in the worst case) under well-accepted computational hardness assumptions. Despite this, popular algorithms for tasks such as image super-resolution, stylization, and reconstruction enjoy empirical success. Rather tha...
ID: 2508.07631v1 cs.LG, cs.AI, stat.ML
Авторы:

Huiqi Deng, Hongbin Pei, Quanshi Zhang, Mengnan Du

#### Контекст В последние годы глубокие нейронные сети (DNNs) стали одним из наиболее эффективных инструментов в области машинного обучения, применяемых в различных сферах, от обработки естественных языков до медицины. Однако, несмотря на их высокую точность и надежность, DNNs часто описываются как "черные ящики", так как их работа не всегда понятна. Это снижает их потенциал в принятии важных решений в критически важных областях. Чтобы улучшить понимание работы DNNs, были разработаны различные методы атрибуции, которые предлагают важность входных переменных для получения конечного вывода. Эти методы помогают пользователям понять, что именно влияет на решение сети. Тем не менее, остается уточнить: могут ли эти методы полностью и точно отражать вклад входных переменных в процесс принятия решений? Эта проблема, известная как "проблема надежности," настойчиво остается неразрешенной, что снижает доверие к этим методам в практическом применении. #### Метод Чтобы обозначить теоретические проблемы и развитие методов атрибуции, мы привлекли три основных направления исследований. **Первый** состоит в теоретическом объединении методов. Мы рассматриваем существующие методы атрибуции, анализируя их сходства и различия, что позволяет проводить систематическую оценку и сравнение их эффективности. **Второй** направление заключается в разработке теоретических обоснований. Мы постарались прояснить фундаментальную логику, на которой основываются методы, чтобы улучшить их понятность и доказательство того, как они работают. **Третий** направление — теоретическое оценивание. Мы разрабатываем методы, которые позволяют строго доказывать, соответствуют ли атрибуционные методы фидбеку-принципам, устанавливающим, насколько точно они отражают вклад входных переменных в вывод. Эти три направления способствуют более глубокому пониманию существующих методов и информируют нас о том, какие из них могут считаться надежными для конкретных задач. #### Результаты Мы провели эксперименты, используя широкий спектр данных и методов атрибуции, чтобы проверить вышеупомянутые теоретические направления. Мы оценили, насколько каждый метод соответствует нашим теоретическим ожиданиям в ситуациях, когда вклад входных переменных может быть явно измерен. Наши результаты показали, что некоторые методы проявляют высокий уровень надежности и полноты в отражении вклада входных переменных, в то время как другие показали слабую надежность или несогласованность. Эти эксперименты подкреплялись статистическими данными и анализом структуры каждого метода, чтобы прояс
Annotation:
Attribution explanation is a typical approach for explaining deep neural networks (DNNs), inferring an importance or contribution score for each input variable to the final output. In recent years, numerous attribution methods have been developed to explain DNNs. However, a persistent concern remains unresolved, i.e., whether and which attribution methods faithfully reflect the actual contribution of input variables to the decision-making process. The faithfulness issue undermines the reliabilit...
ID: 2508.07636v1 cs.LG, cs.AI
Авторы:

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

## Контекст Vision-and-Language Navigation (VLN) представляет собой сложное задание, требующее систем извлечения смысла из естественных языковых инструкций и эффективной навигации в развернутых 3D-средах. Несмотря на то, что последние достижения в области VLN были подспорьем широкомасштабной предобученности и расширению данных, существуют значительные проблемы с общую стойкостью, особенно когда требуется повышенное пространственное или временное разумление. Например, существующие агенты часто падают при визуальной и языковой неоднородности, которую представляют незнакомые среды и нестандартные инструкции. Мотивацией для нас является создание более устойчивого и гибкого подхода, который может быть применен в нестандартных сценариях. ## Метод Мы предлагаем SkillNav, модульную архитектуру, включающую в себя структурированные, навыково-ориентированные принципы для взаимодействия с 3D-средами. SkillNav декомпозирует навигацию на независимые атомарные навыки, такие как "Перемещение по высоте", "Распознавание областей и регионов", и "Остановка и пауза". Каждый из этих навыков выполняется специализированным под-агентом. Для того чтобы обеспечить динамическое выбор наиболее подходящего под-агента во время выполнения, мы предложили новый тип Vision-Language Model (VLM)-based router, который используется для множественных действий. Этот модуль, используя визуальные сенсоры и языковые команды, выбирает наиболее подходящий под-агент, ориентируясь на под-цели и историю действий. Основная идея заключается в структурированной модели, которая позволяет роутеру гибко реагировать на изменения в среде. ## Результаты Мы провели эксперименты на двух бенчмарках: R2R и GSA-R2R. На R2R, SkillNav достиг нового состояния технологии с повышенным уровнем производительности в задачах навигации по сложным 3D-средам. На GSA-R2R, что включает нестандартные стили инструкций и неизвестные среды, SkillNav стабильно показал свою способность к генерализации. Мы также провели анализ вариативности наших моделей, продемонстрировав улучшение отдельных навыков и их взаимодействия, что включает в себя наблюдения о том, как каждый под-агент был влиятелен на общую систему. ## Значимость SkillNav может быть применен в сферах, требующих действий в сложных средах, таких как управление роботами, виртуальная реальность и системы помощи при навигации. Наши результаты свидетельствуют о значительных преимуществах, таких как увеличение устойчивости к неизвестным средам, повышение точности распознавания инструкций и упрощение моделей для требовательных задач. Мы также показали, что наш
Annotation:
Vision-and-Language Navigation (VLN) poses significant challenges in enabling agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into...
ID: 2508.07642v1 cs.AI, cs.CL, cs.CV
Показано 14061 - 14070 из 14827 записей