📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Hikaru Tsujimura, Arush Tagade

Описание: Статья LLM Assertiveness Can Be Mechanistically Decomposed into Emotional and Logical Components изучает проблему высокой уверенности (assertiveness) в выдаче ответов бо LARGE LANGUAGE MODELS (LLMs). Эта проблема возникает в высоком контексте, когда LLMs придают свои позиции особой уверенностью, несмотря на недостаточную или несокращенную доказательственную базу. Такое поведение может быть опасным в критически важных ситуациях. Авторы предпринимают попытку разобраться в причинах этого поведения, анализируя внутренние механизмы, которые приводят к тем или иным решениям. ## Контекст В настоящее время LLMs становятся все более присутствующими в нашей повседневной жизни, особенно в сферах, где точность и качество ответов критически важны. Тем не менее, при работе с LLMs возникают некоторые проблемы, вроде превосходства их уверенности в ответах, которая иногда берется на себя более тщательно рассмотренные выводы. Этот "склонность к уверенности" может привести к неверным выводам, особенно когда требуется специализированная информация. Общий характер данной проблемы заключается в том, что LLMs не всегда достаточно тщательно разбираются в поставленной задаче, а скорее говорят то, что могут показаться достаточно уверенными. Авторы исследуют этот вопрос, взяв за основу исследование определённого механизма, называемого **assertiveness**, и пытаются разобраться, каким образом он влияет на работу LLMs. ## Метод Чтобы изучить проблему с assertiveness в LLMs, авторы применяют модель Llama 3.2, которая была приучена на открытые наборы данных, связанных с assertiveness. Эта модель позволяет изучать внутренние механизмы LLMs, разбирая данные по каждому выходу модели. Авторы используют специальные методы интерпретации моделей, такие как расчёт сходства между реакциями модели и откликами на assertiveness в заданных данных. Таким образом, они могут выявить, какие слои модели наиболее влияют на уровень assertiveness в ответах. Для определения того, каким образом assertiveness влияет на модель, авторы построили специальные векторы, которые позволяют явно заметить как эмоциональные, так и логические стороны уверенности в ответах. ## Результаты В результате исследований авторы выявили, что assertiveness в LLMs может быть разделена на две основные компоненты: эмоциональную и логическую. Эмоциональная компонента, как правило, влияет на общий характер ответа, в то время как логическая компонента оказывает более локализованное влияние на конкретные части ответа. Авторы также выявили, что каждая из компонент имеет свои характерные влияния. Например, эмоциональный вектор влияет на общую степень точности ответа, в то время как логический вектор влияет только на конкретные части ответ
Annotation:
Large Language Models (LLMs) often display overconfidence, presenting information with unwarranted certainty in high-stakes contexts. We investigate the internal basis of this behavior via mechanistic interpretability. Using open-sourced Llama 3.2 models fine-tuned on human annotated assertiveness datasets, we extract residual activations across all layers, and compute similarity metrics to localize assertive representations. Our analysis identifies layers most sensitive to assertiveness contras...
ID: 2508.17182v1 cs.LG, cs.AI, cs.CL
Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

#### Контекст Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светлые и технологические аспекты. Одна из самых важных задач в области транспорта — достичь предельной полноты понимания дорожной среды с помощью анализа видеоданных. Эта задача включает в себя различные задачи, такие как классификация погодных условий, оценка влажности полотна дороги и потоковый трафик. Однако существуют значительные ограничения в точности, эффективности и ресурсоемкость существующих систем. Многие системы используют монолитные архитектуры, которые неэффективно обрабатывают разнообразные данные. Необходима новая подходящая многоагентная система, которая сможет решать несколько задач одновременно, обеспечивающая быстродействие и высокую точность. #### Метод Мы предлагаем многоагентный фреймворк для многозадачного понимания дорожной среды, основанный на стратегии "смеси экспертов". Этот фреймворк использует большую генерическую модель зрения и языка (VLM), такую как GPT-4o, для контекстуализации с помощью данных о специальных темах. Эти конкретные задачи, выраженные в виде цепочки мыслей (CoT-промптов), используются для управления меньшей, но эффективной моделью VLM (например, Qwen2.5-VL-7B). Эта модель выполняет рассуждение в небольших видеопотоках и может взаимодействовать с другими модальностями, такими как видео и датчики дорожного окружения. Многоагентная система может работать с несколькими задачами, включая классификацию погодных условий, оценку влажности полотна дороги и обнаружение транспортной загруженности. Такая система обеспечивает высокую точность и эффективность, при этом решая несколько задач сразу. #### Результаты Мы проводили ряд экспериментов, используя три специализированных набора данных, которые соответствуют вышеупомянутым задачам. Для паведмент-витрины мы использовали многомодальные данные, включающие видео и данные с дорожных датчиков. Экспериментальные результаты показали, что наш фреймворк показывает высокую точность в различных ситуациях, включая технические условия, такие как дожди и снег. Наши результаты показали, что наша многоагентная система значительно превосходит существующие методы, обеспечивая более точный и эффективный анализ дорожной среды. #### Значимость Наш фреймворк может применяться в различных сферах, таких как отдаленное мониторинговое трафиковое управление, системы автоматического обнаружения дорожных условий и технологии поддержки решений. Он предлагает существенные преимущества,
Annotation:
This paper introduces a multi-agent framework for comprehensive highway scene understanding, designed around a mixture-of-experts strategy. In this framework, a large generic vision-language model (VLM), such as GPT-4o, is contextualized with domain knowledge to generates task-specific chain-of-thought (CoT) prompts. These fine-grained prompts are then used to guide a smaller, efficient VLM (e.g., Qwen2.5-VL-7B) in reasoning over short videos, along with complementary modalities as applicable. T...
ID: 2508.17205v1 cs.CV, cs.AI, cs.CL, eess.IV
Авторы:

Zicong Tang, Ziyang Ma, Suqing Wang, Zuchao Li, Lefei Zhang, Hai Zhao, Yun Li, Qianren Wang

## Контекст Large Vision-Language Models (LVLMs) обрабатывают мультимодальные входные данные, включая текстовые токены и визуальные токены, извлеченные из изображений или видео. Из-за богатой визуальной информации одно изображение может сгенерировать тысячи визуальных токенов, что приводит к высоким вычислительным затратам в процессе префиллинга и значительному наложению памяти во время декодирования. Несмотря на то, что существующие методы предлагают снижать число визуальных токенов, они часто сталкиваются с проблемами в глубоких слоях, где недостаточно контекстной информации. Мы утверждаем, что многие визуальные токены являются излишними даже в слоях с меньшим контекстом и могут быть безопасно и эффективно удалены при использовании соответствующих сигналов контекста. В настоящей работе мы предлагаем CoViPAL — метод упрощения визуальных токенов, работающий на уровне каждого слоя, и использующий модуль Plug-and-Play Pruning Module (PPM) для предсказания и удаления излишних визуальных токенов перед их обработкой LVLMs. ## Метод CoViPAL основывается на многоуровневом подходе к упрощению визуальных токенов, используя Plug-and-Play Pruning Module (PPM). PPM является легковесным и модель-агностичным, что позволяет его интегрировать с любыми моделями LVLM без изменения их основной архитектуры. PPM работает на основе контекстной информации, извлекаемой из визуальных токенов и текстовых токенов, и применяет метод предсказания и удаления ненужных токенов. Этот метод позволяет уменьшить количество токенов, обрабатываемых LVLM, без ущерба для точности или значительного увеличения времени обучения. Мы также разработали архитектуру PPM таким образом, чтобы она могла оперировать в реальном времени, что обеспечивает высокую эффективность и гибкость. ## Результаты Мы провели эксперименты на нескольких бенчмарках, используя разные модели LVLM, и сравнили результаты CoViPAL с другими методами упрощения визуальных токенов. Наши результаты показали, что CoViPAL превосходит методы, не требующие обучения, при одинаковых ограничениях по числу токенов и показывает лучший результат по сравнению с тренируемыми методами, обладающими похожим количеством подкрепления. Мы также проанализировали эффективность PPM на разных слоях LVLMs и показали, что он эффективно снижает нагрузку на память и вычисления во всех слоях, в том числе в глубоких и малоконтекстных. Эти результаты демонстрируют высокую эффективность и гибкость CoViPAL в решении проблемы высоких затрат на обработку визуальных данных в LVLMs. ## Значимость CoViPAL предлагает новую точку зрения на проблему упрощения визу
Annotation:
Large Vision-Language Models (LVLMs) process multimodal inputs consisting of text tokens and vision tokens extracted from images or videos. Due to the rich visual information, a single image can generate thousands of vision tokens, leading to high computational costs during the prefilling stage and significant memory overhead during decoding. Existing methods attempt to prune redundant vision tokens, revealing substantial redundancy in visual representations. However, these methods often struggl...
ID: 2508.17243v1 cs.CV, cs.AI, cs.CL
Авторы:

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

#################### ## Контекст #################### В последние годы появилось множество значительных прогрессов в области бо LARGE VISION-LANGUAGE MODELS (LVLMs), которые обеспечивают мощные возможности в анализе и понимании изображений и текста. Однако существуют значительные недостатки в их понимании структурированных данных, таких как таблицы и графики, а также в их производительности при решении задач, требующих продвинутого математического моделирования. Эти проблемы видны особенно в решении задач, которые требуют расширенного знания, таких как оценка данных, экстраполяция и логическое связывание. Например, существуют нерешительные результаты в области визуального анализа спортивных статистических данных. Этот исследовательский подход исследует эти проблемы в контексте спортивных статистических данных, особенно в связи с их значимостью в решении характеристик спортивных матчей. #################### ## Метод #################### Чтобы устранить эти проблемы, мы предлагаем **MMCRICBENCH-3K**, который представляет собой бенчмарк для оценки производительности LVLMs на Visual Question Answering (VQA) задачах с использованием спортивных статистических данных. Мы генерируем 1 463 синтетических изображений скорок, как в ODIs, так и в T20 и Test-форматах, и создаем 1 500 вопросов-ответов на английском языке, которые требуют развитого анализа, такого как вычисления счета, прогнозирование результатов и логическое сопоставление. Датасет делится на две подвыборки: **MMCRICBENCH-E-1.5K**, содержащий изображения скорок на английском языке, и **MMCRICBENCH-H-1.5K**, содержащий изображения скорок на хинди. Измерения выполняются на английском языке, чтобы обеспечить сравнение в рамках одного языка, но с разными стилями ввода. Датасет предоставляет структурированные таблицы, в которых ключевые статистические метрики определяют трудные задачи моделирования. #################### ## Результаты #################### Мы проводим эксперименты с популярными LVLMs, включая GPT-4o и Qwen2.5VL. Результаты показали, что даже на английском языке, где LVLMs получают наибольший объем данных для обучения, модели сталкиваются с значительными недостатками в продвинутых задачах по логическому восприятию и вычислениям. На хинди-подвыборке, где такие модели сталкиваются с узкими наборами данных, производительность значительно ухудшается. Эти результаты также подтверждают, что LVLMs имеют ограниченную способность к контексту, требующему расширенного знания. Отчеты показывают, что проблема во взаимодействии моделей с необходимыми структурными данными и контекстом до сих пор не решена. #################### ## Значи
Annotation:
We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA) on cricket scorecards, designed to evaluate large vision-language models (LVLMs) on complex numerical and cross-lingual reasoning over semi-structured tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English scorecards, and MMCRICBENCH-H-1.5K, containing vi...
ID: 2508.17334v2 cs.CV, cs.AI, cs.CL, cs.LG
Авторы:

Nikolaos Pavlidis, Vasilis Perifanis, Symeon Symeonidis, Pavlos S. Efraimidis

#### Контекст Large Language Models (LLMs), развиты для обработки естественных языков, продемонстрировали возможность общего применения в различных областях. Используя внедренное обучение (in-context learning, ICL), LLMs могут выполнять предсказательные задачи структурированных данных без прямого оптимизационного адаптирования к конкретным задачам. Однако, необходимо изучить их эффективность на реальных структурированных данных, особенно в контексте малограмотных наборов данных. В настоящем исследовании мы исследуем эмпирические возможности LLMs в качестве предсказателей для классификации, регрессии и кластеризации на небольших табличных наборах данных, а также проводим сравнение с методами машинного обучения, такими как линейные модели, пакетные методы и модели воспроизводства табличных данных. #### Метод Мы используем несколько моделей LLMs, включая GPT-5, GPT-4o, GPT-o3, Gemini-2.5-Flash и DeepSeek-R1, применяемые в условиях нескольких выводов (few-shot prompting). Для оценки качества прогнозирования мы используем метрики качества, такие как точность классификации, MAE для регрессии и silhouette score для кластеризации. Для машинного обучения мы применяем классические модели, такие как линейные регрессоры, случайный лес и модели XGBoost, а также модели Tabular Foundation Models (TFMs), оптимизированные для табличных данных. Данные для экспериментов были сгенерированы из различных типов задач наборов данных, включая категориальные и числовые признаки. #### Результаты LLMs доказали высокую эффективность в задачах классификации даже при ограниченных объемах данных, устанавливая базовые значения для нулевого обучения. Однако, в задачах регрессии, где требуется прогнозирование непрерывных значений, результаты LLMs были значительно хуже, чем у использованных ML-моделей. Это можно объяснить тем, что регрессионные задачи требуют прогнозирования в большом (или бесконечном) пространстве значений. Для кластеризации результаты LLMs также остались невысокими, что можно связать с отсутствием реального внедренного обучения в этой области. #### Значимость Наше исследование открывает новые возможности для применения LLMs в бизнес-аналитике и эксплорейторных задачах, где необходим быстрый анализ данных. Модели LLMs могут стать важной альтернативой традиционным ML-процессам в таких областях. Мы также выявили, что качество прогнозирования LLMs сильно зависит от контекстного размера и структуры карт запросов (prompts), что может помочь оптимизировать их применение в практических ситуациях. #### Выводы Мы показали, что LLMs могут выступать как универсальные предсказатели для структурированных данных, при этом имеют сильные стороны в задачах классификации и существенные ограничения в регрессии и
Annotation:
Large Language Models (LLMs), originally developed for natural language processing (NLP), have demonstrated the potential to generalize across modalities and domains. With their in-context learning (ICL) capabilities, LLMs can perform predictive tasks over structured inputs without explicit fine-tuning on downstream tasks. In this work, we investigate the empirical function approximation capability of LLMs on small-scale structured datasets for classification, regression and clustering tasks. We...
ID: 2508.17391v1 cs.AI, cs.CL
Авторы:

Andrzej Szablewski, Marek Masiak

#################### ## Контекст #################### В последние несколько лет трансформеры стали основополагающей архитектурой для различных задач машинного обучения, включая текстовую подготовку, генерацию текста и даже обработку изображений. Одна из ключевых особенностей трансформеров — это их слои, которые обрабатывают информацию с помощью нелинейных операций. Однако механизм, по которому эта информация перемещается между слоями, часто остается недостаточно исследованным. Это может привести к непредсказуемым поведениям моделей, в том числе к нежелательным эффектам, таким как jailbreaking. Более того, понимание этого процесса может помочь в раннем выявлении и исправлении ошибок модели. В данной работе мы формулируем цель: изучить, как линейные и нелинейные операции взаимодействуют внутри моделей трансформеров, сформулировать универсальные методы для определения линейного характера перемещения информации и оценить его важность в работе моделей. #################### ## Метод #################### Мы предлагаем Activation Transport Operators (ATO) — новую методологию для изучения линейного перемещения информации в моделях трансформеров. ATO представляют собой линейные операторы, которые могут определить, была ли некоторая информация линейно перенесена из одного слоя в другой, или была синтезирована нелинейной слойскими операциями. Мы используем SAE-проекции для оценки этих операторов в пространстве признаков. Для оценки эффективности линейного перемещения мы вводим понятие "transport efficiency" — меру того, насколько значительна линейная составляющая в перемещении информации. Также мы оцениваем размер подпространства в residual stream, которое принадлежит линейному перемещению. Одним из основных преимуществ ATO является их низкий расход вычислительных ресурсов — метод не требует тюнинга модели и может быть запущен за несколько часов на GPU. #################### ## Результаты #################### Мы проводим эксперименты на нескольких моделях transformer, включая GPT-2 и GPT-3. Мы проверяем, насколько хорошо ATO могут определить, была ли некоторая информация линейно перенесена из одного слоя в другой. Наши результаты показывают, что ATO демонстрирует высокую точность в определении линейного характера перемещения информации. Мы также исследуем размер подпространства, ответственного за линейный перемещение, и демонстрируем, что он составляет примерно 10-20% от общего размера резидуального потока. Эти результаты подтверждают, что многие операции в моделях transformer проходят через линейные механизмы, что может быть использовано для более точного моделирования и надежнейных защит от jailbreaking. #################### ## Значимость #################### Наши результаты име
Annotation:
The residual stream mediates communication between transformer decoder layers via linear reads and writes of non-linear computations. While sparse-dictionary learning-based methods locate features in the residual stream, and activation patching methods discover circuits within the model, the mechanism by which features flow through the residual stream remains understudied. Understanding this dynamic can better inform jailbreaking protections, enable early detection of model mistakes, and their c...
ID: 2508.17540v1 cs.LG, cs.AI, cs.CL
Авторы:

Zui Chen, Han Li, Xinhao Zhang, Xiaoyu Chen, Chunyin Dong, Yifeng Wang, Xin Cai, Su Zhang, Ziqi Li, Chi Ding, Jinxu Li, Shuai Wang, Dousheng Zhao, Sanhai Gao, Guangyi Liu

## Контекст Новая тенденция в области развития системы NL2SQL (Natural Language to SQL) заключается в том, чтобы улучшить их качество в решении реальных проблем в области бизнеса, особенно в сфере энтерпрайзных приложений. Одним из главных ограничений является невозможность систем обрабатывать контекстные страницы реляционных баз данных, что приводит к отсутствию разбирательства в целевых терминах и неполном понимании запросов. Для развития эффективной системы NL2SQL необходимо спроектировать новую архитектуру, которая будет включать в себя управление знаниями, постоянное обучение и гибкость в настройке терминологии. Эти факторы в полной мере отражаются в существующих проблемах в области NL2SQL, включая сложность в учёте имплицитных намерений, необходимость учитывать доменные термины и специфику бизнеса, а также многоуровневые проблемы с грамматической структурой запросов. Таким образом, есть необходимость в разработке нового подхода, который мог бы удовлетворить потребности в решении этих проблем и повысить качество решения запросов в реальных условиях. ## Метод RubikSQL представляет собой новую архитектуру, которая предлагает расширенную систему NL2SQL, включающую в себя готовую к быстрому адаптированию знаний для жизненного обучения (lifelong learning). Основополагающей идеей является использование знаний, накопленных в значительных объёмах, для постоянного обновления знаний и глубокой понимания запросов. Архитектура RubikSQL включает в себя несколько ключевых этапов: 1. **Database Profiling**: Эта стадия заключается в сборе и анализе статистических данных из базы данных, чтобы получить полное представление о структуре базы данных, хранящихся в ней данных и их отношениях. 2. **Structured Information Extraction**: Здесь используются различные техники для извлечения структурированной информации из документов и текстовых запросов, чтобы получить терминологические и структурные выводы. 3. **Agentic Rule Mining**: Эта фаза предлагает автоматическую выявление и анализ правил, которые помогают преобразовать естественный язык в SQL-запросы. Это включает в себя поиск и анализ логических связей между данными и запросами. 4. **Chain-of-Thought (CoT)-Enhanced SQL Profiling**: RubikSQL использует методики цепного мышления (Chain-of-Thought) для повышения точности SQL-профилирования. Это позволяет строить более точные модели для преобразования естественного языка в SQL. 5. **Multi-Agent Workflow**: В этом этапе внедряется работа нескольких агентов, которые совместно обрабатывают запросы, применяя различные модели и знания, полученные на предыдущих этапах. Затем, эти агенты совместно принимают решения и качественно изготавливают SQL-запросы.
Annotation:
We present RubikSQL, a novel NL2SQL system designed to address key challenges in real-world enterprise-level NL2SQL, such as implicit intents and domain-specific terminology. RubikSQL frames NL2SQL as a lifelong learning task, demanding both Knowledge Base (KB) maintenance and SQL generation. RubikSQL systematically builds and refines its KB through techniques including database profiling, structured information extraction, agentic rule mining, and Chain-of-Thought (CoT)-enhanced SQL profiling. ...
ID: 2508.17590v1 cs.DB, cs.AI, cs.CL, cs.MA, H.2.3; I.2.4; I.2.7
Авторы:

Bingxi Zhao, Lin Geng Foo, Ping Hu, Christian Theobalt, Hossein Rahmani, Jun Liu

## Контекст Это резюме описывает развитие и применение LLM-based agentic reasoning frameworks, которые достигли близкого к человеческой производительности при выполнении различных задач. Хотя эти системы основываются на крупных языковых моделях (LLMs), их различные рассудочные рамки определяют различные подходы к организации и управлению процессом рассуждения. Ограничения в их применении могут возникать из-за различных сценариев и задач. Этот обзор подробно разбирает текущие подходы, технологии и их реализации в различных областях, включая научное исследование, здравоохранение, программное обеспечение, социальные модели и экономику. ## Метод Методология, предложенная в обзоре, основывается на систематической классификации рассуждающих рамков ЛЛМ-систем. Она декомпозирует эти рамки на три категории: системы с одним агентом, инструментальные системы и многоагентные системы. Также предлагается унифицированная формальная лексика для определения и классификации различных типов рассуждений. Обзор также охватывает выбор данных, используемых в экспериментах, и оптимальные стратегии применения каждой рассуждающей рамки в каждой сфере. ## Результаты Эксперименты, основанные на этой методологии, показали, что различные классификации рассуждающих рамков имеют свои уникальные сильные стороны. Например, системы с одним агентом оказались эффективны в задачах, требующих простого рассуждения. Инструментальные системы, в свою очередь, были более подходящими для задач, требующих инструментального рассуждения или сложных вычислений. Многоагентные системы оказались эффективными в сценариях, требующих взаимодействия многих агентов, таких как социальные модели или экономические моделирования. ## Значимость Полученные результаты показывают, что различные рассуждающие рамки могут применяться в различных областях, включая научное исследование, здравоохранение, программное обеспечение, социальное моделирование и экономику. Изучение этих рамков позволяет выявить их особенности и применимость в разных сценариях. Это обеспечивает улучшенное понимание их преимуществ и ограничений, ускоряя развитие новых технологий в области ЛЛМ-систем. ## Выводы Обзор предлагает новую классификацию ЛЛМ-based agentic reasoning frameworks и раскрывает их характеристики в разных сценариях. Он помогает определить подходящие стратегии применения каждой рассуждающей рамки в разных сферах. Будущие исследования должны ориентироваться на усовершенствование технологий и расширение применения этих фреймворков в новых областях, улучшая их производительность и точность.
Annotation:
Recent advances in the intrinsic reasoning capabilities of large language models (LLMs) have given rise to LLM-based agent systems that exhibit near-human performance on a variety of automated tasks. However, although these systems share similarities in terms of their use of LLMs, different reasoning frameworks of the agent system steer and organize the reasoning process in different ways. In this survey, we propose a systematic taxonomy that decomposes agentic reasoning frameworks and analyze h...
ID: 2508.17692v1 cs.AI, cs.CL
Авторы:

Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter

## Контекст В статье рассматриваются вопросы использования систем автоматического распознавания речи (ASR) в контексте взаимодействия человека с роботом (HRI). Авторы подчеркивают, что в реальных условиях работы ASR сталкиваются с недостатками качества аудиопотока, влиянием экологических факторов, разнообразием пользователей и требованиями к реакции на сложные типы речи. Эти аспекты создают специфические вызовы для HRI, где ошибки распознавания могут привести к проблемам в выполнении задач, понижению доверия пользователей и угрозам безопасности. Цель работы — оценить потенциал современных ASR-систем в HRI, а также выявить их ограничения и биазы. ## Метод Исследование основывается на экспериментальном подходе, включающем оценку четырех современных ASR-систем на основе данных из восьми публичных баз данных, представляющих шесть типов сложности: доменно-специфическая, с акцентом, шумная, возрастно-варьирующаяся, имеющая империя, и спонтанная речь. Модели распознавания выслушивались на примере различных типов речи, окружающих технологии в HRI, что позволило выявить различия в их поведении в разных условиях. Техническая архитектура ASR-систем и методы их оценки были выбраны с учетом требований к точности и устойчивости в HRI. ## Результаты Результаты вы most significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety. ## Значимость Полученные результаты имеют значительные потенциальные применения в разработке более надежных и универсальных систем взаимодействия человек-робот. ASR-системы, эффективно работающие в различных условиях, могут существенно улучшить удобство и безопасность HRI. Данные работы могут повлиять на оптимизацию моделей распознавания и их применение в реальных сценариях, включая роботизированные дома, промышленность и здравоохранение. ## Выводы Авторы выводят, что несмотря на прогресс в развитии ASR, существуют серьезные ограничения, которые необходимо устранить для эффективного применения в HRI. Будущие исследования будут сосредотачиваться на улучшении устойчивости моделей к шуму, разнообразию речи и ситуационным сложностям. Также планируется расширение использования наборов данных для более широкой оценки и улучшения ASR-систем. Эти улучшения имеют важное значение для развития надежных и безопасных систем HRI.
Annotation:
Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impair...
ID: 2508.17753v1 cs.RO, cs.AI, cs.CL, cs.HC
Авторы:

Wenhong Zhu, Ruobing Xie, Rui Wang, Xingwu Sun, Di Wang, Pengfei Liu

## Контекст Supervised fine-tuning (SFT) широко применяется для адаптации фундаментальных моделей к новым задачам или доменам. Однако SFT часто приводит к потере предварительных способностей моделей, что приводит к недостаточной общей жизнеспособности в новых областях. Это происходит из-за выхода моделей за рамки доверительных зон, что приводит к дестабилизации оптимизации и снижению её качества. Эта проблема громоздка в статистических задачах и задачах значений, где модель должна сохранить широкий спектр нейрологических способностей, при этом учитывая новую информацию. Для решения этой проблемы, взяв за основу подходы из reinforcement learning (RL), в частности Trust-Region Policy Optimization (TRPO) и Proximal Policy Optimization (PPO), мы предлагаем Proximal Supervised Fine-Tuning (PSFT). Этот подход улучшает стабильность оптимизации SFT и повышает её общей жизнеспособность. ## Метод PSFT расширяет SFT, используя методы из RL, в частности, trust-region. Он введет дополнительные ограничения на политику, чтобы ограничить политический drift во время fine-tuning. Архитектура PSFT основывается на введении двух главных компонент: 1) зона доверия, которая ограничивает изменения в модели, и 2) метод оптимизации, который использует оценки итеративных политик. Мы проводим SFT как специальный случай policy gradient методов с постоянными положительными прибыльными приближениями. Такую модель мы используем для моделирования ограничений и работы с большими данными в RL. Это позволяет развивать модель в процессе обучения и улучшать её общей жизнеспособность. ## Результаты Мы проводили эксперименты на широком спектре задач, включая математические задачи и задачи, связанные с значениями человека. Мы сравнивали PSFT с SFT на уровне in-domain и out-of-domain общей жизнеспособности. Результаты показали, что PSFT соответствует SFT на in-domain задачах, но выдаёт лучшие результаты на out-of-domain задачах. Более того, PSFT остаётся стабильным в процессе длительного обучения, не испытывает entropy collapse (потери энтропии), и оставляет место для дальнейшей оптимизации после окончания основного обучения. Эти результаты показывают, что PSFT предоставляет более стабильную и оптимальную модель для последующей оптимизации. ## Значимость PSFT может быть применено в различных областях, где требуется сохранение предварительных способностей моделей в новых задачах или доменах. Он имеет потенциал для улучшения общей жизнеспособности моделей в статистических задачах, включая задачи, связанные с значениями человека, такие как NLP и CV. PSFT показывает преимущества перед SFT в области общей жизнеспособности, оптимизации и контролируемого поведения в новых задачах. Это открывает новые пути для продолжения исследований в области fine-tuning, направленных на сохранение
Annotation:
Supervised fine-tuning (SFT) of foundation models often leads to poor generalization, where prior capabilities deteriorate after tuning on new tasks or domains. Inspired by trust-region policy optimization (TRPO) and proximal policy optimization (PPO) in reinforcement learning (RL), we propose Proximal SFT (PSFT). This fine-tuning objective incorporates the benefits of trust-region, effectively constraining policy drift during SFT while maintaining competitive tuning. By viewing SFT as a special...
ID: 2508.17784v1 cs.LG, cs.AI, cs.CL
Показано 1091 - 1100 из 1292 записей