📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh

## Контекст Актуальность исследования связана с быстрым развитием систем на основе Больших Лингвистических Моделей (LLM), которые применяются для обеспечения систем роботов-техпомощников. Одной из основных проблем в этой области является недостаточная оценка устойчивости таких систем к внесению обобщенных изменений в фактические вопросы. Эти изменения, называемые "обфускацией", могут состоять в искажении именованных сущностей, добавлении развлекательных материалов или смыслового перегружения. Без тестирования таких изменений невозможно оценить надежность и точность LLMs в работе с вопросами и ответами. Исследование посвящено выявлению этих проблем и разработке системы для их систематического исследования. ## Метод Методология исследования основывается на разработке многоуровневой системы обфускации, которая включает три различных типа изменений в вопросах. **Named-Entity Indirection** состоит в замене именованных сущностей (например, ФИО, местами происшествий) на их формальные представления (например, "Субъект 1"). **Distractor Indirection** включает в себя вывод отвлеченных ответных вариантов, которые не соответствуют фактическим данным. **Contextual Overload** предполагает добавление лишней информации, которая может сбить с толку модель. Таким образом, ObfusQAte представляет собой новую методологию для тестирования LLM на систематические искажения вопросов в ходе имитации реальных условий работы. ## Результаты В ходе экспериментов, проведенных с использованием широкого круга данных, было изучено поведение LLMs в ответ на обфусцированные вопросы. Основной показатель — это уменьшение точности ответов, возрастающее в небольших шагах при наличии обфускации. Модели не только предоставляют неточные ответы, но и вводят ложноположительные варианты. Эти результаты были получены при оценке моделей на объеме данных, представляющем собой широкую спектр текстов, включая новостные материалы, энциклопедические статьи и справочные данные. ## Значимость Результаты имеют важное значение для развития роботов-техпомощников, так как позволяют оценить устойчивость LLM к ошибкам при обобщенных вопросах. Обфускация позволяет выявить ошибки в моделях, мотивируя разработку методов улучшения их надежности. Эта работа может быть применена в сферах, где точность ответов критична, например, в медицине, юриспруденции и финансовых системах. Она также открывает пути для развития новых моделей устойчивых к таким изменениям. ## Выводы Разработанная ObfusQAte-фреймворк предоставляет многоуровневый подход для оценки устойчивости LLM к обфускации вопросов. Основные достижения включаю
Annotation:
The rapid proliferation of Large Language Models (LLMs) has significantly contributed to the development of equitable AI systems capable of factual question-answering (QA). However, no known study tests the LLMs' robustness when presented with obfuscated versions of questions. To systematically evaluate these limitations, we propose a novel technique, ObfusQAte and, leveraging the same, introduce ObfusQA, a comprehensive, first of its kind, framework with multi-tiered obfuscation levels designed...
ID: 2508.07321v1 cs.CL, cs.AI, cs.LG, I.2.7
Авторы:

Dean Geckt, Melinda Fricke, Shuly Wintner

## Контекст Цель исследования заключается в изучении стратегий кодообмена в интерактивных диалогах между людьми и машинами. Ученые изучают характеристики кодообмена, который широко распространен среди многоязычных людей, но еще не полностью понятен в своих языковых и дискурсивных аспектах. Особое внимание уделяется возможности использования многоязычных технологий для исследования билингвального языкового взаимодействия. Более того, в ходе исследования исследуются возможности создания машинных систем, которые могут эффективно взаимодействовать с человеком на нескольких языках и понимать кодообмен. ## Метод Исследование основывается на разработке и тестировании бота, который умеет выполнять Map Task с человеком, используя кодообмен между испанским и английским языками. Бот программирован для продемонстрировать различные стратегии кодообмена, включая грамматически корректные стратегии и некоторые нестандартные, такие как неожиданные или нелогичные комбинации слов. Эксперименты проводились с участием человеков, которые общались с ботом в чате. Для этих экспериментов выбраны участники с уровнем понимания как английского, так и испанского. Результаты сравнивались с различными стратегиями кодообмена, чтобы определить, как поведение бота влияет на удовольствие участников и их успех в выполнении задачи. ## Результаты Эксперимент показал, что участники, в целом, получили удовольствие от кодообмена с ботом, при условии, что кодообмен был предсказуемым и грамматически корректным. Однако если бот генерировал нелогичные или неожиданные комбинации (например, выражение `la fork` вместо `the fork`), участники испытывали больше стресса и сталкивались с большей сложностью в достижении целей задачи. Эта информация может быть использована для создания более эффективных многоязычных машинных систем, которые будут учитывать потребности пользователей и предотвращать негативные эффекты, вызванные некорректным кодообменом. ## Значимость Исследование имеет практическое значение для создания новых многоязычных систем общения, которые могут быть применены в различных областях, включая обучение языкам, сервисы поддержки и оперативное взаимодействие с клиентами. Это также показывает, что кодообмен может играть важную роль в том, как люди взаимодействуют с машинами, и что правильный кодообмен может улучшить качество таких взаимодействий. Таким образом, это работа может способствовать развитию технологий, которые будут более внимательны к нуждам многоязычных пользователей. ## Выводы В результате исследования выявлены
Annotation:
Most people are multilingual, and most multilinguals code-switch, yet the characteristics of code-switched language are not fully understood. We developed a chatbot capable of completing a Map Task with human participants using code-switched Spanish and English. In two experiments, we prompted the bot to code-switch according to different strategies, examining (1) the feasibility of such experiments for investigating bilingual language use, and (2) whether participants would be sensitive to vari...
ID: 2508.07325v1 cs.CL, cs.AI
Авторы:

Archchana Sindhujan, Shenbin Qian, Chan Chi Chun Matthew, Constantin Orasan, Diptesh Kanojia

################################# ## Контекст ################################# Область исследования — Quality Estimation (QE) для машинного перевода (MT), которая оценивает качество перевода без использования дополнительных трансляционных меток. Это задача кросс-языковая и относительно сложная для существующих моделей, особенно в случае низкоресурсных языков. Особенности QE заключаются в том, что необходимо понять, насколько хорошо генерируется перевод, не имея полных справочных трансляций. Повышенные трудности возникают при использовании моделей, которые не были предварительно обучены для регрессионных задач, а для подготовки были использованы модели с целью генерировать текст (каузиальная модельность). Большие языковые модели (LLMs), несмотря на выдающееся качество во многих задачах натурального обработки языка, в случае QE сталкиваются с проблемами, такими как несоответствие между предварительной подготовкой и регрессионными задачами. Таким образом, целью исследования является разработка адаптивной структуры, которая бы способствовала повышению качества шаблонов перевода, оптимизировав слои трансформеров на основе регрессионных задач. ################################# ## Метод ################################# Разработанная модель, ALOPE (Adaptive Layer Optimization for Translation Quality Estimation), включает в себя несколько инновационных подходов: 1. **Low-Rank Adapters (LoRA)** — это универсальные адаптации, размещенные в каждом слое трансформеров, которые позволяют уменьшить количество параметров, не ухудшая качество регрессионного предсказания. 2. **Dynamic Weighing** — стратегия, которая позволяет адаптировать веса представлений из разных слоев, оптимизируя их в соответствии с задачей QE. 3. **Multi-Head Regression** — это стратегия, в которой каждая регрессионная голова предсказывает качество перевода, а полученные результаты агрегируются в единый результат. 4. **Layer-Wise Adaptation** — механизм, который позволяет использовать только выбранные слои трансформеров для QE, адаптируя их к регрессионным задачам. Таким образом, ALOPE позволяет оптимизировать слои трансформеров для кросс-языковой регрессии, увеличивая точность и скорость обучения. ################################# ## Результаты ################################# Эксперименты проводились на различных датасетах, включающих низкоресурсные языки (например, африканский, вьетнамский) и языки с большим количеством данных (например, английский, немецкий). Для тренировки использовались модели LLMs, в том числе готовые модели Transformer с разными предобученными слоями. В результате: - Модель ALOPE показала значительное повышение точности QE по сравнению с существующими LLM-based QE моделями. - Особенно выдающиеся результаты были получены при использовании низкоресурсных языков, где дру
Annotation:
Large Language Models (LLMs) have shown remarkable performance across a wide range of natural language processing tasks. Quality Estimation (QE) for Machine Translation (MT), which assesses the quality of a source-target pair without relying on reference translations, remains a challenging cross-lingual task for LLMs. The challenges stem from the inherent limitations of existing LLM-based QE systems, which are pre-trained for causal language modelling rather than regression-specific tasks, furth...
ID: 2508.07484v1 cs.CL, cs.AI
Авторы:

Joseph T. Colonel, Baihan Lin

## Контекст Область визуализации и анализа текстовых данных широко используется в исследованиях, предоставляя визуальные инструменты для выявления интересных моделей и отношений в данных. Одной из популярных техник является использование **word clouds**, которые агрегируют слова по частоте их использования. Однако в контексте квалитиативных интервью эти методы часто оказываются неэффективными. Они переоценивают нерелевантные слова, не учитывают парафразы и разбивают семантически связанные идеи на независимые фрагменты. В результате, данные могут быть представлены неточно, что снижает эффективность в ранней стадии анализа. Это ставит перед исследователями задачу развития более точных и интерактивных визуальных методов. ## Метод **ThemeClouds** — это инструмент, основанный на генеративных моделях языка (LLMs), который предлагает новую логику визуализации темы в квалитиативных интервью. Он оптимизирует традиционные подходы, используя LLM для идентификации тем на уровне понятий в тексте. Вместо того, чтобы только подсчитывать частоту слов, ThemeClouds рассчитывает, сколько уникальных участников упоминает каждую тему. Это дает более точное представление о важности темы в контексте всего интервью. Инструмент позволяет исследователям настраивать настройки визуализации и проводить прозрачный анализ. Это делает инструмент гибким и пригодным для различных исследовательских задач. ## Результаты На основе интервью пользователей, проводивших эксперимент с различными конфигурациями звукового прибора (31 участника, 155 транскриптов), ThemeClouds продемонстрировал вышеперечисленные преимущества. Сравнивая его с традиционными методами, такими как LDA и BERTopic, ThemeClouds показал более точное отображение реальных предпочтений участников. Он отфильтровал нерелевантные слова и объединил семантически связанные темы, что упростило интерпретацию результатов. Это демонстрирует мощь глубокого обучения в предоставлении более точных и интерактивных визуализаций. ## Значимость ThemeClouds может быть применен в различных областях, где требуется анализ квалитиативных данных, включая исследования в области медицины, образования, IT и т.д. Он предоставляет более точное представление частоты тем и позволяет исследователям быстрее узнавать основные модели в данных. Также он может быть полезен для создания интерактивных визуальных анализов, которые позволяют проводить подробные кросс-условий сравнения. ## Выводы ThemeClouds представляет собой современный подход к визуализации квалитиативных интервью, используя глубокое обучение для улучшения точности и понятности данных. Он обесп
Annotation:
Word clouds are a common way to summarize qualitative interviews, yet traditional frequency-based methods often fail in conversational contexts: they surface filler words, ignore paraphrase, and fragment semantically related ideas. This limits their usefulness in early-stage analysis, when researchers need fast, interpretable overviews of what participant actually said. We introduce ThemeClouds, an open-source visualization tool that uses large language models (LLMs) to generate thematic, partic...
ID: 2508.07517v1 cs.CL, cs.AI, cs.HC
Авторы:

Puspesh Kumar Srivastava, Uddeshya Raj, Praveen Patel, /Shubham Kumar Nigam, Noel Shallum, Arnab Bhattacharya

#### Контекст Обработка балов в индийских судах является одной из наиболее частых процедур, однако она сталкивается с тематиками субъективности, задержек и несогласованности. Более 75% населения индийских тюрем составляют несостоявшие процесс лиц, которые часто принадлежат к социоэкономическим уровням низкого уровня. Недоступность быстрых и справедливых решений о балах приводит к губительным последствиям для прав человека и усугубляет жалобы в вопросах справедливости юридического регулирования. Для решения этой проблемы мы предлагаем **Indian Bail Prediction System (IBPS)** — AI-powered фреймворк, предназначенный для помощи в принятии решений о балах, предсказания результатов и создания обоснованных юридических аргументов на основе фактических данных и нормативных актов. #### Метод Мы создали большую выборку данных, состоящую из 150,430 судебных актов о балах, полученных из высоких индийских судов. Данные были обработаны и дополнены структурированными аннотациями, включая возраст, здоровье, уголовную историю, категорию преступления, продолжительность задержания, регулирующие акты и юридический анализ. Мы использовали параметр-эффективные методы для тонкой настройки большого языкового модели и оценили его результаты в различных конфигурациях, включая с разным доступом к юридической информации и модели RAG (Retrieval-Augmented Generation). #### Результаты Наши эксперименты показали, что модели, настроенные с использованием юридического контекста, значительно выше производительность, чем базовые модели, и показывают высокую точность и качество рассуждений. Мы проверили их на независимой выборке данных, проанализированной специалистами по правоотношениям. Такие результаты демонстрируют значительную эффективность IBPS в оптимизации процесса принятия решений о балах, уменьшения задержек и повышения справедливости в индийской судебной системе. #### Значимость IBPS предлагает новый подход к улучшению системы судебных разбирательств в Индии. Он может применяться в различных сферах, включая помощь юристам, судьям и правозащитным организациям. Основные преимущества — транспарентность, масштабируемость и возможность повторения. Исследование системы может повлиять на улучшение системы правосудия, снижение задержек и формирование процедурной справедливости в юридических процессах. #### Выводы Результаты нашего исследования подтверждают эффективность IBPS в поддержке данных для принятия решений о балах. Будущие исследования будут сфокусированы на углублении анализа юридического контекста, у
Annotation:
Bail decisions are among the most frequently adjudicated matters in Indian courts, yet they remain plagued by subjectivity, delays, and inconsistencies. With over 75% of India's prison population comprising undertrial prisoners, many from socioeconomically disadvantaged backgrounds, the lack of timely and fair bail adjudication exacerbates human rights concerns and contributes to systemic judicial backlog. In this paper, we present the Indian Bail Prediction System (IBPS), an AI-powered framewor...
ID: 2508.07592v1 cs.CL, cs.AI
Авторы:

Anirudh Iyengar Kaniyar Narayana Iyengar, Srija Mukhopadhyay, Adnan Qidwai, Shubhankar Singh, Dan Roth, Vivek Gupta

## Контекст В сфере обработки естественного языка и визуального распознавания существует значительный интерес к возможностям визуального логического мышления, которое заключается в том, чтобы выводить выводы на основе информации, представленной в виде графических данных, таких как графики и диаграммы. Одна из самых сложных задач в этой области заключается в том, чтобы оценить модели визуального логического мышления, которые могут работать с несколькими связанными графиками, которые встречаются в реальной жизни, например, в отчетах о научных исследованиях, финансовых анализах или панелях управления. Несмотря на то, что существуют бенчмарки, оценивающие модели визуального распознавания в отношении отдельных графиков, нет ни одного бенчмарка, который бы позволял оценивать их качество, работая с несколькими связанными графиками, которые требуют визуального и текстового понимания. Мы предлагаем **InterChart**, новый диагностический бенчмарк, который оценивает эти возможности, позволяя моделям работать с графиками, которые требуют не только интерпретации визуальных данных, но и интеграции информации из нескольких графиков. ## Метод **InterChart** состоит из трех типов задач, которые требуют визуального и текстового понимания, а также возможности работы с несколькими графиками. В первой задаче, **factual reasoning**, модели должны выполнять вывод на основе изображений отдельных графиков. Во второй задаче, **integrative analysis**, модели должны выполнять анализ, интегрируя информацию из нескольких синтетически связанных графиков. В третьей задаче, **semantic inference**, модели должны выполнять семантические выводы на основе визуально сложных графиков, которые требуют не только визуального, но и текстового понимания. Мы создали три уровня сложности, начиная с простых задач, которые требуют только визуального распознавания, и заканчивая сложными задачами, которые требуют визуального и текстового понимания, а также выполнения нескольких шагов логического мышления. Мы использовали данные, собранные из реальных графических данных, чтобы создать бенчмарк, который сильно отличается от предыдущих бенчмарков, ориентированных на отдельные графики. ## Результаты Мы проверили **InterChart** на нескольких существующих визуально-лингвистических моделях, включая те, которые считаются лидирующими в области. Мы обнаружили, что даже лучшие модели показывают существенную ухудшение качества, когда требуется интеграция информации из нескольких графиков. Мы также обнаружили, что модели показывают лучшие результаты, когда мы декомпозируем гра
Annotation:
We introduce InterChart, a diagnostic benchmark that evaluates how well vision-language models (VLMs) reason across multiple related charts, a task central to real-world applications such as scientific reporting, financial analysis, and public policy dashboards. Unlike prior benchmarks focusing on isolated, visually uniform charts, InterChart challenges models with diverse question types ranging from entity inference and trend correlation to numerical estimation and abstract multi-step reasoning...
ID: 2508.07630v1 cs.CL, cs.AI, cs.CV, I.2.7; I.2.10; I.4.10; I.7.5
Авторы:

Luyao Zhuang, Qinggang Zhang, Huachi Zhou, Juhua Liu, Qing Li, Xiao Huang

## Контекст Модели текстового понимания на базе трансформеров (LLMs) показали свои возможности в решении различных задач, в том числе в инструментном обучении (Tool Learning). Однако, с ростом репозиториев инструментов, становится все более сложной проблема их выбора для конкретной задачи. Для решения этой проблемы было предложено использовать модуль поиска инструментов (Tool Retrieval Module), который может выбирать наиболее подходящий инструмент для задачи. Тем не менее, большинство современных подходов ориентированы на трансдуктивные задачи, когда инструменты, доступные для обучения, соответствуют тем, которые могут быть использованы в реальной жизни. Необходимо разработать решение, которое бы работало в индуктивном режиме, когда инструменты появляются после обучения модели. ## Метод Мы предлагаем LoSemB – Logic-Guided Semantic Bridging, новую модель для индуктивного поиска инструментов. Основной идеей является использование логических моделей для решения проблемы распространения взаимозаменимости в задаче инструментного поиска. Модель LoSemB состоит из двух ключевых компонентов: модуля выравнивания логических представлений и системы реляционного поиска. Эти модули работают вместе для того, чтобы уменьшить распространение взаимозаменимости и улучшить точность поиска инструментов, даже если они не были видны во время обучения. ## Результаты Мы провели исследования на нескольких датасетах, включая обычные тестовые данные и те, которые включают невиденные инструменты. Модель LoSemB показала существенную выносливость в индуктивной среде, превосходя существующие методы в области инструментного поиска. Также было проведено сравнение с методами, ориентированными на трансдуктивные задачи, и мы показали, что LoSemB может выполняться в этих условиях, но с более высокой точностью в индуктивной задаче. ## Значимость Наше решение может быть применено в различных областях, где необходимо выбирать инструменты для решения задач в реальном времени, например, в области ИИ, машинного обучения, анализа данных. За счет использования логических моделей, мы можем уменьшить влияние распространения взаимозаменимости и улучшить качество решения задач. Это может привести к повышению эффективности использования инструментов в различных приложениях. ## Выводы Мы предлагаем LoSemB, новую модель для индуктивного поиска инструментов. Модель показала свою эффективность в индуктивных задачах, при этом оставаясь эффективной в трансдуктивных условиях. Мы также показали, что логические модели могут применяться для решения проблем распространения взаимозаменимости в инструментном поиске. В будущем мы планируем расширить модель, чтобы она могла работать с более сложными сц
Annotation:
Tool learning has emerged as a promising paradigm for large language models (LLMs) to solve many real-world tasks. Nonetheless, with the tool repository rapidly expanding, it is impractical to contain all tools within the limited input length of LLMs. To alleviate these issues, researchers have explored incorporating a tool retrieval module to select the most relevant tools or represent tools as unique tokens within LLM parameters. However, most state-of-the-art methods are under transductive se...
ID: 2508.07690v1 cs.CL, cs.AI
Авторы:

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

## Контекст Поисковые системы и системы поиска информации становятся все более важной частью современной цифровой экосистемы, особенно с ростом доступа к объёмным данным и продвинутым инструментам для глубокого понимания языка. Однако, даже с учётом этого, большинство существующих систем поиска страдают от ограниченной способности решать задачи с длинными горизонтами, недостаточной эффективности и недостаточной качественности данных. Это в основном связано с ограниченными турнами при обучении, ограниченной способностью решать неоднозначные запросы и недостаточным использованием внешних инструментов. Таким образом, в этом исследовании предлагается концептуально новый подход для решения этих проблем с помощью развития системы умных поисковых агентов с помощью больших лингвистических моделей и асинхронного обучения. ## Метод В этом исследовании предлагается новая архитектура для системы поиска, основанная на расширенных лингвистических моделях (LLM) и асинхронном обучении. Архитектура включает в себя несколько слоев, включая систему для обработки запросов, систему для выбора инструментов и систему для выполнения поиска. Затем, для обучения этой системы используется асинхронный метод обучения с помощью больших лингвистических моделей, что позволяет избежать лимитов по времени и получить более высокую эффективность. Большое количество синтетических данных, генерируемых новой системой, также позволяет повысить качество обучения и обеспечить длинный горизонт поиска. ## Результаты В ходе экспериментов были получены выдающиеся результаты в области длинного горизонта поиска. Например, система показала среднее число успешных поисковых запросов равное 46.7% на xBench и 20.8% на GAIA, что значительно превосходит существующие решения. Более того, система ASearcher-Web-QwQ показала потенциал для достижения Avg@4 скорости 42.1 на xBench и 52.8 на GAIA, что превосходит существующие 32B-агенты. Эти результаты были достигнуты благодаря синтетическому подходу к генерации данных и асинхронной структуре обучения, что позволило получить высокую эффективность и качество. ## Значимость Этот подход имеет многочисленные приложения в различных областях, включая сектора, требующих сложных поисковых запросов и анализа данных. Одним из основных преимуществ является повышение эффективности и точности поиска, которые могут быть использованы для развития новых технологий и продуктов. Более того, этот подход может помочь в развитии новых систем в области образования, вычислений и интеллектуальных поисков. ## Выводы В итоге, данная работа предста
Annotation:
Recent advancements in LLM-based agents have demonstrated remarkable capabilities in handling complex, knowledge-intensive tasks by integrating external tools. Among diverse choices of tools, search tools play a pivotal role in accessing vast external knowledge. However, open-source agents still fall short of achieving expert-level Search Intelligence, the ability to resolve ambiguous queries, generate precise searches, analyze results, and conduct thorough exploration. Existing approaches fall ...
ID: 2508.07976v1 cs.CL, cs.AI
Авторы:

Chun Wang, Chenyang Liu, Wenze Xu, Weihong Deng

## Контекст Говорящие системы, основанные на текстовых больших лингвистических моделях (LLMs), часто пропускают паралингвистические сигналы, которые играют ключевую роль в понимании эмоций и намерений. Для решения этой проблемы появились модели речи-языка (SLMs), которые используют записи речи в качестве входных данных. Однако существующие SLMs, разработанные на основе замороженных LLMs, сталкиваются с ограниченным пониманием контекста и неэффективным извлечением паралингвистических сигналов. Основные проблемы включают конфузированность информации и неудачные стратегии обучения. Модели, которые не могут эффективно различать лингвистическую и паралингвистическую информацию, не могут предоставить богатый контекст для понимания эмоций и намерений. Наша цель — создать модель, которая избавится от этих проблем и позволит SLM эффективно интегрировать обе сферы информации в контексте диалога. ## Метод Мы предлагаем двухадаптеровую модель, которая разделяет паралингвистическую и лингвистическую информацию на отдельных уровнях. Одна адаптера отвечает за паралингвистические сигналы (например, тональность, интонация), а другая — за лингвистические (семантику и лексику). Мы также предлагаем непрерывное слабо направленное обучение, которое позволяет модели учиться сохранять контекст, не забывая о паралингвистических сигналах. Модель обучается на существующих общих данных, используя только адаптеры для изменения представлений слов, что делает ее эффективной в плане параметров и используемых данных. За основу этой модели мы берем уже существующие LLM, но изменяем его поведение через адаптивные слои, которые обрабатывают паралингвистическую информацию раздельно от лингвистической. ## Результаты Мы проверили нашу модель на задачах распознавания эмоций в разговорах. Для обучения использовались данные, содержащие как текстовую, так и аудио-информацию. Наши эксперименты показали, что модель Dual Information Speech Language Model (DISLM) превосходит существующие SLM-модели по метрикам, таким как F1-score и accuracy. Дискурсные сигналы, такие как звучание, тональность и интонация, были эффективно интегрированы в лингвистическую модель, что повлияло на качество понимания эмоций. Модель также показала высокую точность в задачах классификации эмоций и демонстрирует улучшенную способность понимать контекст в разговорах. ## Значимость Наша модель имеет широкие области применения, в том числе в системах консультирования, сервисных роботах, системах контроля качества звонков и в разработке интеллектуальных ассистентов. Особым
Annotation:
Conversational systems relying on text-based large language models (LLMs) often overlook paralinguistic cues, essential for understanding emotions and intentions. Speech-language models (SLMs), which use speech as input, are emerging as a promising solution. However, SLMs built by extending frozen LLMs struggle to capture paralinguistic information and exhibit reduced context understanding. We identify entangled information and improper training strategies as key issues. To address these issues,...
ID: 2508.08095v1 cs.CL, cs.AI, cs.SD, eess.AS
Авторы:

Wenze Xu, Chun Wang, Jiazhen Yu, Sheng Chen, Liang Gao, Weihong Deng

## Контекст Словные языковые модели (SLM), расширяющие большие языковые модели (LLM) для обработки речевых входов, привлекают все больше внимания благодаря их потенциалу в улучшении задач понимания речи. Однако несмотря на прогресс в области SLM, они часто сталкиваются с проблемами генерализации на разных наборах данных, даже если они обучены на одном языке и задаче. Эта проблема может быть связана с модульной разницей между речью и текстом, которая может приводить к переобучению на конкретные свойства речи, ограничивая общую подготовку моделей. Оптимальная транспортная регуляризация (OTReg) предлагается для решения этой проблемы, сформулировав алгоритм, который может стабилизировать и улучшить подготовку SLM. ## Метод Оптимальная транспортная регуляризация (OTReg) вводит новую методологию для улучшения генерализации SLM. Она формулирует проблему выравнивания речи и текста как задачу оптимального транспорта, беря во внимание структурное соответствие между речевыми и текстовыми эмбеддингами. В каждой итерации обучения, OTReg определяет оптимальный план транспорта для синхронизации этих эмбеддингов и использует это соответствие для добавления регуляризационного утяжеления к функции потерь. Это позволяет SLM лучше согласовывать свои выходы с речевыми эмбеддингами, улучшая их возможности генерализации. OTReg требует минимальных дополнительных ресурсов, таких как дополнительные метки или параметры, и может легко встраиваться в существующие процедуры обучения. ## Результаты Эксперименты проводились на нескольких языках в рамках ассистированных систем речи (ASR). Результаты показали, что OTReg существенно улучшает выравнивание речи и текста, снижает модульную разницу, и в целом повышает производительность SLM на новых данных. Он подтвердил свою эффективность по сравнению с базовым SLM и другими методами регуляризации, подтвердив свою способность улучшить общую подготовку модели. ## Значимость OTReg может применяться в различных областях, включая транскрибацию речи, генерацию речи и распознавание речи. Он предоставляет более точное и согласованное выравнивание между речью и текстом, что повышает общую надежность и обобщаемость SLM. Благодаря своей простоте и эффективности, OTReg может быть широко применен в системах с большим объемом данных и многоязычной речевой обработкой. ## Выводы Оптимальная транспортная регуляризация (OTReg) стабилизирует и улучшает обучение SLM, снижая модульную разницу между речью и текстом. Это приводит к улучшению генерализации модели и ее приложений. Будущие иссле
Annotation:
Spoken Language Models (SLMs), which extend Large Language Models (LLMs) to perceive speech inputs, have gained increasing attention for their potential to advance speech understanding tasks. However, despite recent progress, studies show that SLMs often struggle to generalize across datasets, even for trained languages and tasks, raising concerns about whether they process speech in a text-like manner as intended. A key challenge underlying this limitation is the modality gap between speech and...
ID: 2508.08131v1 cs.CL, cs.AI
Показано 1931 - 1940 из 2042 записей