📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Amirhossein Abaskohi, Raymond Li, Chuyuan Li, Shafiq Joty, Giuseppe Carenini

## Контекст Современные мультимодальные модели тематик сталкиваются с вызовами в области обнаружения интерпретируемых и консистентных семантических структур в документах, сочетающих текст и изображения. Особенно актуальным является задача обработки коротких и длинных документов, в которых как текст, так и изображения должны быть корректно проанализированы для выделения тематик. Это важно для приложений в таких областях, как научное издание, социальные сети и образовательные ресурсы. Недостаток существующих моделей заключается в том, что они либо не умеют обрабатывать множество изображений в документе, либо не могут построить выгодную семантическую консистентность между текстом и изображениями. ## Метод CEMTM (Contextual Embedding-based Multimodal Topic Modeling) — современная модель, основанная на контекстном взвешивании эмбеддингов. Она использует граничные модели для обработки языка и изображений, которые преобразуют документ в высококонтекстные эмбеддинги. Механизм распределенного внимания учитывает вклад каждого токена в выявление тематик. Тематические представления синхронизируются с документом с помощью реконструкционной функции, обеспечивая семантическую консистентность между текстом и изображениями. Особенностью CEMTM является возможность обработки нескольких изображений в документе без повторной их кодирования, что экономит ресурсы. ## Результаты Проводились эксперименты на шести мультимодальных бенчмарках, включающих документы с разным содержанием. CEMTM показала значительные выигрыши по сравнению с рядом современных моделей. Она набирает на выборке среднюю оценку LLM близкую к 2.61, что говорит о высокой точности и интерпретируемости модели. Эксперименты показали, что CEMTM эффективна в задачах нескольких выборок и может достаточно хорошо работать в сложных областях, таких как научные статьи. ## Значимость CEMTM может быть применена в различных сферах, включая анализ научных текстов, создание содержимого для социальных сетей, анализ изображений и текста в области образования. Её преимущества заключаются в поддержке нескольких изображений в документе, высокой точности и интерпретируемости результатов. Эта модель может стать решающим шагом в развитии систем совмещающих текст и изображения, а также в улучшении систем понимания естественного языка в комплексных сферах. ## Выводы Результаты CEMTM подтверждают её эффективность в обнаружении тематик в мультимодальных документах. Будущие исследования будут сконцентрированы на улучшении модели для работы с более большими данными, а также на расширении её возможностей для областей, где необходимо учитывать множество мода
Annotation:
We introduce CEMTM, a context-enhanced multimodal topic model designed to infer coherent and interpretable topic structures from both short and long documents containing text and images. CEMTM builds on fine-tuned large vision language models (LVLMs) to obtain contextualized embeddings, and employs a distributional attention mechanism to weight token-level contributions to topic inference. A reconstruction objective aligns topic-based representations with the document embedding, encouraging sema...
ID: 2509.11465v1 cs.CL, cs.LG
Авторы:

Rodrigo M. Carrillo-Larco, Jesus Lovón Melgarejo, Manuel Castillo-Cara, Gusseppe Bravo-Rocca

#### Контекст Медицинские большие языковые модели (LLM) доказали высокую точность в ответе на вопросы из медицинских экзаменов. Однако, неясно, насколько эти модели могут передавать свои навыки на вопросы, написанные на испанском языке и относящиеся к медицине в Латинской Америке. Это особенно актуально, поскольку возникает потребность в LLM-приложениях в сфере медицины в регионе. Целью данного исследования является построение набора данных вопросов из медицинских экзаменов, пройденных в Перу, и оценка того, насколько эффективно модели переобучаются на этот набор данных. #### Метод Мы создали набор данных PeruMedQA, содержащий 8380 многовариантных вопросов из 12 медицинских областей (2018–2025). Набор включает вопросы из нормативных экзаменов для специалистов в Перу. Мы использовали 8 моделей языковых моделей, включая medgemma-4b-it и medgemma-27b-text-it, а также разработали задачеподготовленные команды для подхода к ответам. Для оптимизации medgemma-4b-it использовались параметры эффективного уточнения (PEFT) и низкоранговая адаптация (LoRA). Набор вопросов 2025 был отложенным тестовым набором. #### Результаты medgemma-27b-text-it показал высокую точность ответов, превышая 90% в некоторых случаях. Модели с менее чем 10 миллиардами параметров демонстрировали точность, не превосходящую 60%, и в некоторых случаях — ниже 50%. Уточненная версия medgemma-4b-it показала высокую точность, опередив модели с теми же параметрами и даже сравнением с моделью на 70 миллиардов параметров в некоторых экзаменах. #### Значимость Результаты показывают, что medgemma-27b-text-it и уточненная версия medgemma-4b-it являются эффективными для приложений в области медицины, требующих знаний на испанском языке и имеющих эпидемиологический профиль, аналогичный Перу. Эти модели могут быть полезны для развития Латинской Америки в сфере AI-приложений в медицине. #### Выводы Построенный набор данных PeruMedQA и эффективные модели языковых моделей демонстрируют потенциал для улучшения приложений AI в медицине на латиноамериканском рынке. Для последующих исследований следует изучить возможность дополнительного уточнения моделей и расширения набора данных для улучшения точности и объема.
Annotation:
BACKGROUND: Medical large language models (LLMS) have demonstrated remarkable performance in answering medical examinations. However, the extent to which this high performance is transferable to medical questions in Spanish and from a Latin American country remains unexplored. This knowledge is crucial as LLM-based medical applications gain traction in Latin America. AIMS: to build a dataset of questions from medical examinations taken by Peruvian physicians pursuing specialty training; to fine-...
ID: 2509.11517v1 cs.CL, cs.LG
Авторы:

Mikhail Kulyabin, Jan Joosten, Choro Ulan uulu, Nuno Miguel Martins Pacheco, Fabian Ries, Filippos Petridis, Jan Bosch, Helena Holmström Olsson

```## Контекст Оценка качества использования продуктов (User eXperience, UX) является ключевым фактором успеха многих производственных и технологических продуктов. Однако доступ к реальным данным о пользовательском опыте часто ограничен из-за приватности и ограничений лицензий. Несмотря на то, что общественные форумы, такие как форумы промышленной автоматизации, являются богатой источником пользовательских отзывов и обсуждений, их использование для анализа остается сложным из-за неструктурированного характера контента и специфичной лексики, присущей определенным областям. Эти трудности затрудняют систематический анализ отзывов, выявление ключевых тем, оценку серьезности проблем и выявление потребностей пользователей. Для решения этих проблем предлагается новый подход, основанный на синтезированных, но реалистичных данных, позволяющий устранить приватность и лицензионные ограничения. ## Метод В качестве решения был разработан механизм синтеза пользовательских отзывов, использующий реальные данные с открытых форумов. Эти данные были обработаны с помощью трансформер-моделей, чтобы создать 7130 искусственных пользовательских комментариев, подробно рассматривающих продукты и их функциональные возможности. Для каждого комментария создана структурированная аннотация в формате JSON, включающая метаданные, серьезность проблемы, оценки негативности и положительности, а также тематическую классификацию. Эта систематизированная структура позволяет эффективно использовать данные для обучения и оценки моделей NLP, таких как модели трансформеров, на задачи классификации, анализа тональности и выявления ключевых слов. ## Результаты В результате синтеза получены 7130 отзывов, каждый из которых содержит многопостачные комментарии, оценки серьезности и тенденций пользователя, а также тематические классификации. Эти данные отражают реальные сценарии использования продуктов и их функциональность. Данные получены в формате JSON, достаточно просто и удобно для использования в моделях NLP. Эксперименты показали, что модели, обученные на этом датасете, показали высокую точность в определении тональности, классификации и выделении ключевых слов. ## Значимость Датасет UXPID представляет собой значительный шаг вперед в области искусственного пользовательского опыта. Он может быть применен в обучении моделей для задач, таких как анализ тональности, выявление проблем и выделение ключевых слов. Эти модели могут использоваться в промышленных приложениях для анализа отзывов о продуктах, в том числе в сфере промышленной автоматизации. Данные также могут быть ис
Annotation:
Customer feedback in industrial forums reflect a rich but underexplored source of insight into real-world product experience. These publicly shared discussions offer an organic view of user expectations, frustrations, and success stories shaped by the specific contexts of use. Yet, harnessing this information for systematic analysis remains challenging due to the unstructured and domain-specific nature of the content. The lack of structure and specialized vocabulary makes it difficult for tradit...
ID: 2509.11777v1 cs.CL, cs.LG
Авторы:

Ahmed Moubtahij, Sylvie Ratté, Yazid Attabi, Maxime Dumas

## Контекст Конструктивный анализ отзывов клиентов часто требует определить причину их отношения к продукту или услуге, основываясь на огромном объеме текстовых документов. Такие задачи требуют больших усилий и времени, что снижает эффективность работы. Мы выбрали задачу Query-Focused Summarization (QFS), предназначенную для помощи в таком анализе. Однако модели QFS часто сталкиваются с языковыми противоречиями между запросом и исходными документами, что создает дополнительные сложности. Чтобы устранить эту проблему, мы предлагаем новую многоуровневую модель, ориентированную на решение этой задачи. Мы сформулировали фреймворк, который позволяет работать с разными типами запросов и документов в различных областях. Этот подход позволяет улучшить продуктивность процессов работы с отзывами и принимать более точные решения. ## Метод Мы строим нашу модель на основе многоуровневого фреймворка, который может учитывать разные биазы, такие как семантические и сентиментные биазы. Запросы обрабатываются с помощью расширения словаря, чтобы сделать их более точными и соответствующими исходному контенту. Мы также разработали специальный подход, который учитывает сентиментный контент исходных документов. Это позволяет модели определять причины клиентского отношения к продукту с учетом эмоционального контекста. Мы построили архитектуру, которая может адаптироваться к различным типам задач и документов, чтобы обеспечить гибкость и эффективность. ## Результаты Мы проверили нашу модель на реальной датасете, содержащей проблемы сентимента. Мы сравнили результаты с базовыми моделями, такими как BART и T5. Наши результаты показали улучшение качества суммаризации в сравнении с этими моделями. Мы также проверили работу модели на различных типах запросов, в том числе позитивных, нейтральных и отрицательных. Наши результаты показали, что наш подход способен точно определять причины сентимента в документах, даже при наличии языковых различий между запросом и документом. ## Значимость Наш подход может быть применен в различных областях, где требуется анализ отзывов клиентов, таких как e-commerce, обслуживание клиентов и маркетинг. Мы показали, что наша модель может улучшить эффективность работы с большими объемами текста, сократить время и усилия, необходимые для анализа. Это влечет за собой повышение точности и качества решений, что может быть ключевым преимуществом для бизнеса. ## Выводы Мы разработали и проверили новую модель для Query-Focused Summarization, которая эффективно решает проблему сентиментального анализа в различных областях. Мы показали, что наш подход может улучшить качество суммаризации и точность определения причин сентимента в
Annotation:
Constructive analysis of feedback from clients often requires determining the cause of their sentiment from a substantial amount of text documents. To assist and improve the productivity of such endeavors, we leverage the task of Query-Focused Summarization (QFS). Models of this task are often impeded by the linguistic dissonance between the query and the source documents. We propose and substantiate a multi-bias framework to help bridge this gap at a domain-agnostic, generic level; we then form...
ID: 2509.11989v1 cs.CL, cs.LG
Авторы:

Qiying Hu, Linping Zhang, Xueqian Wang, Gang Li, Yu Liu, Xiao-Ping Zhang

## Контекст Технологии глубокого обучения (Deep Learning, DL) широко используются для извлечения высокоразмерных паттернов из последовательных признаков радарных сигналов. Однако существующие методы DL сталкиваются с проблемами, такими как ненужные части признаков и ограничения, связанные с ограниченным размером моделей. Эти проблемы сказываются на эффективности и точности радарного выявления объектов. Наша мотивация заключается в развитии метода, который улучшит процесс радарного выявления, устранив эти ограничения. ## Метод Мы предлагаем рамочный подход, объединяющий прием данных, препроцессинг и глубокое обучение. Модуль препроцессинга берет последовательности признаков радарных сигналов, используя алгоритм выбора патчей для удаления ненужных данных. Затем, эти выбранные патчи преобразуются в вектора, совместимые с пространством признаков предварительно обученных больших языковых моделей (LLMs). Мы используем предварительно обученную LLM, но изменяем только нормализационные слои для обучения, чтобы уменьшить затраты ресурсов и улучшить результаты. ## Результаты Мы провели эксперименты на уже существующих радарных данных. Наши результаты показали, что предлагаемый подход существенно превосходит состояние технологий (State-of-the-art, SOTA) в зоне подготовленных данных. Он предоставляет более точные результаты, уменьшая число ненужных данных и улучшая общую эффективность модели. ## Значимость Предложенный метод может применяться в различных областях, таких как безопасность морских плав, автоматизация морских кораблей и оптимизация радарных систем. Он обеспечивает более точную обработку данных, уменьшает необходимость в трудоемком обучении модели и повышает производительность. Это может способствовать развитию технологий морского отдыха и улучшению безопасности. ## Выводы Наши результаты приводят к выводу, что интеграция препроцессинга с LLMs является эффективной стратегией для радарного выявления. Мы планируем провести будущие исследования, чтобы расширить этот подход на другие типы данных и приложений, а также улучшить его подход к реализации в реальных условиях.
Annotation:
Deep learning (DL) methods are widely used to extract high-dimensional patterns from the sequence features of radar echo signals. However, conventional DL algorithms face challenges such as redundant feature segments, and constraints from restricted model sizes. To address these issues, we propose a framework that integrates feature preprocessing with large language models (LLMs). Our preprocessing module tokenizes radar sequence features, applies a patch selection algorithm to filter out uninfo...
ID: 2509.12110v1 eess.SP, cs.CL, cs.LG
Авторы:

Yijia Xiao, Edward Sun, Tong Chen, Fang Wu, Di Luo, Wei Wang

## Контекст Финансовые рынки требуют от моделей ИИ высокую точность, гибкость и интерпретируемость. Несмотря на развитие моделей типа LLM, возникает проблема недостаточной структурированности их выводов. Большинство существующих моделей не могут обеспечить детальный рассуждающий анализ, адекватный потребностям финансовых профессионалов. Этот вызов становится еще актуальнее в контексте необходимости сбалансированного риск-рейтинга и высокой точности. Требуется модель, которая применяла бы структурированный рассуждающий подход, включая факт-гаунтированный анализ, логическую модель риска и волатильность, чтобы обеспечить инвесторам более основательные инвестиционные решения. ## Метод Trading-R1 представляет собой финансово направленную модель, которая применяет структурированный рассуждающий подход для генерирования инвестиционных тезисов. Модель обучается с помощью супервизированного fine-tuning и реинфорсментного обучения с использованием сложности постепенного тренировочного процесса с тремя стадиями. Для тренировки используется Tauric-TR1-DB, база данных с 100 тысяч выборок, охватывающих 18 месяцев, 14 эквити и пять видов финансовых данных. Эта модель предназначена для генерирования структурированных инвестиционных тезисов, основанных на логической модели риска, факт-гаунтированном анализе и волатильности. ## Результаты Trading-R1 была экспериментально протестирована на шести различных акциях и ETF. Проведенные эксперименты показали, что модель предлагает значительные улучшения в risk-adjusted returns и lower drawdowns, в сравнении с open-source, proprietary instruction-following и различными reasoning models. Модель также продемонстрировала улучшенную способность генерировать структурированные, основанные на доказательствах инвестиционные тезисы. ## Значимость Trading-R1 может быть применена в разнообразных финансовых сферах, включая risk assessment, trading strategy development, и investment research. Она предоставляет более точный, интерпретируемый подход к финансовым решениям, что может повысить уровень доверия инвесторов и снизить риски. В будущем, эта модель может стать основой для развития систем, которые могут принимать более обоснованные инвестиционные решения. ## Выводы Trading-R1 доказала свою эффективность в создании структурированных инвестиционных тезисов, основанных на логическом анализе и факт-гаунтированных данных. Она предлагает новый подход к финансовому моделированию, который может быть использован для улучшения стратегий инвестирования и обеспечения более низких рисков. Будущие исследования будут ориентированы на дальнейшее улучшение модели, включая рас
Annotation:
Developing professional, structured reasoning on par with human financial analysts and traders remains a central challenge in AI for finance, where markets demand interpretability and trust. Traditional time-series models lack explainability, while LLMs face challenges in turning natural-language analysis into disciplined, executable trades. Although reasoning LLMs have advanced in step-by-step planning and verification, their application to risk-sensitive financial decisions is underexplored. W...
ID: 2509.11420v1 q-fin.TR, cs.AI, cs.CE, cs.CL, cs.LG
Авторы:

Peter Vieting, Benedikt Hilmes, Ralf Schlüter, Hermann Ney

#### Контекст Автоматический распознавание речи (ASR) является ключевым направлением в области обработки естественного языка, стремящимся преодолеть барьеры между людьми и машинами. Существующие системы ASR часто полагаются на традиционные методы для извлечения акустических признаков, такие как Mel-frequency cepstral coefficients (MFCCs) или linear prediction coefficients (LPCs). Однако эти методы имеют ограничения в обработке сложных акустических сценариев. Нейронные сети предлагают возможность извлечения более высокого качества признаков, оптимизированных для конкретных задач ASR. Несмотря на это, многие из них остаются привязаны к классическим моделям, что существенно снижает потенциал универсальности и гибкости. Наше исследование рассчитано на развитие более универсальной архитектуры для извлечения признаков, которая бы была эффективной для различных ASR-систем. #### Метод Для решения проблемы стандартизированных методов извлечения признаков мы предлагаем новую архитектуру, сочетающую 2D-конволюционные сети с новыми адаптивными функциями для извлечения признаков. Методология основывается на двух основных предпосылках: 1) 2D-конволюционные слои позволяют извлекать признаки, учитывающие зависимости между звуковыми окружениями в пространстве и времени; 2) Универсальная модель не должна привязываться к конкретным предварительно обученным моделям или классическим методам. Мы предлагаем архитектуру с несколькими уровнями, которая может быть применена как в предобученных, так и в учебных сценариях. В нашей модели используется эффективный фреймворк для извлечения признаков, который учитывает объем вычислительных ресурсов, доступных в конкретных ситуациях. #### Результаты Для оценки эффективности предлагаемой модели мы провели серию экспериментов на различных данных ASR. Эти данные включали записи с высоким уровнем шума, с разным акцентом и разным языком. Мы сравнили результаты наших моделей с традиционными методами, такими как MFCCs и LPCs, а также с более современными нейронными моделями, такими как Wav2Vec и HuBERT. Наши результаты показали, что 2D-конволюционная модель показывает почти одинаковое качество признаков по сравнению с предварительно обученными моделями, при этом требуя меньших вычислительных ресурсов. Особое внимание уделялось влиянию универсальной архитектуры на уменьшение пропускаемой информации и повышение стабильности системы ASR в разных условиях. #### Значимость Предлагаемая модель может быть применена в разных сферах ASR, включая системы, работающие в реальном времени, а также в мобильных приложениях, где ограничены вычислительные ресур
Annotation:
Neural front-ends represent a promising approach to feature extraction for automatic speech recognition (ASR) systems as they enable to learn specifically tailored features for different tasks. Yet, many of the existing techniques remain heavily influenced by classical methods. While this inductive bias may ease the system design, our work aims to develop a more generic front-end for feature extraction. Furthermore, we seek to unify the front-end architecture contrasting with existing approaches...
ID: 2509.10031v1 eess.AS, cs.CL, cs.LG, cs.SD
Авторы:

Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach

## Контекст Meeting transcription является областью высокой актуальности и существенного прогресса в последние годы. Однако некоторые задачи в ней до сих пор остаются неразрешимыми. Одним из таких вызовов является анализ ошибок в модульных системах транскрибирования, которые могут влиять на качество транскрибирования. Исследователи стремятся к пониманию этих проблем, чтобы оптимизировать системы и минимизировать ошибки. Целью данного исследования является расширение фреймворка для анализа темпоральной локальности в системах сепарации речи и его применение для оценки ошибок в модульных системах транскрибирования. Ранее, анализ ошибок ограничивался одной точке времени, но в данной работе введена методика, которая учитывает темпоральную локальность, что позволяет более точно оценить ошибки. ## Метод Для анализа ошибок в модульных системах транскрибирования разработана новая методика, основанная на расширенной методологии для анализа темпоральной локальности. Эта методика применяется к системе, которая использует модульную архитектуру, включающую модули для сепарации речи, звуковой активности и распознавания речи. Методика включает в себя сравнение различных сегментаций, в том числе идеальной (оркестрованной) сегментации, легковесной сегментации на основе энергии и более сложными методами диаризации. Эксперименты проводились на данных LibriCSS, которые являются открытым ресурсом для тестирования систем транскрибирования. ## Результаты Результаты показывают, что такие методы диаризации, как x-vector и diarization с N-лучами, существенно сокращают разрыв с идеальной сегментацией по сравнению с простой энергий-based VAD. Тем не менее, остаётся заметный разрыв в третьей части результатов. Изучение этого разрыва показало, что основные факторы включают неточности в активности речи, синхронизацию между модулями и недостаточную точность распознавания речи в условиях высокого шума. Эти факторы определяют остаточные ошибки в системе. Более того, проведенный анализ позволил выявить, что прогресс в сепарации речи и diarization имеет существенное влияние на ошибки, но не устраняет их полностью. ## Значимость Результаты этой работы имеют большое значение для развития модульных систем транскрибирования. Они демонстрируют, что улучшение модулей сепарации речи и диаризации может привести к значительным улучшениям в качестве транскрибирования. Кроме того, работа показывает, что улучшение точности распознавания речи в условиях высокого шума и уменьшение неточностей в синхронизации модулей могут существенно уменьшить остаточные ошибки. В будущем, эти находки могут быть применены для со
Annotation:
Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much a...
ID: 2509.10143v1 eess.AS, cs.CL, cs.LG, cs.SD
Авторы:

Akshat Pandey, Karun Kumar, Raphael Tang

## Контекст Предварительно обученные модели распознавания речи, такие как Whisper, демонстрируют выдающиеся результаты в распознавании речи. Однако они не всегда эффективны при работе с незнакомым лексиконом или параллелизмом. Это проблема особенно актуальна в реальных сценариях, где сбор звуковых данных затруднен и невозможен в регулярных условиях. В таких ситуациях становится необходимым развитие текстово-ориентированных методов адаптации, которые могут улучшить точность распознавания без дополнительных звуковых данных. ## Метод Мы предлагаем WhisTLE — метод глубокой супервайзированной адаптации без подсказок, ориентированный на текст. Метод включает в себя несколько ключевых компонентов. Во-первых, мы обучаем вариационный автоэнкодер (VAE) для моделирования выходов преобразователя из текстовых данных. Этот этап позволяет восстанавливать информацию из текста с минимальным ущербем. Во-вторых, мы применяем глубокую супервайзированную адаптацию, где декодер обучается с использованием текстово-в-латентное преобразование, возможно объединенное с текстово-во-речь (TTS) адаптацией. Наконец, на этапе инференса, мы восстанавливаем предварительно обученный преобразователь, чтобы не увеличивать затраты на вычисления. ## Результаты Мы проверили эффективность WhisTLE на четырех выборках текстовых данных и четырёх моделях распознавания речи. Наши эксперименты показали, что применение WhisTLE с TTS приводит к снижению ошибки слов (WER) на 12.3% по сравнению с TTS-only адаптацией. Более того, WhisTLE показал лучшие результаты в 27 из 32 сценариев по сравнению с другими текстовыми методами адаптации. Эти результаты подтверждают эффективность WhisTLE в области текстовой адаптации без дополнительных звуковых данных. ## Значимость Метод WhisTLE может быть применен в различных сценариях, где доступ к звуковым данным ограничен, но есть текстовые ресурсы. Например, это может быть полезно в окружениях, где нужно распознавать речи на редких языках или в ситуациях, когда необходимо обрабатывать нестандартные лексики. Преимущественным моментом является возможность улучшения точности распознавания без дополнительных затрат на сбор звуковых данных. Мы считаем, что WhisTLE может стать ключевым инструментом для расширения возможностей текстового распознавания речи. ## Выводы Мы представили WhisTLE — новый метод глубокой супервайзированной текстовой адаптации для предобученных моделей распознавания речи. Наши эксперименты показали, что этот подход значительно улучшает точность распознавания, даже в условиях отсу
Annotation:
Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned ...
ID: 2509.10452v1 cs.CL, cs.LG
Авторы:

Daniil Ignatev, Nan Li, Hugh Mee Wong, Anh Dang, Shane Kaszefski Yaschuk

## Контекст Многообразие представлений в современной общественной сфере требует развития моделей, которые могут эффективно обрабатывать и агрегировать различные точки зрения. Особенно актуальным становится применение таких моделей в области анализа текстов, где необходимо учитывать не только контекст, но и разнообразие в интерпретации текстов различными пользователями. "DeMeVa at LeWiDi-2025" — это системная работа, посвященная задаче Learning with Disagreements (LeWiDi) 2025, которая фокусируется на моделировании точек зрения в контексте разногласий в мнениях. Исследователям необходимо разработать модели, которые могут не только точно предсказывать мнения пользователей, но и проявлять гибкость в агрегировании разных взглядов. ## Метод Для решения задачи использовались два подхода: **In-Context Learning (ICL)** и **Label Distribution Learning (LDL)**. **ICL** состоит в том, что тексты тренировочных данных выступают в роли примеров для подсказок генерации soft-labels в контексте новых данных. Для эффективного использования ICL рассматривались различные стратегии выбора примеров, включая случайную выборку, селективную выборку и стратегию семантического схожести. **LDL** включает в себя методы, основанные на предсказании распределения между множеством классов, что применимо для моделирования мнений пользователей. Рассматривались методы файн-тюнинга с использованием модели RoBERTa, чтобы оптимизировать процесс предсказания распределений. ## Результаты Использовались разные наборы данных, включая текстовые сценарии, где необходимо было предсказать мнения пользователей. **ICL** показал высокую точность в предсказании точек зрения пользователей. Особенно эффективна была стратегия выбора примеров семантической схожести, которая позволяла модели более точно предсказывать тенденции в индивидуальных восприятиях. **LDL** показал потенциал для предсказания распределений между множеством классов, которые могут интерпретироваться как мнения пользователей. Методы файн-тюнинга с RoBERTa позволяли улучшить точность и достичь конкурентоспособных результатов. ## Значимость Результаты этих подходов могут быть применены в различных областях, где необходимо учитывать разногласия в мнениях, таких как социальный анализ, моделирование дискуссий в социальных сетях или анализ тональности в текстах. **Преимущества** ICL заключаются в том, что он может эффективно предсказывать точки зрения пользователей, а LDL — в том, что он предлагает новый подход к моделированию распределений между множеством классов. **Потенциальное влияние** — расширение возможностей моделей для анализа и агрегирования разногласий в мнениях
Annotation:
This system paper presents the DeMeVa team's approaches to the third edition of the Learning with Disagreements shared task (LeWiDi 2025; Leonardelli et al., 2025). We explore two directions: in-context learning (ICL) with large language models, where we compare example sampling strategies; and label distribution learning (LDL) methods with RoBERTa (Liu et al., 2019b), where we evaluate several fine-tuning methods. Our contributions are twofold: (1) we show that ICL can effectively predict annot...
ID: 2509.09524v1 cs.CL, cs.LG
Показано 391 - 400 из 573 записей