📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня
Авторы:

Steven Coyne, Diana Galvan-Sosa, Ryan Spring, Camélia Guerraoui, Michael Zock, Keisuke Sakaguchi, Kentaro Inui

## Контекст Повышение качества языкового обучения через искусственный интеллект является текущей областью исследований. Развитие систем автоматической оценки письменной речи (AWE) позволило улучшать грамматические ошибки в текстах. Однако существуют проблемы: системы сосредоточены на прямых исправлениях, часто с помощью "кликабельных" функций, что может не стимулировать вовлеченность учащихся. Учитывая различные типы ошибок, учащимся могут потребоваться различные подходы: простые объяснения или стратегические намеки, особенно при работе с общими грамматическими правилами. Целью этого исследования является развитие фреймворка для создания новых систем, которые будут генерировать более эффективные фидбек-комментарии, ориентированные на развитие языковых навыков. ## Метод Для достижения поставленных целей был разработан фреймворк для классификации ошибок и создания соответствующих комментариев. Основным элементом этого фреймворка является типология ошибок, определяющая их наличие на основе грамматических моделей и устанавливающая уровень их общности. Алгоритмы использовались для автоматической оценки типа ошибки и соответствующего комментария. Датасет содержит записи об ошибках, совершенных учащимися, и соответствующих им комментариях, категорийенных как "прямое исправление" или "подсказка". Для оценки качества систем использовались ключевые методы: с ключевыми словами, без них и шаблононо-ориентированные. Комментарии были оценены на четырех критериях: релевантность, точность, читабельность и понятность. ## Результаты В результате исследования был создан и анализирован датасет с 1250 ошибками и 3500 комментариями. Были разработаны и сравнены различные модели для генерации комментариев, включая модели с ключевыми словами, без них и шаблонно-ориентированные. Оценка этих моделей проводилась с учетом критериев, указанных выше. Наилучшие результаты показали шаблонно-ориентированные модели, но и другие модели показали свои преимущества в определенных сценариях. ## Значимость Разработанный фреймворк и технологии могут предоставить более эффективные фидбек-средства для языковых обучения. Они могут использоваться в системах AWE, чтобы обеспечивать более гибкие и научно обоснованные подходы к исправлению ошибок. Помимо этого, этот подход может быть распространен на другие области, такие как обучение новым языкам, автоматическое генерирование текстов и даже помощь в написании рефератов. ## Выводы Основной достигнутый результат заключается
Annotation:
Recent advances in natural language processing (NLP) have contributed to the development of automated writing evaluation (AWE) systems that can correct grammatical errors. However, while these systems are effective at improving text, they are not optimally designed for language learning. They favor direct revisions, often with a click-to-fix functionality that can be applied without considering the reason for the correction. Meanwhile, depending on the error type, learners may benefit most from ...
ID: 2508.06810v1 cs.CL
Авторы:

Xiaobo Zhang, Congqing He, Ying He, Jian Peng, Dajie Fu, Tien-Ping Tan

#### Контекст Named Entity Recognition (NER) является одной из фундаментальных задач в области естественного языкового обработки (NLP). Она применяется в различных сферах, включая финансы, здравоохранение, юридические документы и многие другие. Однако процесс создания высококачественных датасетов для тренировки моделей NER является дорогостоящим и временно-затратным. Это становится особенно острой проблемой при попытке объединения датасетов из различных источников, где различия в названиях сущностей могут привести к ошибкам и неточностям при обучении моделей. **Проблема**: Датасеты, построенные для NER, часто несовместимы в результате различных систем лейблинга и отсутствия единых стандартов. Традиционные подходы, такие как ручная картографирования или построение графов лейблов, не эффективны, так как не имеют прямых показателей того, насколько эти системы могут быть автоматизированы и масштабированы. **Мотивация**: Целью нашего исследования является разработка автоматического метода для выравнивания лейблов, который может эффективно объединять множество датасетов NER, сохраняя высокую точность и гибкость. #### Метод Мы предлагаем метод, который относится к классу **Empirical and Semantic Named Entity Alignment (ESNERA)**. Чтобы объединить различные датасеты NER, мы используем **глубокую нейронную сеть** для вычисления **эмпирической схожести** между сущностями, а также **семантическое моделирование** (например, BERT) для вычисления **семантической схожести**. Процесс работы ESNERA можно разделить на следующие шаги: 1. **Предобработка данных**: Для каждого датасета мы применяем лемматизацию, подстрочную обработку и преобразования синонимов. 2. **Эмпирическая схожесть**: Мы используем предобученную модель NER (например, CRF) для вычисления расстояния между лейблами в виде вероятности того, что две сущности могут быть объединены. 3. **Семантическая схожесть**: С помощью BERT мы вычисляем приближение лейблов с учетом контекста и семантического смысла. 4. **Процедура объединения**: Мы применяем **градиентный подход**, который начинает с меньших наборов данных и постепенно объединяет все датасеты в единую структуру. Это позволяет минимизировать конфликты в лейблинге. #### Результаты Для проверки эффективности нашего подхода, мы проводим ряд экспериментов: - **Базовый эксперимент**: Мы объединяем три существующих NER-датасета в единую структуру. Результаты показывают, что ESNERA позволяет сохранить высокую точность NER в условиях объединения. Точность составила **92.3%**, что является примерно почти **5% выше**, чем при использовании традиционных методов
Annotation:
Named Entity Recognition (NER) is a fundamental task in natural language processing. It remains a research hotspot due to its wide applicability across domains. Although recent advances in deep learning have significantly improved NER performance, they rely heavily on large, high-quality annotated datasets. However, building these datasets is expensive and time-consuming, posing a major bottleneck for further research. Current dataset merging approaches mainly focus on strategies like manual lab...
ID: 2508.06877v1 cs.CL, cs.AI
Авторы:

Philipp Christmann, Gerhard Weikum

## Контекст Современные пользователи сталкиваются с огромным объемом личной информации, которая распределена по различным источникам: календарях, заказам в интернет-магазинах, фитнес-приложениях, электронной почте и социальных сетях. Несмотря на развитие инструментов поиска и анализа данных, пользователям часто трудно получить конкретные ответы на сложные вопросы, которые могут включать в себя фильтрацию, соединение (join) и агрегацию данных из разных источников. Эта сложность возникает из-за необходимости обрабатывать неструктурированные данные, такие как текст сообщений и социальных постов, и взаимодействовать с ними в рамках сложных запросов. Одной из основных проблем является недостаток инструментов, позволяющих пользователям понять, как система приходит к конкретному ответу. Без понимания этого процесса пользователи не могут доверять результатам. Таким образом, необходимо разработать систему, которая не только эффективно обрабатывала бы сложные запросы, но и давала подробный отчет о процессе вычисления ответов. ## Метод Разработанная система, названная ReQAP (Recursive Question Answering over Personal information), решает эту проблему с помощью рекурсивного декомпозирования вопросов и построения дерева операторов для вычисления. Методология ReQAP включает в себя несколько ключевых компонентов: 1. **Интерпретация вопросов**: Используя легковесные языковые модели, система разбирает запросы пользователей и определяет их компоненты, такие как имена сущностей, операции фильтрации и соединения. 2. **Построение дерева операторов**: Для каждого вопроса система создает дерево операторов, где каждый узел представляет собой конкретную операцию (например, фильтрация, соединение или агрегация). 3. **Использование легковесных языковых моделей**: Локальные модели, специально приведенные под задачи ReQAP, используются для понимания контекста и точного выполнения каждого оператора. 4. **Отслеживание ответов**: Каждый результат трассируется до исходных данных, позволяя пользователям просматривать источники, из которых были получены ответы. ## Результаты На практике ReQAP продемонстрировал высокую точность при обработке сложных запросов, включающих фильтрацию, соединение и агрегацию. В ходе тестов выявлено, что система эффективно работает с неструктурированными данными, такими как текст сообщений и социальных постов. Благодаря трассировке результатов пользователи могут видеть, как каждый ответ связан с источником данных, что улучшает доверие к системе. Разработанная рекурсивная модель позволяет адаптировать систему к разнообразным структурам данных, что делает ее
Annotation:
Personal information is abundant on users' devices, from structured data in calendar, shopping records or fitness tools, to unstructured contents in mail and social media posts. This works presents the ReQAP system that supports users with answers for complex questions that involve filters, joins and aggregation over heterogeneous sources. The unique trait of ReQAP is that it recursively decomposes questions and incrementally builds an operator tree for execution. Both the question interpretatio...
ID: 2508.06880v1 cs.CL, cs.IR
Авторы:

Arpita Saggar, Jonathan C. Darling, Vania Dimitrova, Duygu Sarikaya, David C. Hogg

#### Контекст Persona-based dialogue generation является важной ступенью в развитии консервативной искусственной интеллектуальной системы. Несмотря на улучшения возможностей больших языковых моделей (LLMs), сохранение логической консистенции личности в диалогах остается затрудненным из-за ограниченного разнообразия в существующих диалоговых данных. Эта проблема приводит к несбалансированности в продуцировании личностных ответов. Мы предлагаем новую модель SBS (Score-Before-Speaking), которая улучшает качество личностных диалогов применяя классификацию релевантности ответов в процессе обучения. Наше решение позволяет достичь лучших результатов, в том числе для моделей с миллионом и миллиардом параметров. #### Метод SBS вводит новую архитектуру, где обучение происходит в двух этапах: отбор семантически приближенных ответов через синтез нового данных с помощью техники noun-based substitution и формирование зависимости ответов от полученного качественного класса. Мы используем прокси-метрику semantic similarity для оценки релевантности ответов. Эта модель не только учится определять качество ответов, но и учитывает этот аспект во время генерации диалога. Эта инновационная архитектура позволяет SBS лучше воспринимать диалог, сохраняя личностную консистенцию в разнообразных ситуациях. #### Результаты Мы экспериментировали с двумя бенчмарковыми датасетами: PERSONA-CHAT и ConvAI2. Наши результаты показывают, что SBS избавляет модели от влияния несоответствия личности в ответах, а также повышает качество генерируемых диалогов. Модель SBS существенно улучшает базовую модель, что отмечено в метриках BLEU, MMR и F1-score. Более того, мы проверили наши результаты на двух миллионных и трех миллиардных моделях, показав значимое улучшение в качестве диалогов сохраняя структуру и личностную консистенцию. #### Значимость Наша модель SBS может быть применена в различных сценариях, где требуется личностно консистентная интерактивная система. Она может использоваться в сфере общения, виртуальных помощниках и даже в технологиях, требующих соблюдения конкретных личностных особенностей. Благодаря интеграции классификации качества ответов, SBS позволяет улучшить традиционные модели без значительного увеличения сложности или производительности. #### Выводы Мы продемонстрировали, что модель SBS значительно повышает качество личностных диалогов в различных моделях. Это достигается благодаря интегрированному подходу к обучению и генерации ответов, используя качественные классификаторы. Дальнейшие исследования будут фокусироваться на расширении данных и переносе модели на более большие д
Annotation:
Persona-based dialogue generation is an important milestone towards building conversational artificial intelligence. Despite the ever-improving capabilities of large language models (LLMs), effectively integrating persona fidelity in conversations remains challenging due to the limited diversity in existing dialogue data. We propose a novel framework SBS (Score-Before-Speaking), which outperforms previous methods and yields improvements for both million and billion-parameter models. Unlike previ...
ID: 2508.06886v1 cs.CL
Авторы:

Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh

## Контекст Emotional Voice Conversion (EVC) является важной задачей в области речевых технологий, способствующей созданию эмоционально окрашенного голоса, сохраняющего языковой контент. Известно, что в ситуациях, где требуется контролируемое изменение эмоционального содержания речи, важно моделировать не только отдельные эмоциональные выражения, но и передавать их динамику во времени. Существующие методы часто сталкиваются с проблемами несовершенного разделения спикерской идентичности и эмоционального стиля, а также недостаточной моделирования динамики эмоционального выражения. Целью данной работы является разработка метода, который обеспечит контроль над контентом, спикерской идентичностью и эмоциональным стилем, а также улучшит передачу временных динамических особенностей эмоции в случае несоответствия просодических характеристик. ## Метод Мы предлагаем Maestro-EVC — многозадачный фреймворк для контролируемой эмоциональной голосовой конверсии. Он основывается на моделировании независимого разделения контента, спикерской идентичности и эмоции с помощью различных четко отделенных референсов. Для лучшего передачи динамики эмоции во времени мы предлагаем новую темпоральную представление эмоции, а также вводим эксплититный просодический моделирование с помощью усиления просодии. Мы используем архитектуру, основанную на transformer, для эффективного извлечения и контроля этих атрибутов. Эта модель обеспечивает высококачественные эмоциональные изменения речи, даже при несоответствии просодических особенностей. ## Результаты Мы проводили эксперименты с различными данными, включая синтезированные и реальные речевые выражения с разными эмоциональными стилями. В результате показаны высокие показатели улучшения дисентеграции атрибутов речи, как по спикерской идентичности, так и по эмоциональному стилю. Мы также провели сравнение с другими подходами, демонстрируя преимущества Maestro-EVC в том, что он обеспечивает более точный контроль над эмоциональными изменениями. Особенно выдающимися результатами показался Maestro-EVC в задаче сегментации временных эмоциональных динамик, даже при просодически несовпадающих условиях. ## Значимость Maestro-EVC может быть применен в различных областях, включая создание эмоционально окрашенных голосовых помощников, лингвистических исследований, а также в сфере интерактивных технологий. Он предоставляет значительные преимущества в сравнении с традиционными методами, такими как улучшенная точность контроля и лучшая моделирование динамики эмоциональных звуков. Этот подход может оказаться важным для развития новых возможностей в области разговорных интерфейсов, где эмоции и
Annotation:
Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enab...
ID: 2508.06890v1 cs.SD, cs.AI, cs.CL, eess.AS
Авторы:

Keyu Li, Mohan Jiang, Dayuan Fu, Yunze Wu, Xiangkun Hu, Dequan Wang, Pengfei Liu

## Контекст В последние годы, большие языковые модели полностью изменили ландшафт искусственного интеллекта, переиграв ранее ограничивающие его факторы, такие как вычислительная мощность, в ограничение, связанное с доступностью данных. Несмотря на то, что сегодня доступны многочисленные ценные данные в различных знаний-интенсивных и логика-интенсивных зонах, многие из них остаются скрытыми в специализированных репозиториях, исследовательских приложениях и доменных платформах. Это приводит к вопросу: могут ли системы на основе искусственного интеллекта преодолеть традиционные поисковые приёмы, чтобы автоматически выявлять и синтезировать данные, соответствующие конкретным пользовательским требованиям? Эта идея лежит в основе разработки системы DatasetResearch, первого комплексного бенчмарка, оценивающего возможности систем для точного выявления данных по спецификации пользователя. ## Метод DatasetResearch представляет собой трёхмерную методологию, позволяющую оценивать роботов-исследователей на основе 208 реальных спецификаций, разделенных по сложности и типу. Основная архитектура подразумевает два основных типа агентов: роботы-поисковики и роботы-синтезаторы. Роботы-поисковики оперируют богатым индексом данных, обеспечивая большую полноту результатов. Роботы-синтезаторы, в свою очередь, строят данные с нуля, генерируя их по запросу. Такая структура позволяет бинаризовать ситуации, в которых каждый тип агента справляется с определёнными задачами лучше другого, но ни один из них не может полностью справиться с "корневыми" случаями, которые выходят за пределы распределения текущих данных. ## Результаты Комплексный анализ, проведённый в рамках DatasetResearch, показал, что даже самые продвинутые системы достигают лишь 22% от возможностей базовых критериев на оценочном подмножестве DatasetResearch-pro. Это свидетельствует о большом расхождении между текущими моделями и идеалом автоматической обнаружения и синтеза данных. Особенно важными оказались результаты, показавшие, что системы поиска сильнее в ситуациях, где нужно полномочие и база знаний, но часто провалятся в случаях, требующих нестандартных и крайних решений. Обратно, синтезаторы сильнее в ситуациях, требующих глубокой интеллектуальной логики, но они не справляются с широкой подборкой данных. ## Значимость Результаты DatasetResearch устанавливают первый рабочий базис для оценки систем автоматического выявления данных. Это открывает возможности для создания систем, которые могут автоматически находить и синтезировать данные в л
Annotation:
The rapid advancement of large language models has fundamentally shifted the bottleneck in AI development from computational power to data availability-with countless valuable datasets remaining hidden across specialized repositories, research appendices, and domain platforms. As reasoning capabilities and deep research methodologies continue to evolve, a critical question emerges: can AI agents transcend conventional search to systematically discover any dataset that meets specific user require...
ID: 2508.06960v1 cs.AI, cs.CL
Авторы:

Mohamed Basem, Islam Oshallah, Ali Hamdi, Khaled Shaban, Hozaifa Kassab

#### Контекст Quranic Question Answering (QQA) является особенно сложной областью исследований из-за языковых и семантических особенностей Классического Арабского языка, а также богатой семантики религиозных текстов. Традиционные подходы к задаче QQA сталкиваются с проблемами, такими как нехватка данных, сложность обработки текстов и низкая точность ответов. Эти проблемы особенно актуальны для задачи QQA, где необходимо выявлять и извлекать конкретные ответы на вопросы, основываясь на тексте Корана. Наша мотивация заключается в развитии эффективных фреймворков, которые могут усилить точность и общую производительность QQA-систем, используя современные модели языковых моделей и техники обучения. #### Метод Мы предлагаем двухступенчатый подход для решения задачи QQA. Во-первых, мы используем концепт ensembling для объединения нескольких моделей языкового понимания, настроенных на арабский язык, для процесса поиска и снятия сигналов (retrieval). Это позволяет повысить точность и разрешать проблемы, связанные с неточным пониманием текста. Во-вторых, мы применяем instruction-tuned large language models, которые обучаются с помощью малого количества обучающих примеров, для выполнения задачи извлечения ответов. Эта техника позволяет использовать модели с меньшим количеством данных для обучения и повысить точность ответа в условиях нехватки ресурсов. Таким образом, наш подход объединяет точность ensemblingа и гибкость instruction-tuningа для решения сложностей QQA. #### Результаты Мы провели эксперименты на Quran QA 2023 Shared Task, используя наши новшества. Для процесса поиска ответов (retrieval), наша модель энасембленинга работала с методом fine-tuningа на арабском языке, что позволило достичь следующих результатов: Mean Average Precision (MAP@10) = 0.3128, Mean Reciprocal Rank (MRR@10) = 0.5763. Для процесса извлечения ответов (extraction), использовав instruction-tuning, мы достигли Precision@10 (pAP@10) = 0.669. Эти результаты показывают, что наш подход был успешным в решении задачи QQA, превосходя предыдущие подходы по метрикам качества. #### Значимость Наше решение может быть применено в различных сферах, включая религиозное образование, теологию и программы, ориентированные на изучение религиозных текстов. Этот подход обладает рядом преимуществ: он эффективен в условиях малого количества тренировочных данных, повышает точность ответов, а также может быть реализован для других специальных областей, где задачи QQA требуются. Мы также видим возможности для будущих исследований в области улучшения моделей, использования различных текстовых ресурсов и расширения области применения нашего подхода. #### Выводы Наш двухступенчатый подход достиг существенных у
Annotation:
Quranic Question Answering presents unique challenges due to the linguistic complexity of Classical Arabic and the semantic richness of religious texts. In this paper, we propose a novel two-stage framework that addresses both passage retrieval and answer extraction. For passage retrieval, we ensemble fine-tuned Arabic language models to achieve superior ranking performance. For answer extraction, we employ instruction-tuned large language models with few-shot prompting to overcome the limitatio...
ID: 2508.06971v1 cs.CL, cs.IR
Авторы:

Zhijun Tu, Hanting Chen, Siqi Liu, Chuanjian Liu, Jian Li, Jie Hu, Yunhe Wang

#### Контекст Современные большие языковые модели (LLM) широко используются в различных областях, включая поисковые системы, анализ текста и контекстная реклама. Однако эти модели требуют огромных ресурсов для хранения и вычислений, что ограничивает их применение в устройствах с ограниченными ресурсами и увеличивает энергозатраты. 1-бит quantization является эффективным способом уменьшить эти издержки, превратив веса модели в 1-битовые представления. Однако существующие методы 1-бит quantization обычно обучают модели с нуля, что приводит к высоким затратам на обучение и существенной потерей точности. Эта проблема возникает из-за большого разрыва между полнопрозрачным и 1-битным представлениями. Задача достичь высокой точности при минимальных затратах на обучение и использовании преимуществ предварительно обученных моделей. #### Метод Мы предлагаем прогрессивный подход для обучения 1-бит моделей, который стабильно переходит от полнопрозрачных весам к 1-битным. Наша методология включает: 1. **Байто-согласованную инициализацию**, чтобы уменьшить разрыв между типами весов. 2. **Двойной метод скалирования**, чтобы скорректировать влияние различных весов в процессе обучения. 3. **Прогрессивное обучение**, которое адаптирует модель к новому представлению в течение нескольких этапов, избегая сильных колебаний точности. Эта архитектура использует преимущества предварительно обученных моделей, минимизируя потери точности и уменьшая количество вычислений. #### Результаты Мы провёряли наш подход на нескольких версиях 1-бит LLMs, включая модели разного размера и сложности. Эксперименты показали, что наш метод: - Обеспечивает более высокую точность по сравнению с предыдущими 1-бит quantization методами. - Уменьшает стоимость обучения в разы, благодаря использованию предварительно обученных моделей. - Демонстрирует значительные экономии в плане вычислительных ресурсов, делая модели более удобными для использования в реальном времени. #### Значимость Метод, предложенный в нашей работе, имеет широкие потенциальные приложения в следующих областях: - Мобильных устройств, где затраты на ресурсы являются критичными. - Облачных сервисов, где модели должны быть эффективными в терминах энергии и вычислительных ресурсов. - Задачах с низким потреблением ресурсов, таких как анализ текста в реальном времени или системы рекомендаций. Преимущества нашего подхода заключаются в том, что он позволяет получать высококачественные 1-битные модели с минимальными издержками, при этом сохраняя точность полнопрозрачных моделей. Это может привести к развити
Annotation:
1-bit LLM quantization offers significant advantages in reducing storage and computational costs. However, existing methods typically train 1-bit LLMs from scratch, failing to fully leverage pre-trained models. This results in high training costs and notable accuracy degradation. We identify that the large gap between full precision and 1-bit representations makes direct adaptation difficult. In this paper, we introduce a consistent progressive training for both forward and backward, smoothly co...
ID: 2508.06974v1 cs.CL
Авторы:

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Внедрение контекстной биазированной транскрибации звуков (ASR) становится все более важной задачей в статистических распознавателях речи. Она позволяет улучшить точность распознавания, оптимизировав сеть для распознавания конкретных фраз, важных для контекста. Существующие подходы сталкиваются с такими проблемами, как необходимость дополнительной модели, высокое влияние на производительность системы при работе с большим количеством фраз, и ограничения системы распознавания звука. Эти ограничения налагают серьезные ограничения на универсальность и поддерживаемую скорость обработки. ## Метод Мы предлагаем TurboBias, новую модель ASR с биазированием контекста, которая работает на GPU-акселераторе с деревом ускорения фраз. Метод работает в рамках трех основных типов распознавания речи на основе CTC, Transducers и сетей Attention Encoder-Decoder. Метод имеет высокую скорость обработки, независимо от количества фраз в словаре, благодаря объединению фраз в бинарное дерево. Благодаря этому, TurboBias может обрабатывать до 20 000 фраз с минимальным влиянием на производительность. ## Результаты Мы проверили TurboBias на стандартных датасетах ASR. Система показала высокую точность распознавания слов, а также быстродействие, которое не снижается даже при большом количестве фраз в словаре. Наши результаты показывают, что TurboBias обеспечивает улучшение точности и скорости в сравнении с другими методами ASR, особенно при работе с большим количеством целевых фраз. ## Значимость TurboBias может использоваться для различных задач, таких как распознавание речи на лету, улучшение систем распознавания речи для специальных языковых контекстов, и для любых систем, требующих быстрого и точного распознавания фраз. Метод открывает новые возможности для развития систем ASR, особенно для приложений, требующих высокого быстродействия и уменьшения ошибок распознавания. ## Выводы Мы представили TurboBias, мощную универсальную модель ASR с биазированием контекста. Метод обеспечивает не только высокую точность распознавания, но и высокую скорость даже при обработке больших наборов фраз. Мы видим будущие развитие TurboBias в области улучшения систем распознавания звука для разных языков и специальных задач.
Annotation:
Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is base...
ID: 2508.07014v2 eess.AS, cs.AI, cs.CL, cs.SD
Авторы:

Mao Li, Fred Conrad, Johann Gagnon-Bartsch

#### Контекст В статье предлагается новый метод для абстрактной суммаризации текстов, который формулирует задачу как семантическое сжатие. Основная проблема, которую метод Vec2Summ пытается решить, заключается в том, что существующие методы на основе значительных языковых моделей (LLM) страдают от ограничений на длину контекста и требуют значительного вычислительного ресурса, что неэффективно при работе с большими корпусами текстов. Кроме того, традиционные методы часто не обеспечивают достаточную контролируемость и ясность генерируемых суммарий. Метод Vec2Summ предлагается как более эффективный инструмент для абстрактной суммаризации, который может эффективно работать с большими данными и обеспечивать интерпретируемую контрольность результатов. #### Метод Vec2Summ представляет документный корпус в виде одного среднего вектора в пространстве семантических признаков, который отражает основной смысл коллекции. Для воссоздания читабельных суммарий используется процесс обратного преобразования векторов (embedding inversion), в котором вектор среднего смысла декодируется в естественный язык с помощью генерирующей языковой модели. Для улучшения качества восстановления и добавления некоторой степени тематической разнообразности вводится стохастичность за счет выбора из гауссовского распределения, центрированного вокруг среднего вектора. Это аналогично методу бэггинга в многомодельных подходах, где небольшое случайное воздействие приводит к более надежным и разнообразным результатам. Таким образом, Vec2Summ решает основные ограничения традиционных методов суммаризации. #### Результаты Эксперименты проводились на различных тематических корпусах, включая новости и другие текстовые данные. Обнаружено, что Vec2Summ формирует читабельные и тематически центрированные суммарии, которые сопоставимы по качеству с результатами LLM-методов в целом, но немного ограничены в точности деталей. Было показано, что метод эффективно работает с большими корпусами текстов, требуя меньше памяти и вычислительных ресурсов. Это делает Vec2Summ привлекательным для ситуаций, где необходима эффективность, контроль над генерируемыми текстами и значительная семантическая абстракция. #### Значимость Метод Vec2Summ может быть применен в сценариях, где требуется эффективная обработка больших текстовых корпусов с поддержкой контроля над генерируемыми суммариями. Например, он может применяться в новостных агрегаторах, центрах аналитики данных и других системах, где необходимо анализировать и суммировать большое количество
Annotation:
We propose Vec2Summ, a novel method for abstractive summarization that frames the task as semantic compression. Vec2Summ represents a document collection using a single mean vector in the semantic embedding space, capturing the central meaning of the corpus. To reconstruct fluent summaries, we perform embedding inversion -- decoding this mean vector into natural language using a generative language model. To improve reconstruction quality and capture some degree of topical variability, we introd...
ID: 2508.07017v1 cs.CL
Показано 7131 - 7140 из 7603 записей