📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Vishal Choudhari
## Контекст
Многоречивые окружения представляют свои собственные вызовы для понимания и восприятия говорения. Особенно это актуально при отсутствии внимания к некоторым частям диалога. Существующие системы позволяют воспроизводить содержимое звуковых потоков, но не учитывают контекст или семантический контент. Участники таких систем часто приходятся прибегать к рутинному повторению звуков, чтобы разобраться в пропущенном контенте. Это приводит к увеличению времени, потребляемого на понимание диалога, и к ухудшению качества взаимодействия. Необходимо разработать систему, которая не только воспроизводила бы пропущенные фрагменты, но и обеспечивала бы понятное понимание и контекст с помощью наиболее актуального текстового описания.
## Метод
Система Beamforming-LLM использует микрофонный массив для съемки спектральных данных, которые позволяют выделить звуковые источники в многоречивых средах. Эти звуковые потоки используются для сегментации и распознавания речи с помощью Whisper. Он транскрибирует звуковые фрагменты и вставляет их в векторную базу данных с помощью sentence encoders. Пользователь может задавать семантические запросы, например: "Что я пропустил, когда думал об другой теме?". Затем система выполняет поиск семантически похожих фрагментов и определяет, какие фрагменты были пропущены в то время, когда пользователь отвлекался. Эти фрагменты становятся доступными для повтора с помощью GPT-4o-mini, которая создает упрощенные сводки. Благодаря этому, пользователь может получить ответы в удобном текстовом формате с возможностью запускать аудио на запрос.
## Результаты
В экспериментах система Beamforming-LLM была применена в сценариях многоречивых диалогов, когда пользователь отвлекается от некоторых частей диалога. Были проведены тесты на различных диалогах, и система показала высокую точность в поиске и воспроизведении пропущенных фрагментов. Опробывались различные типы звуковых баз, включая диалог между тремя людьми и сложные ситуации с многочисленными источниками звука. Результаты показали, что Beamforming-LLM не только выделяет пропущенные фрагменты, но и предоставляет понятные и контекстуально подходящие разъяснения, что улучшает понимание пользователем.
## Значимость
Было проанализировано множество областей применения Beamforming-LLM. Это может быть полезно для помощи людям с нарушениями слуха или в целях облегчения труда в нормальных диалогах. Также есть возможность применять ее в корпоративных средах для помощи в суммировании митингов, а также в сфере мобильных приложений, где пользователи могут использовать систему для получения ответа на с
Annotation:
We present Beamforming-LLM, a system that enables users to semantically
recall conversations they may have missed in multi-speaker environments. The
system combines spatial audio capture using a microphone array with
retrieval-augmented generation (RAG) to support natural language queries such
as, "What did I miss when I was following the conversation on dogs?"
Directional audio streams are separated using beamforming, transcribed with
Whisper, and embedded into a vector database using sentence ...