📊 Статистика дайджестов
Всего дайджестов: 35039 Добавлено сегодня: 432
Последнее обновление: сегодня
📄 Conversational DNA: A New Visual Language for Understanding Dialogue Structure in Human and AI
2025-08-13Авторы:
Baihan Lin
## Контекст
Понимание и анализ диалогов — это ключевой аспект во многих областях, включая психологию, образовательные технологии, искусственный интеллект и даже лингвистику. Однако традиционные методы анализа диалогов часто сводятся к статистическим обзорам, которые не полностью отражают глубину и сложность человеческого общения. Это ставит под вопрос эффективность таких подходов при анализе диалогов, где важны такие аспекты, как эмоциональная напряженность, тематическая структура и интерактивная инерция.
"Conversational DNA" — это инновационный подход к визуализации диалогов, который предлагает новую систему знаков для интерпретации и понимания структуры диалога. Он предлагает трактовать диалог как живую систему, где каждая часть может быть визуализирована и проанализирована с помощью биологических метафор, таких как цветные градиенты, темные линии и лепестковые структуры. Такой подход позволяет выявлять взаимодействия и шаблоны, которые могут быть пропущены при традиционном анализе. Таким образом, "Conversational DNA" предлагает новую перспективу для понимания и визуализации диалогов, которая может помочь не только в живых общениях, но и в искусственных системах.
## Метод
"Conversational DNA" — это визуальная система, основанная на техниках данных и биологических метафор. Она предлагает визуальные модели, которые иллюстрируют структуру и динамику диалога. Цветные градиенты используются для представления эмоциональных траекторий, когда частичные оттенки цвета могут указывать на рывки или эмоциональные штормовые волны. Темные линии используются для представления темы или темных полосок, которые охватывают разные части диалога. Также используются лепестковые структуры, которые помогают отобразить логические отношения между разными топиками и темами.
Методология включает в себя несколько этапов: предварительная обработка данных, визуализация диалога с помощью метафорических моделей и экспериментальный анализ результатов. Для использования этой методики, необходимо превратить диалог в графическое представление, где каждый элемент (слово, фраза, топик) представляется в виде "структурного состава", который можно сравнивать и анализировать. Этот подход позволяет понять, как тематическая структура диалога развивается во времени и как разные элементы связаны друг с другом.
## Результаты
В экспериментах были использованы данные из терапевтических бесед, а также диалогов, происходивших между людьми и искусственным интеллектом. Визуальные
Annotation:
What if the patterns hidden within dialogue reveal more about communication
than the words themselves? We introduce Conversational DNA, a novel visual
language that treats any dialogue -- whether between humans, between human and
AI, or among groups -- as a living system with interpretable structure that can
be visualized, compared, and understood. Unlike traditional conversation
analysis that reduces rich interaction to statistical summaries, our approach
reveals the temporal architecture of di...
Авторы:
Hongzhu Jiang, Sihan Xie, Zhiyu Wan
## Контекст
Распространение медицинских изображений в формате DICOM (Digital Imaging and Communications in Medicine) широко применяется в клинической практике и исследовательских задачах. Однако, для обеспечения конфиденциальности и соответствия законодательству, необходимо удалить из этих изображений личной идентификационной информации (PII). Это критически важно для защиты прав пациентов и соблюдения международных стандартов, таких как Health Insurance Portability and Accountability Act (HIPAA) и DICOM PS3.15. Кроме того, возникает потребность в сохранении ценности данных для дополнительного использования в области обучения машинному обучению, диагностики и терапии. Таким образом, алгоритмы de-identification DICOM-изображений являются ключевым инструментом для решения этой проблемы.
## Метод
Алгоритм de-identification DICOM-изображений, разработанный для участия в Medical Image De-Identification Benchmark (MIDI-B) Challenge, основывается на нескольких ключевых методах. Эти методы включают:
1. **Pixel Masking**: Удаление частей изображений, содержащих идентификаторы пациентов или другую конфиденциальную информацию.
2. **Date Shifting**: Изменение дат в метаданных изображений, чтобы предотвратить идентификацию пациентов по временной шкале.
3. **Date Hashing**: Хеширование дат для дополнительного защищения данных.
4. **Text Recognition**: Идентификация текстовых элементов внутри изображений с помощью оптического распознавания символов (OCR).
5. **Text Replacement**: Замена идентификаторов и другой конфиденциальной информации на заполнители или случайные строки.
6. **Text Removal**: Удаление всех текстовых элементов из изображений.
Эти методы были реализованы с использованием современных библиотек и инструментов, обеспечивая высокую точность и выполнение всех требований MIDI-B Challenge.
## Результаты
Наш алгоритм был протестирован на большом наборе данных, содержащем клинические DICOM-изображения. Результаты показали высокую эффективность решения:
- **Точность выполнения действий**: 99.92%.
- **Рейтинг в MIDI-B Challenge**: 2-е место из 10 команд, зарегистрировавшихся в турнире (из общего числа 22 команд).
- **Статистический анализ**: Алгоритм оптимально решал задачи удаления PII, сохраняя основную структуру изображений и их клиническую ценность.
## Значимость
Решение имеет широкие применения в медицине и науке:
- **Конфиденциальность пациентов**: Обеспечение защиты конфиденциальных данных в соответствии с законами и регламентами.
- **Улучшение научных исследований**: Данные, гарантированно свободные от идентификаторов, могут быть безопасно использованы для обучения моделей машинного обучения.
- **Высокая школа трансформации**: Алгоритм демонстрирует высокую эффективность в
Annotation:
Image de-identification is essential for the public sharing of medical
images, particularly in the widely used Digital Imaging and Communications in
Medicine (DICOM) format as required by various regulations and standards,
including Health Insurance Portability and Accountability Act (HIPAA) privacy
rules, the DICOM PS3.15 standard, and best practices recommended by the Cancer
Imaging Archive (TCIA). The Medical Image De-Identification Benchmark (MIDI-B)
Challenge at the 27th International Confe...
Авторы:
Stephan Rabanser
#### Контекст
Современные машинные обучающие системы (ML) применяются во все более чувствительных областях, где надежность и достоверность являются ключевыми факторами успеха. Однако многие ML-системы страдают от недостатка надежности в условиях неопределенности, что может привести к ошибкам серьезных последствий. В этом контексте возникает задача повышения надежности ML-систем, особенно в ситуациях, когда модель не уверена в своих прогнозах. Эта проблема требует развития методов, позволяющих моделям не только делать прогнозы, но и решать, когда лучше отказаться от них, чтобы избежать потенциальных ошибок. Такие подходы способствуют укреплению доверия пользователей к ML-системам и их безопасному применению в критически важных областях.
#### Метод
Методология основывается на использовании **неопределенности** в процессе обучения модели как важных индикаторов состоятельности ее прогнозов. Техника **ensembling отдельных чекпоинтов**, обученных моделью в процессе обучения, позволяет построить метод **post-hoc abstention**, который не требует изменения архитектуры или функции потерь модели. Этот подход оказывается легким и эффективным, достигая новых результатов в области **selective prediction**. Более того, метод тщательно интегрируется с **differential privacy (DP)**, чтобы изучить влияние шума, вводимого для обеспечения конфиденциальности, на качество неопределенности. Это открытое исследование позволяет лучше понять тонкий баланс между неопределенностью и защитой конфиденциальности.
#### Результаты
Результаты исследований показали, что подход, основанный на **trajectory-based uncertainty**, не только показал высокую эффективность в **selective prediction**, но и доказал свою робастность при применении к задачам с защитой конфиденциальности. Другие методы, в том числе те, которые используют **ensemble других моделей**, могут страдать под воздействием шума DP, в то время как траектория-ориентированный подход остается надежным. Также была представлена финальная модель, которая не только способна отказаться от неуверенных прогнозов, но и делает это с поддержкой принципов повышения конфиденциальности. Эти результаты установили новый стандарт в области **trustworthy ML**.
#### Значимость
Полученные методы могут быть применены в различных областях, где надежность ML-систем является критически важной, таких как здравоохранение, финансы и безопасность. Известно, что **uncertainty estimation** позволяет моделям сделать более уверенные решения, уменьшая риск ошибок. Этот подход также открывает возможности для **сочетания надежности и конфиденциальности**, что может стать решением многих проблем в сфере прикладного использования моделей. Благодаря этой работе, модели становятся боле
Annotation:
Machine learning (ML) systems are increasingly deployed in high-stakes
domains where reliability is paramount. This thesis investigates how
uncertainty estimation can enhance the safety and trustworthiness of ML,
focusing on selective prediction -- where models abstain when confidence is
low.
We first show that a model's training trajectory contains rich uncertainty
signals that can be exploited without altering its architecture or loss. By
ensembling predictions from intermediate checkpoints,...
📄 A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions
2025-08-13Авторы:
Yiheng Jiang, Tian Biao
## Контекст
Полнодуплексная разговорная интерактивная система представляет собой важное технологическое решение, позволяющее одновременно отправлять и получать голосовые сообщения. Однако в этих системах возникает проблема звукового эхоа, которая значительно влияет на качество сигнала и удобство использования. Эхо может возникать из-за различных факторов, включая ненадежные аппаратные решения и нетривиальные звуковые окружения. Эффективное решение этой проблемы требует эффективного решения вопросов с акустическим эхом и задержкой в работе системы. Недостаточная качественная обработка звука приводит к недостаточной активности в системе Voice Activity Detection (VAD) и снижению качества распознавания речи при использовании Automatic Speech Recognition (ASR). Обеспечение качественной обработки звука является ключевым для повышения удобства и эффективности пользователей в полнодуплексных системах.
## Метод
Для решения указанных проблем мы предлагаем алгоритм, основанный на нейронных сетях, с целью улучшить качество акустического эхоа. Мы внедрили различные методы регуляризации и увеличения генеративной мощности модели. Это позволяет увеличить устойчивость модели в различных звуковых условиях и с постоянно меняющимися условиями окружения. Мы также ввели развитие модели прогрессивно, чтобы улучшать качество акустического эхоа в ходе обучения. Для повышения качества сигнала, мы представили пост-процессинг стратегии, которая использует параметры, настроенные специально для возможности Voice Activity Detection (VAD) и Automatic Speech Recognition (ASR). Эти параметры позволяют включить адаптивность для этих задач и улучшить их результаты. Наконец, мы разработали модель с небольшим размером, которая поддерживает стриминговую обработку, что позволяет ее использовать в мобильных устройствах без заметных задержек.
## Результаты
Мы проверили эффективность нашего подхода в нескольких экспериментах. Мы проверили качество акустического эхоа, используя такие показатели, как Echo Return Loss Enhancement (ERLE) и Perceptual Evaluation of Speech Quality (PESQ). Результаты показали, что наша модель превосходит существующие алгоритмы в этих показателях. Мы также проверили качество работы VAD и ASR, используя наши пост-процессинговые стратегии, и обнаружили, что они улучшают качество распознавания речи и активности голоса в системе. Эти результаты подтверждают, что наш подход повышает качество работы полнодуплексных систем, особенно в мобильных устройствах.
## Значимость
Наша модель имеет широкие области применения в системах полнодуплексной разговорной интерактивности, включая мобильные приложения, устройства с голосовым помощником и телекоммуникационные системы. Основные преимущества на
Annotation:
In full-duplex speech interaction systems, effective Acoustic Echo
Cancellation (AEC) is crucial for recovering echo-contaminated speech. This
paper presents a neural network-based AEC solution to address challenges in
mobile scenarios with varying hardware, nonlinear distortions and long latency.
We first incorporate diverse data augmentation strategies to enhance the
model's robustness across various environments. Moreover, progressive learning
is employed to incrementally improve AEC effectiv...
Авторы:
Amulya Suravarjhula, Rashi Chandrashekhar Agrawal, Sakshi Jayesh Patel, Rahul Gupta
## Контекст
Творение Statement of Work (SOW) является ключевым элементом проектов бизнеса и правовых дел. Он устанавливает границы, описывает доставленные результаты, конкретные сроки, обязанности участников и юридические условия. Однако создание данного документа требует большого времени, требует участия многих лиц, может занимать несколько дней и сопряжено с риском ошибок или несоответствия нынешним требованиям. Эта проблема становится особенно релевантной при работе в строгановой среде. Данное исследование предлагает систему автоматизации, основанную на искусственном интеллекте, которая ускоряет, упрощает и повышает точность процесса создания SOW.
## Метод
Разработанная система основывается на структуре тройного агентного метода. Первый агент создает начальный вариант SOW, аккордируясь с заданными данными и требованиями проекта. Второй агент осуществляет проверку соответствия юридическим и формальным требованиям. Третий агент занимается форматированием и корректировкой. Данная система отличается от стандартных онлайн-инструментов, которые лишь вставляют данные в шаблоны. Вместо этого, система понимает смысловую нагрузку документа и применяет специальные решения для оптимизации содержания и форматирования.
## Результаты
Исследования были проведены на реальных данных, включающих несколько бизнес-сценариев. Для создания SOW требовалось всего три минуты, что значительно сокращает время в сравнении с традиционными методами (несколько часов или дней). Также проверена точность результатов, и они были соответствующими стандартам, что подтверждает качество и надежность системы.
## Значимость
Эта система может применяться в различных сферах, где требуется надёжный и быстрый документооборот, включая юридические и бизнес-проекты. Основные преимущества: высокая скорость, сокращение риска ошибок, соответствие нормам и улучшенная удобность для пользователей. В будущем, это может привести к увеличению эффективности процессов, снижению затрат и повышению уровня доверия к автоматизированным системам в сфере юриспруденции.
## Выводы
Результаты демонстрируют возможность использования искусственного интеллекта для ускорения и улучшения процесса создания SOW. Будущие исследования будут направлены на усовершенствование системы, включая увеличение гибкости и уменьшение ресурсозатрат на поддержку. Эта работа показывает направление развития ИИ в юридических и бизнес-процессах, способствуя их упрощению и автоматизации.
Annotation:
Drafting a Statement of Work (SOW) is a vital part of business and legal
projects. It outlines key details like deliverables, timelines,
responsibilities, and legal terms. However, creating these documents is often a
slow and complex process. It usually involves multiple people, takes several
days, and leaves room for errors or outdated content. This paper introduces a
new AI-driven automation system that makes the entire SOW drafting process
faster, easier, and more accurate. Instead of relying...
Авторы:
Xingwu Chen, Miao Lu, Beining Wu, Difan Zou
#### Контекст
Одной из ключевых областей исследований в рамках трансформеров является интерпретация и понимание их работы во время выполнения. Эффективность трансформеров в задачах естественного языка определяется не только их инференционным поverьем, но и возможностью эффективно использовать вычислительные ресурсы во время выполнения. Одним из областей интереса является влияние случайности и сэмплирования на результаты инеренции трансформеров. Однако существует ограниченное количество теоретических работ, которые были бы в состоянии объяснить эти эффекты на основе анализа трансформеров. Это исследование является первым шагом в этом направлении, нацеленном на укрепление теоретического подхода к пониманию интерпретации трансформеров.
#### Метод
Методология исследования основывается на введении случайности и сэмплирования в процессе вычислений трансформера. Главной идеей является создание фреймворка, который моделирует трансформерские вычисления с использованием шума и сэмплирования бинарных коэффициентов. В этой модели используется модель **in-context linear regression**, где входные данные имеют континуууальные или бинарные коэффициенты. Бинарные коэффициенты генерируются с помощью сэмплирования, а шум вводится в вычисления для моделирования случайности во время выполнения. Этот подход позволяет анализировать и проверять различные методы интерпретации трансформеров, включая те, которые применяются в реальных ситуациях.
#### Результаты
Исследование включает множество эмпирических экспериментов, использующих различные модели трансформеров и наборы данных. Использованы техники, такие как шумный инференс и сэмплирование бинарных коэффициентов, для моделирования различных сценариев вычислений. Результаты показывают, что использование случайности и сэмплирования может эффективно улучшить результаты, особенно в случаях, когда трансформер должен сделать несколько выборов или генерировать несколько вариантов ответа. Также были выявлены новые закономерности в поведении трансформеров, которые могут помочь в понимании их работы в реальных условиях.
#### Значимость
Результаты этого исследования имеют значительную значимость для нескольких дисциплин. В первую очередь, они позволяют понять, как работают трансформеры во время выполнения, и какие факторы влияют на их эффективность. Это может привести к разработке более эффективных алгоритмов и интерпретаций, которые могут быть применены в системах распознавания речи, перевода и других областях, где
Annotation:
Using more test-time computation during language model inference, such as
generating more intermediate thoughts or sampling multiple candidate answers,
has proven effective in significantly improving model performance. This paper
takes an initial step toward bridging the gap between practical language model
inference and theoretical transformer analysis by incorporating randomness and
sampling. We focus on in-context linear regression with continuous/binary
coefficients, where our framework simu...
Авторы:
Shiqing Fan, Xichen Ding, Liang Zhang, Linjian Mo
#### Контекст
Модели языка с повышенными возможностями (LLMs) становятся все более мощными благодаря возможности интегрировать различные данные и результаты API в контекстную окружающую среду с помощью функциональных вызовов. Обычно используются инструменты, такие как поисковые системы, веб-работники, карты, финансовые системы, файловые системы и браузеры. Однако интеграция этих инструментов требует стандартизации, которая предоставляется Model Context Protocol (MCP). Хотя MCP эффективно обеспечивает контекст, оценка производительности LLMs и AI Agent в области использования MCP-инструментов сталкивается с определенными проблемами. В частности, существуют недостатки в полных данных и бенчмарках для оценки различных MCP-инструментов. Дополнительно, разнообразие форматов ответов от инструментов MCP усложняет процесс оценки. Бенчмарки с высокой успешностью в задачах, таких как программирование и математические задачи, не могут гарантировать такую же успешность на практике, так как результаты зависят от того, на каких MCP-серверах используются инструменты. Кроме того, ограничения контекстного окна LLMs приводят к невозможности вызова многих инструментов в одном запросе, поскольку их описания могут быть достаточно длинными. Чтобы сделать оценку LLMs более объективной и согласованной, мы предлагаем MCPToolBench++ — большой тестовый набор для оценки возможностей LLMs в использовании MCP-инструментов.
#### Метод
MCPToolBench++ построен на основе маркетплейса более чем 4000 MCP-серверов из 40 категорий, собранных из открытых MCP-рынков и GitHub-сообществ. Бенчмарк включает инструменты, работающие как в одношаговом так и в многошаговом режиме, охватывая различные области, такие как финансы, логистика и интернет-ресурсы. Данные были собраны и проверены вручную, чтобы гарантировать качество и разнообразие. Мы добавили функционал для формирования запросов и синтеза ответов в соответствии с спецификацией MCP. Результаты экспериментов были получены запуском SOTA LLMs с агентскими возможностями, обеспечив достаточную гибкость в анализе производительности.
#### Результаты
Мы провели эксперименты с несколькими SOTA LLMs, оценивая их возможности работы с MCP-инструментами. Наши результаты показали, что некоторые модели показывают высокую точность и эффективность в одношаговых задачах, но сталкиваются с трудностями при работе с многошаговыми задачами, где требуется координация нескольких инструментов. Особенно заметны проблемы с ответов моделей, когда данные от MCP-инструментов имеют разный формат или содержат ошибки. Бенчмарк позволил нам выявить слабые места в LLMs, та
Annotation:
LLMs' capabilities are enhanced by using function calls to integrate various
data sources or API results into the context window. Typical tools include
search, web crawlers, maps, financial data, file systems, and browser usage,
etc. Integrating these data sources or functions requires a standardized
method. The Model Context Protocol (MCP) provides a standardized way to supply
context to LLMs. However, the evaluation of LLMs and AI Agents' MCP tool use
abilities suffer from several issues. Firs...
Авторы:
Wenjing Zhang, Ye Hu, Tao Luo, Zhilong Zhang, Mingzhe Chen
## Контекст
В последние годы семантическая связь привлекла внимание в области коммуникаций, так как она способствует лучшему пониманию и обработке информации. Однако существуют значительные проблемы, связанные с защитой личных данных и конфиденциальностью семантической информации. Для решения этих проблем в статье предлагается исследовать новую модель семантической связи, в которой сервер передает семантическую информацию (значение изображения) пользователю, в то же время защищая ее от попыток проникновения злоумышленников. Злоумышленник стремится вывести оригинальное изображение из передаваемой семантической информации. Чтобы защитить данные от проникновения, в качестве защиты используется дружественный шумодав, который генерирует шум для запутать злоумышленника. Тем не менее, сервер не может координироваться с шумодавом, что затрудняет оптимизацию процесса передачи. Это требует разработки новых методов, которые могут эффективно оптимизировать систему в условиях ограниченных ресурсов и без двусторонней связи.
## Метод
В статье предлагается методология, основанная на модели удержания дохода (prioritized sampling). Метод сочетает в себе две независимые сети Q, что позволяет избежать локального оптимума и повысить точность оценки Q-значений. Для решения задачи оптимизации системы семантической связи предлагается использовать алгоритм twin delayed deep deterministic policy gradient (TD3). Алгоритм учитывает ограничения на передачу и связь между сервером и шумодавом, оптимизируя семантическую информацию и мощность передачи в каждый отдельный момент времени. Это позволяет уменьшить риск детектирования злоумышленником и повысить качество передачи.
## Результаты
В ходе экспериментов были проанализированы различные сценарии с использованием разных уровней шума и ограничений на передачу. Было проверено, что алгоритм TD3 позволяет значительно повысить степень защиты семантической информации, снизив риск ее детектирования до 32,2% по сравнению с стандартными методами. Кроме того, улучшенный алгоритм повысил качество передачи семантической информации до 14,3% по сравнению с другими методами оптимизации. Эти результаты показывают, что предложенный подход эффективнее в защите конфиденциальности данных и повышении качества передачи семантической информации.
## Значимость
Предлагаемый подход может быть применен в различных сферах, где требуется защита конфиденциальной информации, таких как банковские системы, медицина, интернет вещей. Наибольшее преимущество от использования этого метода могут получить системы с высокими требования
Annotation:
In this paper, a novel covert semantic communication framework is
investigated. Within this framework, a server extracts and transmits the
semantic information, i.e., the meaning of image data, to a user over several
time slots. An attacker seeks to detect and eavesdrop the semantic transmission
to acquire details of the original image. To avoid data meaning being
eavesdropped by an attacker, a friendly jammer is deployed to transmit jamming
signals to interfere the attacker so as to hide the tr...
📄 IBPS: Indian Bail Prediction System
2025-08-13Авторы:
Puspesh Kumar Srivastava, Uddeshya Raj, Praveen Patel, /Shubham Kumar Nigam, Noel Shallum, Arnab Bhattacharya
#### Контекст
Обработка балов в индийских судах является одной из наиболее частых процедур, однако она сталкивается с тематиками субъективности, задержек и несогласованности. Более 75% населения индийских тюрем составляют несостоявшие процесс лиц, которые часто принадлежат к социоэкономическим уровням низкого уровня. Недоступность быстрых и справедливых решений о балах приводит к губительным последствиям для прав человека и усугубляет жалобы в вопросах справедливости юридического регулирования. Для решения этой проблемы мы предлагаем **Indian Bail Prediction System (IBPS)** — AI-powered фреймворк, предназначенный для помощи в принятии решений о балах, предсказания результатов и создания обоснованных юридических аргументов на основе фактических данных и нормативных актов.
#### Метод
Мы создали большую выборку данных, состоящую из 150,430 судебных актов о балах, полученных из высоких индийских судов. Данные были обработаны и дополнены структурированными аннотациями, включая возраст, здоровье, уголовную историю, категорию преступления, продолжительность задержания, регулирующие акты и юридический анализ. Мы использовали параметр-эффективные методы для тонкой настройки большого языкового модели и оценили его результаты в различных конфигурациях, включая с разным доступом к юридической информации и модели RAG (Retrieval-Augmented Generation).
#### Результаты
Наши эксперименты показали, что модели, настроенные с использованием юридического контекста, значительно выше производительность, чем базовые модели, и показывают высокую точность и качество рассуждений. Мы проверили их на независимой выборке данных, проанализированной специалистами по правоотношениям. Такие результаты демонстрируют значительную эффективность IBPS в оптимизации процесса принятия решений о балах, уменьшения задержек и повышения справедливости в индийской судебной системе.
#### Значимость
IBPS предлагает новый подход к улучшению системы судебных разбирательств в Индии. Он может применяться в различных сферах, включая помощь юристам, судьям и правозащитным организациям. Основные преимущества — транспарентность, масштабируемость и возможность повторения. Исследование системы может повлиять на улучшение системы правосудия, снижение задержек и формирование процедурной справедливости в юридических процессах.
#### Выводы
Результаты нашего исследования подтверждают эффективность IBPS в поддержке данных для принятия решений о балах. Будущие исследования будут сфокусированы на углублении анализа юридического контекста, у
Annotation:
Bail decisions are among the most frequently adjudicated matters in Indian
courts, yet they remain plagued by subjectivity, delays, and inconsistencies.
With over 75% of India's prison population comprising undertrial prisoners,
many from socioeconomically disadvantaged backgrounds, the lack of timely and
fair bail adjudication exacerbates human rights concerns and contributes to
systemic judicial backlog. In this paper, we present the Indian Bail Prediction
System (IBPS), an AI-powered framewor...
Авторы:
Yuang Zhang, Junqi Cheng, Haoyu Zhao, Jiaxi Gu, Fangyuan Zou, Zenghui Lu, Peng Shu
#### Контекст
Область исследования связана с генерацией видео, в которых диалоги осуществляются с использованием перспективы вида "сзади плеча" (over-the-shoulder). Эти видео широко используются в кино, кратких драматических релизах и рекламе, так как они создают вариативность визуального оформления и усиливают эмоциональную заинтересованность зрителя. Однако, несмотря на их важность, данный тип диалоговых видео значительно мало исследован в рамках автоматической генерации видео. Основные проблемы заключаются в сохранении консистентности характеров в разных сценах, обеспечении продолжительности диалога, а также в создании визуальной и спациальной гармонии. Наша мотивация заключается в развитии методики, которая устранит эти проблемы и позволит генерировать диалоговые видео более длинных и естественных.
#### Метод
Мы предлагаем ShoulderShot, рамочный подход, который использует двойную генерацию видео и техники циклического воспроизведения. Основной идеей является повторное использование видео-клипа для создания лонгвиты диалога, сохраняя в то же время высокую производительность и качество. Метод состоит из двух основных этапов: генерация клипа с обратного взгляда (shot-reverse-shot) и циклической обработки для поддержания продолжительности. Мы также внедрили систему контроля консистентности характеров, чтобы обеспечить постоянность характеров в разных сценах. Это разработанное решение объединяет технологии моделирования видео, обучения с подкреплением (reinforcement learning) и мультимодальных генераций.
#### Результаты
Для проверки нашего подхода, мы провели эксперименты на различных наборах данных, включающих различные сцены диалогов и характеров. Мы сравнивали ShoulderShot с существующими методами, оценивая его показатели в трех ключевых областях: логичность локаций, продолжительность диалога и качество визуализации. Наши результаты показали, что ShoulderShot превосходит существующие подходы в техническом плане, обеспечивая более высокую степень продолжительности видео, гармоничность визуальных элементов и лучшее качество в выводе. Мы также продемонстрировали гибкость в генерации диалогов различных длин, что делает ShoulderShot более универсальным для практического применения.
#### Значимость
Наша разработка имеет широкие применения в кино, рекламе и коммуникативных технологиях. Она может быть применена для создания видео-контента, где важно сохранить продолжительность и качество диалогов. Одним из основных преимуществ ShoulderShot является его универсальность и гибкость в генерации видео диалогов, а такж
Annotation:
Over-the-shoulder dialogue videos are essential in films, short dramas, and
advertisements, providing visual variety and enhancing viewers' emotional
connection. Despite their importance, such dialogue scenes remain largely
underexplored in video generation research. The main challenges include
maintaining character consistency across different shots, creating a sense of
spatial continuity, and generating long, multi-turn dialogues within limited
computational budgets. Here, we present ShoulderS...
Показано 14051 -
14060
из 14827 записей