Understanding Dementia Speech Alignment with Diffusion-Based Image Generation
2508.09385v1
cs.LG, cs.AI
2025-08-15
Авторы:
Mansi, Anastasios Lepipas, Dominika Woszczyk, Yiying Guan, Soteris Demetriou
Резюме на русском
#### Контекст
Текст-изображение модели способны генерировать высококачественные изображения на основе естественного языка, используя пользовательские описания. Однако мало изучалось, возможно ли такое же соответствие в случае дисторсийных языковых структур, таких как речь при деменции. Данная работа фокусируется на изучении этого аспекта, а также на разработке методов для объяснения этих соответствий. Несмотря на проблемы стабильности текст-изображение моделей, они показались полезными в области здравоохранения, особенно при помощи машинного обучения. Более того, данные о специфической речи не всегда доступны в масштабах, которые требуются для традиционных методов обучения. В подобных ситуациях текст-изображение модели становятся важной альтернативой. Мы исследуем возможность алгоритмов распознавания деменции на основе генерируемых изображений.
#### Метод
Мы использовали модель Stable Diffusion для генерации изображений на основе текстов, описывающих речь людей с деменцией. В качестве основной выборки использовались данные ADReSS (Alzheimer’s Disease ReTrieval System). Модель была обучена на связке текста и изображений, позволяя изучить совпадение между речевыми особенностями и генерируемыми изображениями. Для объяснения этого соответствия применялись методы экспериментального анализа, такие как saliency maps и feature attribution. Эксперименты проверяли возможность распознавания деменции на основе генерируемых образов и разбирались в вопросе того, какие части текста способствуют этой распознаваемости.
#### Результаты
Изучение показало возможность распознавания деменции с аккуратностью 75% на выборке ADReSS, используя только генерируемые изображения. Экспериментальный анализ показал, что определенные части языка, такие как слова, описывающие ментальные нарушения, являются ключевыми факторами для распознавания. Эксперименты также подтвердили, что модели не только могут выделить ключевую информацию о деменции, но и сохраняются в рамках логического алгоритма генерации изображений.
#### Значимость
Результаты этой работы могут применяться в области диагностики деменции и поддержки пациентов, используя текст-изображение модели. Они демонстрируют возможность использования нейронных сетей для распознавания патологической речи без требования больших объемов руководства. Это может стать важной альтернативой для традиционных методов диагностики, которые требуют больших ресурсов и времени. Будущие исследования могут расширить данные модели на другие синдромы деменции и исследовать возможность их использования для других типов патологической речи.
#### Вывод
Abstract
Text-to-image models generate highly realistic images based on natural
language descriptions and millions of users use them to create and share images
online. While it is expected that such models can align input text and
generated image in the same latent space little has been done to understand
whether this alignment is possible between pathological speech and generated
images. In this work, we examine the ability of such models to align
dementia-related speech information with the generated images and develop
methods to explain this alignment. Surprisingly, we found that dementia
detection is possible from generated images alone achieving 75% accuracy on the
ADReSS dataset. We then leverage explainability methods to show which parts of
the language contribute to the detection.
Ссылки и действия
Дополнительные ресурсы: