Understanding Dementia Speech Alignment with Diffusion-Based Image Generation

2508.09385v1 cs.LG, cs.AI 2025-08-15
Авторы:

Mansi, Anastasios Lepipas, Dominika Woszczyk, Yiying Guan, Soteris Demetriou

Резюме на русском

#### Контекст Текст-изображение модели способны генерировать высококачественные изображения на основе естественного языка, используя пользовательские описания. Однако мало изучалось, возможно ли такое же соответствие в случае дисторсийных языковых структур, таких как речь при деменции. Данная работа фокусируется на изучении этого аспекта, а также на разработке методов для объяснения этих соответствий. Несмотря на проблемы стабильности текст-изображение моделей, они показались полезными в области здравоохранения, особенно при помощи машинного обучения. Более того, данные о специфической речи не всегда доступны в масштабах, которые требуются для традиционных методов обучения. В подобных ситуациях текст-изображение модели становятся важной альтернативой. Мы исследуем возможность алгоритмов распознавания деменции на основе генерируемых изображений. #### Метод Мы использовали модель Stable Diffusion для генерации изображений на основе текстов, описывающих речь людей с деменцией. В качестве основной выборки использовались данные ADReSS (Alzheimer’s Disease ReTrieval System). Модель была обучена на связке текста и изображений, позволяя изучить совпадение между речевыми особенностями и генерируемыми изображениями. Для объяснения этого соответствия применялись методы экспериментального анализа, такие как saliency maps и feature attribution. Эксперименты проверяли возможность распознавания деменции на основе генерируемых образов и разбирались в вопросе того, какие части текста способствуют этой распознаваемости. #### Результаты Изучение показало возможность распознавания деменции с аккуратностью 75% на выборке ADReSS, используя только генерируемые изображения. Экспериментальный анализ показал, что определенные части языка, такие как слова, описывающие ментальные нарушения, являются ключевыми факторами для распознавания. Эксперименты также подтвердили, что модели не только могут выделить ключевую информацию о деменции, но и сохраняются в рамках логического алгоритма генерации изображений. #### Значимость Результаты этой работы могут применяться в области диагностики деменции и поддержки пациентов, используя текст-изображение модели. Они демонстрируют возможность использования нейронных сетей для распознавания патологической речи без требования больших объемов руководства. Это может стать важной альтернативой для традиционных методов диагностики, которые требуют больших ресурсов и времени. Будущие исследования могут расширить данные модели на другие синдромы деменции и исследовать возможность их использования для других типов патологической речи. #### Вывод

Abstract

Text-to-image models generate highly realistic images based on natural language descriptions and millions of users use them to create and share images online. While it is expected that such models can align input text and generated image in the same latent space little has been done to understand whether this alignment is possible between pathological speech and generated images. In this work, we examine the ability of such models to align dementia-related speech information with the generated images and develop methods to explain this alignment. Surprisingly, we found that dementia detection is possible from generated images alone achieving 75% accuracy on the ADReSS dataset. We then leverage explainability methods to show which parts of the language contribute to the detection.

Ссылки и действия