📚 Саммари научных статей из arXiv

Найдено 2082 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 DentalBench: Benchmarking and Advancing LLMs Capability for Bilingual Dentistry Understanding

2025-08-30

Авторы:

Hengchuan Zhu, Yihuan Xu, Yichen Li, Zijie Meng, Zuozhu Liu

## Контекст Современные развития в области больших языковых моделей (LLMs) и медицинских языковых моделей (Med-LLMs) продемонстрировали выдающиеся результаты на общих медицинских задачах. Однако особенности специализированных медицинских областей, таких как стоматология, которые требуют глубокого доменного знания, до сих пор остаются недостаточно исследованы. Это связано с отсутствием комплексных ресурсов для оценки моделей в конкретных медицинских сферах. В данной работе представлен **DentalBench**, первый комплексный билингвистический бенчмарк, предназначенный для оценки и развития LLMs в стоматологии. Он включает два основных компонента: **DentalQA** — билингвистический бенчмарк вопросов-ответов (QA) на английском и китайском языках с 36 597 вопросами, разделенными на 16 подподсистем стоматологии и 4 типа задач, и **DentalCorpus** — большая, качественная коллекция текстов с 337,35 миллионами токенов, предназначенная для доменной адаптации моделей. Эта коллекция подходит как для супервизированного тренировки (SFT), так и для реализации парадигмы восстановления-извлечения (RAG). ## Метод **DentalBench** разработан с целью комплексной оценки LLMs на билингвистических задачах в стоматологии. Архитектура бенчмарка основывается на следующих компонентах: 1. **DentalQA**: - **Задачи**: Классификация, генерация ответов, оценка причинных связей и референции. - **Структура**: 16 подподситем стоматологии, охватывающих основные аспекты стоматологической практики. - **Точность**: Задачи оцениваются с помощью метрик F1, BLEU, ROUGE. 2. **DentalCorpus**: - **Источники**: Собраны 337,35 миллионов токенов из различных источников, включая медицинские статьи, клинические протоколы и справочные материалы. - **Доменная Адаптация**: Модели могут использовать этот ресурс для преодоления проблем с терминологией и глубоким пониманием домена. ## Результаты Были проведены эксперименты с 14 LLMs, включая Qwen-2.5-3B, RoBERTa, и Medical-BERT. Основные выводы: - Очевидные проблемы с производительностью LLMs в задачах, требующих глубокого понимания стоматологической терминологии. - Билингвистические модели, такие как Qwen-2.5-3B, показали более высокую точность при обучении с доменной адаптацией, особенно на задачах, требующих глубокой терминологической квалификации. - Доменная адаптация (SFT) дает значительные постижения, особенно на задачах, требующих понимания детализированной медицинской информации. ## Значимость **DentalBench** открывает новые возможности для раз

Annotation:

Recent advances in large language models (LLMs) and medical LLMs (Med-LLMs) have demonstrated strong performance on general medical benchmarks. However, their capabilities in specialized medical fields, such as dentistry which require deeper domain-specific knowledge, remain underexplored due to the lack of targeted evaluation resources. In this paper, we introduce DentalBench, the first comprehensive bilingual benchmark designed to evaluate and advance LLMs in the dental domain. DentalBench con...

ID: 2508.20416v1 cs.CL, cs.AI

arXiv PDF

📄 Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark

2025-08-30

Авторы:

Chihiro Taguchi, Seng Mai, Keita Kurabe, Yusuke Sakai, Georgina Agyei, Soudabeh Eslami, David Chiang

## Контекст Оценка качества многоязычных систем перевода (MT) является ключевым аспектом развития интеллектуальных систем. Несмотря на развитие технологий, существуют группы языков, которые находятся в ущербном положении в контексте многоязычных бенчмарков. Одна из таких платформ — FLORES+, предлагающая данные для перевода с английского на 200+ языков. Однако, существуют указатели на то, что FLORES+ может не полностью соответствовать своей цели обеспечить реалистичное и сбалансированное тестирование. Это возражает проблемам с реалиистичностью информации, направленностью на конкретные сегменты реальности и возможностью использования простой стратегии, такой как копирование сущностей, для получения высоких результатов. Эти мотивации делают актуальным изучение существующих проблем в FLORES+ и разработку более включающих бенчмарков. ## Метод Для изучения FLORES+, авторы включили данные для 4 языков: Asante Twi, Japanese, Jinghpaw и South Azerbaijani. Были проведены ряд экспериментов, включающих использование специализированных данных, которые были подготовлены с учетом локальных и культурных особенностей. Оценки качества были проведены вручную, используя принципы, которые учитывали объективность и локальную контексту. Также были проведены эксперименты с многоязычными моделями MT и оценены их результаты на FLORES+ и на данных, отражающих реальные сценарии использования. ## Результаты На основе экспериментов было обнаружено, что FLORES+ имеет существующие ограничения, в том числе высокая доля групп языков, которые не получили должного внимания в бенчмарке. Оценки качества вручную показали, что многие переводы не достигают требуемого уровня качества (90%). Даже простые стратегии, такие как копирование сущностей, дают достаточно высокие показатели BLEU, что указывает на возможность их уязвимости. Были выявлены проблемы с доменом и культурной спецификой исходных текстов, что может приводить к несправедливым оценкам качества. Бенчмарк FLORES+ не отражает реалистичные трансляционные проблемы, такие как незначительность контекста культурных специфик. ## Значимость Результаты имеют значимую значимость для развития многоязычных моделей MT. Они выделяют необходимость в разработке бенчмарков, которые были бы более фундаментальными, охватывали более широкий спектр языков, включая те, которые теперь остаются в стороне. Включение более естественных и доменно-обобщенных данных может положительно сказаться на качество моделей. Эти изменения могут повлиять на развитие технологий перевода, улучшение языковых моде

Annotation:

Multilingual machine translation (MT) benchmarks play a central role in evaluating the capabilities of modern MT systems. Among them, the FLORES+ benchmark is widely used, offering English-to-many translation data for over 200 languages, curated with strict quality control protocols. However, we study data in four languages (Asante Twi, Japanese, Jinghpaw, and South Azerbaijani) and uncover critical shortcomings in the benchmark's suitability for truly multilingual evaluation. Human assessments ...

ID: 2508.20511v1 cs.CL, cs.AI

arXiv PDF

📄 Overview of BioASQ 2024: The twelfth BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering

2025-08-30

Авторы:

Anastasios Nentidis, Georgios Katsimpras, Anastasia Krithara, Salvador Lima-López, Eulàlia Farré-Maduell, Martin Krallinger, Natalia Loukachevitch, Vera Davydova, Elena Tutubalina, Georgios Paliouras

#### Контекст BioASQ 2024 — это двенадцатый этап международного соревнования по биоинформатике, которое организуется в рамках конференции и лабораторий оценки (Conference and Labs of the Evaluation Forum, CLEF) 2024. Задача состоит в развитии методов широкомасштабного биомедицинского семантического индексирования и ответов на вопросы. Этот проект способствует развитию методов оценки систем получения информации в медицине и биологии, а также содействует повышению качества информационных систем в этих областях. Основные проблемы, которые решаются в рамках BioASQ, заключаются в улучшении точности и скорости обработки биомедицинских текстов, а также в развитии методов выделения и индексирования семантических сущностей в больших биоинформатических коллекциях. #### Метод В соревновании приняли участие 37 команд, подавших более 700 заявок на четыре разных задачи. Задачи включали: Task a — MultiCardioNER, которая затрагивала настройку систем на детектирование клинических сущностей в контексте кардиологии на многоязычных данных; Task b и Task Synergy — уже имеющиеся задачи, связанные с поиском и индексированием биоинформатических данных; Task BIONNE — задача распознавания названий сущностей в русском и английском языках с учетом вложенных структур. Участникам предоставлялись большие объемы данных, включая биомедицинские статьи, которые необходимо было обработать с использованием различных методов, включая машинное обучение, естественное обучение, сопоставление и описательные методы. #### Результаты В результате соревнования были получены высокоточные результаты, подтверждающие прогресс в области биоинформатики. Задача MultiCardioNER демонстрировала высокую точность в распознавании сущностей, в то время как задача BIONNE продемонстрировала прогресс в распознавании вложенных сущностей в русском и английском языках. Задачи Task b и Synergy также демонстрировали прогресс в области биоинформатического поиска и индексирования. В целом, команды достигли высокого уровня производительности, подтверждая развитие состояния технологий в области биоинформатики. #### Значимость Результаты этого соревнования имеют высокую значимость для развития технологий в области биоинформатики и медицины. Они могут применяться для создания более точных и быстрых систем поиска информации в биомедицинских текстах, что влечет за собой улучшение качества оказания медицинской помощи и увеличение эффективности научных исследований. Инновационные методы, разработанные в рамках этого соревнования, могут быть использованы в различных областях, включая клиническую практику, науч

Annotation:

This is an overview of the twelfth edition of the BioASQ challenge in the context of the Conference and Labs of the Evaluation Forum (CLEF) 2024. BioASQ is a series of international challenges promoting advances in large-scale biomedical semantic indexing and question answering. This year, BioASQ consisted of new editions of the two established tasks b and Synergy, and two new tasks: a) MultiCardioNER on the adaptation of clinical entity detection to the cardiology domain in a multilingual setti...

ID: 2508.20532v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Overview of BioASQ 2025: The Thirteenth BioASQ Challenge on Large-Scale Biomedical Semantic Indexing and Question Answering

2025-08-30

Авторы:

Anastasios Nentidis, Georgios Katsimpras, Anastasia Krithara, Martin Krallinger, Miguel Rodríguez-Ortega, Eduard Rodriguez-López, Natalia Loukachevitch, Andrey Sakhovskiy, Elena Tutubalina, Dimitris Dimitriadis, Grigorios Tsoumakas, George Giannakoulas, Alexandra Bekiaridou, Athanasios Samaras, Giorgio Maria Di Nunzio, Nicola Ferro, Stefano Marchesin, Marco Martinelli, Gianmaria Silvello, Georgios Paliouras

## Контекст BioASQ 2025 — это тринадцатая открытая международная конференция и лаборатории для оценки развития технологий биомедицинских семантических индексирования и вопросов-ответов (QA). Она является частью конференции CLEF 2025. Миссия BioASQ — двигать линию хода вперед в области биоинформатики и здравоохранения, предоставляя платформу для исследователей, работающих над развитием методов автоматического понимания и индексирования биоинформации. В этом году BioASQ включила шесть раздельных задач: две основные, связанные с семантическим индексированием и QA, и четыре новые, касающиеся клинической сводки, лингвистического анализа и информационного извлечения в сфере биоинформатики. ## Метод Задачи BioASQ-b и BioASQ-Synergy основываются на предыдущих выпусках и включают оценку систем, выполняющих семантическое индексирование и ответы на вопросы в биоинформатике. Новые задачи включают Task MultiClinSum — многоязычное клиническое сводление, Task BioNNE-L — лингвистический анализ вхождения сущностей в русском и английском языках, Task ELCardioCC — клиническое кодирование в кардиологии, и Task GutBrainIE — извлечение информации о взаимодействии желудочно-кишечного тракта и мозга. Это был одновременный эксперимент, включающий широкий спектр технологий, от естественных языковых моделей до конкретных алгоритмов для специализированных задач. ## Результаты Системы, участвовавшие в BioASQ 2025, показали высокую эффективность. В задаче QA биоинформатики, полученные результаты демонстрируют, что современные модели естественного языка, такие как LLMs (Large Language Models), могут достигать высокой точности при вопросах, связанных с биоинформатикой. В задаче клинического индексирования, проводившейся в рамках Task MultiClinSum, системы показали высокую точность в сравнении с конкурентами. Для новых задач, таких как Task BioNNE-L, задача лингвистического анализа вхождений сущностей, зарегистрировано несколько моделей с высокой точностью в русском языке, что подтверждает растущий интерес к решениям для языков, отличных от английского. ## Значимость BioASQ 2025 имеет значительное значение для развития биоинформатики и здравоохранения. Она демонстрирует прогресс в сфере автоматизации биоинформатических задач, включая семантическое индексирование, QA, клиническое сводление и информационное извлечение. Результаты достигнутые в этом году указывают на то, что технологии, такие как глубокое обучение и естественные языковые модели, могут быть успешно применены для решения реальных биомедицинских проблем. Инноваци

Annotation:

This is an overview of the thirteenth edition of the BioASQ challenge in the context of the Conference and Labs of the Evaluation Forum (CLEF) 2025. BioASQ is a series of international challenges promoting advances in large-scale biomedical semantic indexing and question answering. This year, BioASQ consisted of new editions of the two established tasks, b and Synergy, and four new tasks: a) Task MultiClinSum on multilingual clinical summarization. b) Task BioNNE-L on nested named entity linking...

ID: 2508.20554v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Adaptive Federated Distillation for Multi-Domain Non-IID Textual Data

2025-08-30

Авторы:

Jiahao Xiao, Jiangming Liu

## Контекст Во всемирной практике становится все более очевидным, что представление и обработка текстовых данных требуют уверенного подхода, особенно в условиях современных технологий. Одной из ключевых проблем является обработка неиндексированных данных (non-IID), которые встречаются в реальных условиях. Для решения этой проблемы был предложен подход вида "федеративное обучение", где глобальная модель предсказания (PLM) принимает задачи от локальных клиентов, но существуют значительные проблемы при работе с данными, отличающимися по языковым доменам. Это специфический аспект, который требует углубленного исследования в силу его важности в области естественного языка. Идея федеративного обучения находит применение в различных областях, включая распознавание речи, текстовый анализ и другие, но вопрос о работе с многообразием текстовых данных в глобальной системе все еще остается открытым. ## Метод Методология, примененная в работе, основывается на развитии методов федеративного обучения для многодоменных текстовых данных. Авторы предложили адаптивный подход, который способен адаптироваться к разнообразию локальных клиентов, добиваясь этого двумя основными способами: входной адаптацией и выходной моделированием. Основным элементом является обучение модели с учетом разнообразия языковых доменов. Архитектура включает в себя несколько моделей, каждая из которых обучена подходящим образом для заданного домена. Это позволяет улучшить точность распознавания и понимания текста, а также поддерживать приватность данных при обработке локальных данных. ## Результаты За основу работы была взята синтетическая база данных, содержащая тексты различных тематик, таких как медицина, технологии и финансы. Авторы провели эксперименты, сравнив предложенный подход с существующими вариантами обучения в федеративных условиях. Результаты показали, что предложенный подход более эффективен в работе с многодоменными текстами, поскольку позволяет учитывать разнообразие языковых данных в различных клиентах. Используемые метрики показали улучшение в достижении более высокой точности в сравнении с использованием стандартных методов. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как медицинская информатика, юридическая практика, техническая документация и другие, где требуется безопасная и эффективная обработка текстовых данных в многоязыковых условиях. Одним из главных преимуществ является улучшение точности работы модели в условиях разнообразия текстовых данных, что способствует увеличению качества решения за

Annotation:

The widespread success of pre-trained language models has established a new training paradigm, where a global PLM is fine-tuned using task-specific data from local clients. The local data are highly different from each other and can not capture the global distribution of the whole data in real world. To address the challenges of non-IID data in real environments, privacy-preserving federated distillation has been proposed and highly investigated. However, previous experimental non-IID scenarios ...

ID: 2508.20557v1 cs.CL, cs.AI

arXiv PDF

📄 A Graph Talks, But Who's Listening? Rethinking Evaluations for Graph-Language Models

2025-08-30

Авторы:

Soham Petkar, Hari Aakash K, Anirudh Vempati, Akshit Sinha, Ponnurangam Kumarauguru, Chirag Agarwal

## Контекст Граф-языковые модели (Graph-Language Models, GLMs) представляют собой активный направленный развития в искусственном интеллекте, которые стремятся объединить силы моделей графов (Graph Neural Networks, GNNs) и бо LARGE LANGUAGE MODELS (LLMs). Графы широко используются для представления структурного данных в различных областях, включая социальные сети, биоинформатику и финансы. Однако, существующие модели графа часто сталкиваются с трудностями при предсказании сложных зависимостей и поиске взаимосвязей в больших и сложных графах. GLMs предлагаются в качестве решения этой проблемы, объединяя размерность графов и семантическое понимание языков. Изучение этой области является очень важной из-за значительного потенциала GLMs в различных задачах, таких как рекомендательные системы, ответы на вопросы, анализ данных и даже робототехника. Однако, существуют ряд проблем, включая ограниченность существующих бенчмарков для эффективного оценивания GLMs, что может привести к недооценке их реальных возможностей. ## Метод CLEGR (Compositional Language-Graph Reasoning) — это новый бенчмарк, разработанный для точного и структурированного оценивания GLMs. Он включает в себя синтетический графовую генерацию, присоединенную к задачам, требующим сочетания разума в тексте и структуре графа. CLEGR опирается на подходы, которые эмулируют сложные задачи взаимодействия, например, логические задачи, которые требуют многоуровневого интеллектуального анализа. Модели GLMs подвергаются испытанию на производительность в задачах, которые сочетают семантическое понимание языка с структурным логическим рассуждением. Эта процедура позволяет эффективно проверить не только модели с графовыми структурами, но и системы, которые используют лишь семантические знания, без включения графовой структуры. ## Результаты На CLEGR, тестирование различных GLM-моделей показало, что многие из них могут достигать высокие результаты, используя лишь семантические данные, без использования графовой структуры. Например, тестирование на CLEGR показало, что полностью интегрированные GLM-модели (с GNN-backbone) не всегда превосходят модели на основе LLM с простыми способами, такими как soft-prompting. Эти результаты указывают на то, что существующие GLM-модели не всегда эффективно используют графовую структуру, а возможно, даже не нуждаются в ней для выполнения некоторых задач. Кроме того, GLM-модели показали существенные проблемы при выполнении задач, требующих глубокого структурного логического рассуждения. ## Значимость CLEGR представляет собой значительный шаг

Annotation:

Developments in Graph-Language Models (GLMs) aim to integrate the structural reasoning capabilities of Graph Neural Networks (GNNs) with the semantic understanding of Large Language Models (LLMs). However, we demonstrate that current evaluation benchmarks for GLMs, which are primarily repurposed node-level classification datasets, are insufficient to assess multimodal reasoning. Our analysis reveals that strong performance on these benchmarks is achievable using unimodal information alone, sugge...

ID: 2508.20583v1 cs.CL, cs.AI

arXiv PDF

📄 Generative Annotation for ASR Named Entity Correction

2025-08-30

Авторы:

Yuanchang Luo, Daimeng Wei, Shaojun Li, Hengchao Shang, Jiaxin Guo, Zongyao Li, Zhanglin Wu, Xiaoyu Chen, Zhiqiang Rao, Jinlong Yang, Hao Yang

## Контекст В последние годы автоматические системы распознавания речи (ASR) становятся все более популярными, применяясь в различных областях, включая медицину, финансы и телекоммуникации. Однако эти системы часто сталкиваются с проблемами распознавания доменноспецифических названий сущностей (named entities), таких как имена людей, названия лекарств или технические термины. Это приводит к ошибкам в транскрипции, которые могут значительно снижать качество работы систем и приводить к катастрофическим неудачам в последующих задачах обработки речи. Несмотря на то, что существуют многочисленные методы для исправления ошибок в транскрипции, они часто неэффективны, когда формы неправильно распознанных слов и истинных названий сущностей сильно различаются. Мы предлагаем новую технологию для исправления названий сущностей (NEC), которая использует фичи звуков речи для выявления и исправления ошибок в транскрипции. ## Метод Мы предлагаем новую разработку для исправления названий сущностей, которая основывается на использовании звуковых признаков речи. Наша методика состоит из двух этапов. В первом этапе мы используем алгоритм поиска, основанный на звуковых признаках, для выявления возможных ошибок в транскрипции. Это позволяет нам выявить слова, которые могут быть неправильно поняты. Во втором этапе мы применяем генерирующую модель для создания аннотаций ошибок и их замены на правильные названия сущностей. Наша модель использует глубокое обучение для анализа звуков и генерирования текста, что позволяет ей выявлять и исправлять ошибки даже тогда, когда транскрипция и название сущности сильно различаются. ## Результаты Мы провести многочисленные эксперименты с использованием открытых и самостоятельно построенных тестовых наборов данных. Наши эксперименты показывают, что наш метод позволяет значительно улучшить точность идентификации названий сущностей в сравнении с другими подходами. Мы также проверили нашу модель на различных доменах, включая медицину и технику, и получили положительные результаты на всемирном уровне. Данные, использованные в наших экспериментах, будут опубликованы в открытом доступе, чтобы позволить другим исследователям проверить нашу работу и использовать её в своих исследованиях. ## Значимость Наша разработка имеет многочисленные применения в области распознавания речи и обработки текста. Она может быть использована для улучшения качества работы ASR в различных сферах, таких как медицинская информатика, финансовый мониторинг и клиентская служба. Наш подход имеет ряд преимущест

Annotation:

End-to-end automatic speech recognition systems often fail to transcribe domain-specific named entities, causing catastrophic failures in downstream tasks. Numerous fast and lightweight named entity correction (NEC) models have been proposed in recent years. These models, mainly leveraging phonetic-level edit distance algorithms, have shown impressive performances. However, when the forms of the wrongly-transcribed words(s) and the ground-truth entity are significantly different, these methods o...

ID: 2508.20700v1 cs.CL, cs.AI

arXiv PDF

📄 Signs of Struggle: Spotting Cognitive Distortions across Language and Register

2025-08-30

Авторы:

Abhishek Kuber, Enrico Liscio, Ruixuan Zhang, Caroline Figueroa, Pradeep K. Murukannaiah

## Контекст Ментальное здоровье молодежи становится все более актуальной проблемой в современном мире. Дальнейший рост интереса к этой теме связан с тем, что молодежь часто испытывает многочисленные стрессовые ситуации, которые могут привести к развитию различных психологических расстройств. Одним из ключевых аспектов этой проблемы является идентификация ранних признаков психологического дисфункционирования. Одним из таких признаков являются когнитивные дисторсии — распространенные, но недостаточно распространенно изученные негативные модели мышления, которые могут способствовать усилению ментального дискомфорта. Такие дисторсии часто проявляются в языке и письме молодежи, что делает анализ цифровых текстов полезным инструментом для раннего выявления таких расстройств. Несмотря на то, что предыдущие исследования сфокусировались на клинической англоязычной литературе, в настоящей работе представлен первый подробный анализ кросс-языковой и кросс-регистральной общеупотребительных текстов детей, которые могут отражать их ментальное состояние. ## Метод Для исследования использовалась методология, основанная на разработке моделей языкового понимания и глубокого обучения. Архитектура модели состоит из нескольких слоёв трансформеров, которые обеспечивают эффективное извлечение контекстно-зависимых признаков из текстов. Для детектирования когнитивных дисторсий используется многозондирующая подход, которая позволяет охватить различные типы психологических расстройств, включая генерализованные и специфические для конкретных регистров. Для того, чтобы улучшить общеупотребительность модели, применялись методы доменной адаптации, которые позволяют модели приспособиться к различным стилям и языкам. Основной исходный материал — это форумные сообщения, написанные десятками десятков студентов гимназий в Нидерландах. ## Результаты Когнитивные дисторсии были распознаны с высокой точностью на тестовых данных, что демонстрирует эффективность используемых методов. В ходе экспериментов было выявлено, что модели, обученные на клинических данных, показывают значительный контекстный определенный диапазон языковых и регистральных характеристик. В то же время, методы доменной адаптации позволяли значительно улучшить точность модели при перекрестном применении на разных типах данных. Этот результат подтверждает возможность использования таких моделей для раннего выявления когнитивных дисторсий в разных языках и регистрах, что является ключевым достижением. ## Значимость Результаты этого исс

Annotation:

Rising mental health issues among youth have increased interest in automated approaches for detecting early signs of psychological distress in digital text. One key focus is the identification of cognitive distortions, irrational thought patterns that have a role in aggravating mental distress. Early detection of these distortions may enable timely, low-cost interventions. While prior work has focused on English clinical data, we present the first in-depth study of cross-lingual and cross-regist...

ID: 2508.20771v1 cs.CL, cs.AI

arXiv PDF

📄 Exploring Machine Learning and Language Models for Multimodal Depression Detection

2025-08-30

Авторы:

Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao

#### Контекст Самоощущение бытия (self-awareness), психическое здоровье и функциональность человека зависят от емких и принятого в социуме поведения. Депрессия, как одна из наиболее распространенных психических расстройств, оказывает существенное влияние на эти аспекты. Однако, определение депрессии и её степени часто требует долговременного лечения и мониторинга, что может привести к задержке диагноза и последующим последствиям. Настоящее исследование ориентируется на разработку методов многоmodal'ного выявления депрессии, используя машинное обучение и глубокие нейронные сети. Это актуально в связи со становлением информационных технологий и ИИ в работе с психическим здоровьем. #### Метод Мы используем три типа данных: звуковые фрагменты, видео, и текстовые фрагменты, для выявления сигналов депрессии. Модели XGBoost, трансформер-архитектуры и большие языковые модели (LLMs) были выбраны для сравнительного анализа. Данные записывались в лаборатории специализированных устройств, включая телефоны, компьютеры, и компактные датчики. Модели обучались на многоканальных признаках, после чего проводился сравнительный анализ на выборке данных. Для анализа требулами мы применяли метрики F1-score и accuracy. #### Результаты Мы проверили работу моделей на трех модах: звуке, видео, и тексте. Исследование показало, что LLMs лучше всего справляются с видеоданными, за счёт их мощи в обработке естественного языка. XGBoost показал высокую производительность с звуковыми файлами. Трансформеры среднестатистически показались в эффективности, но демонстрируют лучшую производительность в качестве модификационных моделей. В целом, результаты подтвердили, что многоmodal'ное обучение может значительно улучшить точность диагноза депрессии. #### Значимость Наша работа открывает новые возможности для оптимизации диагностики депрессии с помощью ИИ. Многоmodal'ные модели могут быть применены в психиатрии для повышения точности диагноза, минимизации задержек, и улучшения результатов лечения. Мы также выделяем возможность использования наших моделей для других психических расстройств, таких как аутизм и тестирование синдрома дефицита внимания. #### Выводы Мы успешно исследовали различные модели машинного обучения для диагностики депрессии с помощью многоmodal'ных признаков. Наши результаты показали, что LLMs и XGBoost превосходят трансформеры в определенных модах данных. Мы также подтвердили значимость многоmodal'ных моделей в развитии ИИ для психического здоровья. В будущем мы планируем расширить наши модели для включ

Annotation:

This paper presents our approach to the first Multimodal Personality-Aware Depression Detection Challenge, focusing on multimodal depression detection using machine learning and deep learning models. We explore and compare the performance of XGBoost, transformer-based architectures, and large language models (LLMs) on audio, video, and text features. Our results highlight the strengths and limitations of each type of model in capturing depression-related signals across modalities, offering insig...

ID: 2508.20805v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents

2025-08-30

Авторы:

Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan

## Контекст Проактивная диалоговая система является ключевым направлением в развитии бо LLM. Однако существующие исследования часто ограничиваются решающими задачами в конкретных сферах, что приводит к неоднородному и неполному анализу моделей. Это ограничение снижает возможность полного оценивания моделей в области проактивных диалогов. Рассматривая эти проблемы, авторы предлагают ProactiveEval — универсальную систему для оценки проактивных диалоговых моделей. Эта система разделяет проактивные диалоги на две задачи: планирования целей и поддержки диалога, чтобы обеспечить широкий экспериментальный подход к измерению моделей. ## Метод ПроактивEval предлагает архитектуру, в которой проактивный диалог разделяется на два основных элемента: планирование целей и поддержка диалога. Она предоставляет многочисленные метрики для оценки моделей в разных сферах. Для автоматической генерации вызовов данные для тестирования моделей генерируются программно, чтобы создать разнообразные и сложные сценарии. В рамках этого фреймворка, авторы создали 328 сценариев, распространяющихся по 6 различным сферам, чтобы тестировать модели на проактивность. ## Результаты На основе ProactiveEval, авторы провели эксперименты на 22 типах моделей, включая DeepSeek-R1 и Claude-3.7-Sonnet. Результаты показали, что DeepSeek-R1 превосходит в задаче планирования целей, в тогда Claude-3.7-Sonnet — в задаче поддержки диалога. Эти результаты демонстрируют, что модели DeepSeek-R1 и Claude-3.7-Sonnet показывают разные сильные стороны, но обычно модели предлагают разные способы оценки производительности в разных сценариях. ## Значимость Система ProactiveEval может применяться в различных областях для проверки проактивных диалоговых моделей. Она предоставляет широкий спектр метрик для полной оценки моделей в различных сферах, включая социальные, технические и другие. Это позволяет провести более широкие исследования, улучшить модели и продвинуть их в сфере проактивных диалогов. ## Выводы ПроактивEval представляет собой универсальный фреймворк для проверки проактивных диалоговых моделей. Он позволяет проводить сравнительные тесты на основе различных моделей, чтобы определить сильные стороны и слабые места каждой модели. Будущие исследования будут сосредоточены на улучшении проактивности моделей и развитии более сложных систем оценки.

Annotation:

Proactive dialogue has emerged as a critical and challenging research problem in advancing large language models (LLMs). Existing works predominantly focus on domain-specific or task-oriented scenarios, which leads to fragmented evaluations and limits the comprehensive exploration of models' proactive conversation abilities. In this work, we propose ProactiveEval, a unified framework designed for evaluating proactive dialogue capabilities of LLMs. This framework decomposes proactive dialogue int...

ID: 2508.20973v1 cs.CL, cs.AI, cs.HC

arXiv PDF

1
2
169
170
171
172
173
208
209

Показано 1701 - 1710 из 2082 записей