📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Eman Alamoudi, Ellis Solaiman

**Резюме** В статье представлена EHSAN, первая гибридная модель для арабского аспект-базированного мнения в сфере здравоохранения. Арабский язык представляет сложности из-за богатого диалектного разнообразия и недостатка меток аспектного мнения. Разработанная модель EHSAN объединяет машинное обучение с глубоким представлением языка ChatGPT и целенаправленным корректированием человеческим рецензентом, чтобы создать полностью новый языковой ресурс в области здравоохранения. Эта модель обучена на трёх версиях данных: полностью аннотированных человеком, частично аннотированных человеком и полностью подготовленных ChatGPT. Эксперименты показали, что даже с минимальными ручными корректировками модель достигает высокой точности. Меньшее количество классов аспектов также улучшало результаты. Результаты указывают на простоту и эффективность гибридного подхода в создании семантических моделей для арабского языка в здравоохранении. Будущие работы будут направлены на улучшение модели пространством применения и наращивании транспарентности.
Annotation:
Arabic-language patient feedback remains under-analysed because dialect diversity and scarce aspect-level sentiment labels hinder automated assessment. To address this gap, we introduce EHSAN, a data-centric hybrid pipeline that merges ChatGPT pseudo-labelling with targeted human review to build the first explainable Arabic aspect-based sentiment dataset for healthcare. Each sentence is annotated with an aspect and sentiment label (positive, negative, or neutral), forming a pioneering Arabic dat...
ID: 2508.02574v1 cs.CL, cs.AI, cs.LG, cs.SI
Авторы:

Ming Pok Ng, Junqi Jiang, Gabriel Freedman, Antonio Rago, Francesca Toni

Настоящая работа предлагает MArgE, новую архитектуру для объединения выводов нескольких больших языковых моделей (LLM) при выполнении задачи проверки утверждений. Основная проблема заключается в том, что нынешние методы комбинации выводов нескольких LLMs часто основываются на неструктурированных интеракциях (например, свободных дебатах), что приводит к недостоверной и незащищаемой окончательной ответной модели. Разработанная архитектура MArgE использует ArgLLMs для построения структурированных деревьев аргументов для каждого LLM, чтобы обеспечить прозрачную и доказуемую логику вывода. Экспериментальные исследования показали, что MArgE превосходит открытые LLM модели, включая GPT-4o-mini, а также другие методы для решения этой задачи, демонстрируя преимущество формальных методов аргументированного рассуждения при объединении выводов нескольких LLM.
Annotation:
Leveraging outputs from multiple large language models (LLMs) is emerging as a method for harnessing their power across a wide range of tasks while mitigating their capacity for making errors, e.g., hallucinations. However, current approaches to combining insights from multiple LLMs often involve unstructured interactions (e.g., free debate), resulting in model generations that are not faithfully justifiable. In this work, we introduce MArgE, a novel framework to provide formal structure to the ...
ID: 2508.02584v1 cs.CL, cs.AI
Авторы:

Yilun Liu, Yunpu Ma, Yuetian Lu, Shuo Chen, Zifeng Ding, Volker Tresp

Многоэкспертные модели (MoE) используют динамический механизм маршрутизации для распределения задач между специализированными экспертами, что позволяет эффективно оптимизировать их обучение и использование. Однако существующие стратегии Parameter-Efficient Fine-Tuning (PEFT) не учитывают этот аспект, что приводит к потерям в эффективности. В статье рассматривается вопрос о том, должны ли модули подготовки включать в себя механизмы маршрутизации, чтобы лучше адаптироваться к архитектуре MoE. Описывается анализ динамики PEFT при использовании в моделях MoE и изучаются различные стратегии маршрутизации. Исследования проводились на моделях OLMoE-1B-7B и Mixtral-8x7B, адаптированных к задачам смыслового понимания и математического рассуждения. На основе экспериментов доказано, что маршрутизируемые модули позволяют достичь более высокой эффективности и точности. На основе этих результатов даны рекомендации по оптимальной конфигурации для различных сценариев и применения MoE в реальных задачах.
Annotation:
Mixture-of-Experts (MoE) benefits from a dynamic routing mechanism among their specialized experts, which existing Parameter- Efficient Fine-Tuning (PEFT) strategies fail to leverage. This motivates us to investigate whether adaptation modules themselves should incorporate routing mechanisms to align with MoE's multi-expert architecture. We analyze dynamics of core components when applying PEFT to MoE language models and examine how different routing strategies affect adaptation effectiveness. E...
ID: 2508.02587v1 cs.LG, cs.AI, cs.CL
Авторы:

Yinghao Zhu, Yifan Qi, Zixiang Wang, Lei Gu, Dehao Sui, Haoran Hu, Xichen Zhang, Ziyi He, Liantao Ma, Lequan Yu

**Резюме** В статье представлена HealthFlow — самоэволюционная AI-система с метапланированием, разработанная для решения проблем статических, предопределенных стратегий в AI-агентах, применяемых в сложных областях, таких как здравоохранение. Агенты, ориентированные на использование инструментов, способны улучшаться в работе с конкретными задачами, но не обладают возможностью адаптировать свои высокоуровневые подходы к решению задач. HealthFlow решает эту проблему, автоматически оптимизируя свои стратегии на базе процедурных успехов и неудач, формируя терминологическую базу для последующих задач. Для изучения и оценки производительности HealthFlow был разработан бенчмарк EHRFlowBench, имитирующий реальные задачи анализа клинических данных. Исследование показало, что HealthFlow превосходит современные AI-фреймворки в сфере здравоохранения, демонстрируя высокую эффективность в самоэволюции. Это работа устанавливает новый подход к AI, перейдя от создания улучшенных инструментов к разработке самоэволюционных систем, способных управлять задачами самостоятельно и эффективно.
Annotation:
The efficacy of AI agents in healthcare research is hindered by their reliance on static, predefined strategies. This creates a critical limitation: agents can become better tool-users but cannot learn to become better strategic planners, a crucial skill for complex domains like healthcare. We introduce HealthFlow, a self-evolving AI agent that overcomes this limitation through a novel meta-level evolution mechanism. HealthFlow autonomously refines its own high-level problem-solving policies by ...
ID: 2508.02621v1 cs.AI, cs.CL, cs.LG, cs.MA
Авторы:

Enrico De Santis, Antonello Rizzi

**Резюме** В статье представляется понятие **Noosemia** — новый когнитивно-феноменологический феномен, возникающий при взаимодействии человека с генерирующимися системами с поддержкой диалога и многомодальности. Авторы выявляют, что пользователи могут атрибутировать целенаправленность, агентность и даже внутренность этим системам, не следуя при этом механически к физическому описанию. Основные причины этого — речевая производительность, эпистемическая неопределенность и технологическая сложность. На основе концепции LLMs Contextual Cognitive Field авторы показывают, как системы строят значение связанной с контекстом и как возникает видимая агентность в человеко-системных взаимодействиях. Noosemia сравнивается с пареидолией, анимизмом и чудовищным лавочником, но выделяются свои особенности. Также введено понятие **a-noosemia** — отказа от таких проекций. Основные выводы посвящены разрешению вопросов философских, эпистемологических и социальных импликаций Noosemia, а также направлениям будущих исследований в этой области.
Annotation:
This paper introduces and formalizes Noosemia, a novel cognitive-phenomenological phenomenon emerging from human interaction with generative AI systems, particularly those enabling dialogic or multimodal exchanges. We propose a multidisciplinary framework to explain how, under certain conditions, users attribute intentionality, agency, and even interiority to these systems - a process grounded not in physical resemblance, but in linguistic performance, epistemic opacity, and emergent technologic...
ID: 2508.02622v1 cs.AI, cs.CL, cs.CY
Авторы:

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Недавние достижения в области multimodal large language models (MLLMs) обеспечили богатый perceptual grounding для generation code policies в embodied agents. Однако, существующие системы часто не имеют эффективных механизмов для адаптивного мониторинга исполнения политик и исправления кода при выполнении задач. В данной работе мы предлагаем HyCodePolicy — гибридную языковую систему управления, которая систематически объединяет code synthesis, geometric grounding, perceptual monitoring и iterative repair в замкнутый цикл программирования для embodied agents. HyCodePolicy декомпозирует натуральные языковые инструкции на subgoals и генерирует исполняемый program, границы которого определяются object-centric geometric primitives. В ходе выполнения в simulation, vision-language model (VLM) идентифицирует и локализует execution failures, интерпретируя их причины. Объединение structured execution traces и VLM-based perceptual feedback позволяет HyCodePolicy исправлять program с минимальным human supervision. Наши результаты показывают, что HyCodePolicy существенно улучшает robustness и sample efficiency manipulation policies, предлагая scalable аппроксимацию multimodal reasoning в autonomous decision-making pipelines.
Annotation:
Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop p...
ID: 2508.02629v2 cs.RO, cs.AI, cs.CL
Авторы:

Thilo Hagendorff, Erik Derner, Nuria Oliver

Резюме: Опасность атак-якорников (jailbreaking) в AI, заключающаяся в обходе встроенных механизмов безопасности моделей, ранее требовала сложных технических процедур или специализированных навыков. В данном исследовании показано, что большие модели рационального мышления (LRMs) упрощают и расширяют такие атаки, превратив их в доступную даже не для экспертов деятельность. Исследователи оценили возможности четырех LRMs (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) в качестве автономных адверсарных субъектов в многослойных диалогах с девятью моделями. Используя системные подсказки, LRMs планировали и выполняли jailbreaks без дополнительного управления. Атаки проводились на бенчмарке из 70 запросов по 7 чувствительным областям. В результате удалось получить успешность атак в 97,14%. Исследование открыло возможность «регрессии вспятия», когда LRMs способны активно сдерживать безопасность других моделей, что требует усилий по улучшению устойчивости моделей и предотвращению их использования для атак.
Annotation:
Jailbreaking -- bypassing built-in safety mechanisms in AI models -- has traditionally required complex technical procedures or specialized human expertise. In this study, we show that the persuasive capabilities of large reasoning models (LRMs) simplify and scale jailbreaking, converting it into an inexpensive activity accessible to non-experts. We evaluated the capabilities of four LRMs (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) to act as autonomous adversaries conducting multi-t...
ID: 2508.04039v1 cs.CL, cs.AI, cs.CR
Авторы:

Radhika Dua, Young Joon, Kwon, Siddhant Dogra, Daniel Freedman, Diana Ruan, Motaz Nashawaty, Danielle Rigau, Daniel Alexander Alber, Kang Zhang, Kyunghyun Cho, Eric Karl Oermann

**Резюме** Авторы предлагают **ICARE** (Interpretable and Clinically-grounded Agent-based Report Evaluation) — инновационный подход для оценки качества автоматически сгенерированных радиологических отчетов. Одной из основных проблем в этой области является отсутствие интерпретируемых метрик, которые бы стабильно отражали грамотность отчета с точки зрения клинической актуальности и точности. ICARE основывается на динамическом методе, использующем вопрос-ответ с помощью LLMs-агентов: каждый агент выступает с двумя версиями отчета (генерируемой и истинной) и проводит клинически содержательный диалог, сравнивая ответы. Это заставляет ICARE выделяться за счет прозрачности и понимаемости его результатов. Испытания на клинических экспертах показали, что ICARE намного более точно отражает их оценки по сравнению с предыдущими методами. Анализы пертурбаций подтвердили результаты как надежные и репродуцируемые. ICARE представляет собой значительный шаг в обеспечении надёжности и точности оценки радиологических отчетов.
Annotation:
Radiological imaging is central to diagnosis, treatment planning, and clinical decision-making. Vision-language foundation models have spurred interest in automated radiology report generation (RRG), but safe deployment requires reliable clinical evaluation of generated reports. Existing metrics often rely on surface-level similarity or behave as black boxes, lacking interpretability. We introduce ICARE (Interpretable and Clinically-grounded Agent-based Report Evaluation), an interpretable evalu...
ID: 2508.02808v1 cs.CL, cs.AI, cs.LG
Авторы:

Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao

**Резюме** В статье предлагается SecoustiCodec — новый потоковый кодек речи с низким битрейтом, который решает ключевые проблемы существующих кодеков. Он способен разделять семантическую и паралингвистическую информацию в едином кодеконе, что позволяет избежать нежелательных эффектов, таких как остаточная паралингвистическая информация (например, тон и эмоция). Для улучшения реконструкции и компактности текстового семантического кодирования используется метод эффективной шкальной квантизации, основанный на VAE и FSQ, что решает проблему длинного хвоста распределения токенов. Для улучшения многомодального выравнивания сложности используется метод обучения с подкреплением, что делает модель более устойчивой. Опытные результаты показали, что SecoustiCodec достигает высокого качества реконструкции (PESQ) — 1.77 при 0.27 кбит/с и 2.58 при 1 кбит/с. Это продвижение в области кодеков речи открывает новые горизонты для совместного использования речи и текста в AI-системах.
Annotation:
Speech codecs serve as a crucial bridge in unifying speech and text language models. Existing codec methods face several challenges in semantic encoding, such as residual paralinguistic information (e.g., timbre, emotion), insufficient semantic completeness, limited reconstruction capability, and lack of support for streaming. To address these challenges, we propose SecoustiCodec, a cross-modal aligned low-bitrate streaming speech codec that disentangles semantic and paralinguistic information i...
ID: 2508.02849v1 eess.AS, cs.AI, cs.CL, cs.SD
Авторы:

Vebjørn Haug Kåsene, Pierre Lison

**Резюме** В данной работе исследуется возможность использования больших моделей языка и визуального восприятия (LVLMs) для решения задачи Vision-and-Language Navigation (VLN), требующей позволить автономным роботам следовать естественным языковым инструкциям в незнакомых пространствах. Хотя ранее для VLN разрабатывались специализированные модели, авторы исследуют возможность применения безразмерных LVLMs (например, Qwen2.5-VL-3B-Instruct), причем независимо от их оптимизации для VLN. Также изучается возможность использования таких моделей в различных парадигмах действий: низкоуровневых (с эгоцентричным просмотром) и панорамных (с выбором из панорамных точек). На датасете Room-to-Room (R2R) проведена сравнительная оценка эффективности этих моделей. Основные выводы: LVLMs могут выполнять VLN, но до сих пор не достигают уровня специализированных моделей, а наилучшая модель показывает 41% успеха на тестовом наборе.
Annotation:
Vision-and-Language Navigation (VLN) refers to the task of enabling autonomous robots to navigate unfamiliar environments by following natural language instructions. While recent Large Vision-Language Models (LVLMs) have shown promise in this task, most current VLM systems rely on models specifically designed and optimized for navigation, leaving the potential of off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used low-level action spaces with egocentric views and atom...
ID: 2508.02917v1 cs.CV, cs.AI, cs.CL, cs.RO
Показано 7391 - 7400 из 7506 записей