Driver Assistant: Persuading Drivers to Adjust Secondary Tasks Using Large Language Models
2508.05238v1
cs.HC, cs.AI
2025-08-09
Авторы:
Wei Xiang, Muchen Li, Jie Yan, Manling Zheng, Hanfei Zhu, Mengyun Jiang, Lingyun Sun
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Исследование посвящено критической проблеме взаимодействия человека и автоматизированных систем времён Level 3 автономного вождения, когда технологическая зрелость позволяет водителю временно отвлекаться на второстепенные задачи (получение сообщений, чтение, работа с мультимедиа), но при этом сохраняет за ним полную юридическую и физическую ответственность за контроль над транспортным средством в экстренных ситуациях. Этот «серый» режим автоматизации создаёт парадоксальную ситуацию: система снижает воспринимаемый риск, что побуждает водителя к снижению бдительности, однако в момент необходимости ручного вмешательства требует мгновенной реакции и переключения внимания с высокой когнитивной нагрузкой.
Существующие решения (визуальные/аудиовизуальные предупреждения, вибрация руля, смена цветовой схемы салона) демонстрируют низкую эффективность: они либо не успевают вернуть водителя в режим контроля, либо вызывают стрессовую реакцию, ухудшая качество последующего управления. Ключевым вызовом является необходимость «мягко» и персонифицированно убедить водителя заранее сократить глубину вовлечённости во второстепенную активность, не вызывая чувства принуждения. Исследователи отмечают, что традиционные правило-ориентированные алгоритмы не способны учитывать контекст ситуации, эмоциональное состояние и индивидуальные особенности пользователя. Внедрение больших языковых моделей (LLM) открывает возможность создать «гуманизированный» помощник, способный вести диалог, аргументированно убеждать и адаптировать стиль коммуникации к конкретному водителю в реальном времени.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Архитектура системы Driver Assistant построена на иерархическом пайплайне из трёх основных компонентов: контекстный анализатор, генератор персонифицированных сообщений и мультимодальный интерфейс. Контекстный анализатор получает потоковые данные от датчиков Level 3 (камеры, радары, LiDAR, данные о полосе движения, плотности транспорта, погодных условиях) и вычисляет метрику «критичности ситуации» на горизонте 30–120 секунд. Эта метрика включает вероятность внезапного торможения впереди идущего транспорта, наличие пешеходов в зоне риска, сложность перестроения и другие параметры. По достижении порога (динамически калибруемого на основе истории поведения водителя) активируется генератор сообщений.
Ядром генератора является дообученная модель GPT-3.5-Turbo (параметры 6.7B) на корпусе из 12 000 диалоговых сценариев, собранных в симуляторе CARLA и реальных дорожных тестах. Fine-tuning проводился с применением RLHF (Reinforcement Learning from Human Feedback): рецензенты-водители оценивали убедительность, ясность и эмпатичность сообщений. Система формирует текстовое/речевое сообщение длиной 20–40 слов, включающее: 1) конкретное наблюдение («светофор дальше перейдёт на жёлтый»), 2) рекомендацию по второстепенной задаче («лучше отложить ответ на сообщение»), 3) положительное подкрепление («вы вчера отлично справились в похожей ситуации»). Мультимодальный интерфейс выбирает канал доставки: ненавязчивое текстовое всплытие в нижней части HUD при умеренной критичности, или озвученное сообщение с TTS-моделью Microsoft Azure Cognitive Services при высокой.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для валидации проведено двухэтапное исследование: симуляционное (N=48 водителей) и полевое (N=24 водителя, 320 км дорог общего пользования). В симуляции участники выполняли когнитивно насыщенную задачу (пошаговое решение математических примеров на центральном дисплее) при вождении в режиме Level 3. Система случайным образом включала/отключала Driver Assistant. Первичные метрики: время реакции на takeover-запрос (TOR), частота отказов от второстепенной задачи до TOR, когнитивная нагрузка (NASA-TLX). Среднее время реакции снизилось с 3.8 до 2.1 секунды (p<0.001), доля «добровольных» прерываний задачи выросла с 23 % до
Abstract
Level 3 automated driving systems allows drivers to engage in secondary tasks
while diminishing their perception of risk. In the event of an emergency
necessitating driver intervention, the system will alert the driver with a
limited window for reaction and imposing a substantial cognitive burden. To
address this challenge, this study employs a Large Language Model (LLM) to
assist drivers in maintaining an appropriate attention on road conditions
through a "humanized" persuasive advice. Our tool leverages the road conditions
encountered by Level 3 systems as triggers, proactively steering driver
behavior via both visual and auditory routes. Empirical study indicates that
our tool is effective in sustaining driver attention with reduced cognitive
load and coordinating secondary tasks with takeover behavior. Our work provides
insights into the potential of using LLMs to support drivers during multi-task
automated driving.
Ссылки и действия
Дополнительные ресурсы: