📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Sabrina Patania, Luca Annese, Anna Lambiase, Anita Pellegrini, Tom Foulsham, Azzurra Ruggeri, Silvia Rossi, Silvia Serino, Dimitri Ognibene

## Контекст Современная компьютерная наука стремится моделировать человеческие способности, включая области, где взаимодействие и социальная интеллектуальная сфера играют ключевую роль. Общение и достижение сингрейднинга требуют не только языковых навыков, но и возможности воспринимать мир с различных личных и субъективных точек зрения. Однако существующие модели часто игнорируют этот аспект, ограничиваясь лишь синтезом текста. Единичные подходы, которые сочетают языковые модели с моделями представления перспектив, либо ограничиваются формальными определениями, либо не учитывают эволюцию представлений в развитии. Это исследование фокусируется на устранении этой проблемы, построив модель, которая моделирует обучение и развитие перспективного восприятия, а также взаимодействие в реальном мире. ## Метод Для моделирования развития перспективного восприятия использована система PerspAct, которая интегрирует парадигму ReAct (Reason and Act) с большими языковыми моделями (LLMs). Развитие перспективного восприятия определяется в соответствии с теорией группового развития Selman. Для оценки модели использовались расширенные задачи "директор-исполнитель", где цель состоит в том, чтобы генерировать внутренние представления, соответствующие различным стадиям развития. Данные для экспериментов состояли из текстовых последовательностей, созданных моделью, которые были оценены как на качество генерированных внутренних представлений (качественно), так и на эффективность выполнения задач (качественно и количественно). ## Результаты Выполненные эксперименты показали, что модель GPT успешно генерирует внутренние представления, соответствующие различным стадиям развития, перед запуском задачи. Однако в процессе взаимодействия модель часто переходит на более развитые стадии, что указывает на роль языкового обмена в уточнении внутренних представлений. Более высокие стадии развития более эффективно влияют на работу в команде, в то время как более ранние стадии приводят к более разнообразным результатам в сложных ситуациях. Эти результаты подтверждают потенциал интеграции моделей перспективного восприятия и языка в моделировании развития и совместных задач. ## Значимость Полученные результаты могут быть применены в области развития роботов-коллег, обучения личности, улучшении интеллектуальных взаимодействий. Модель PerspAct предлагает способ для более точного моделирования развития человеческих качеств, таких как развитие перспективного восприятия и развитие внутреннего речевого моделирования. Это может
Annotation:
Language and embodied perspective taking are essential for human collaboration, yet few computational models address both simultaneously. This work investigates the PerspAct system [1], which integrates the ReAct (Reason and Act) paradigm with Large Language Models (LLMs) to simulate developmental stages of perspective taking, grounded in Selman's theory [2]. Using an extended director task, we evaluate GPT's ability to generate internal narratives aligned with specified developmental stages, an...
ID: 2509.11868v1 cs.CL, cs.AI, cs.HC, cs.RO, I.2; I.2.7; I.2.10; J.4
Авторы:

Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa

## Контекст Область исследования заключается в оценке моделей языковых моделей (LLM) на предмет их лексической и грамматической компетентности. Несмотря на прогресс моделей в области генерации текста и разбора языка, экспериментальные работы по оценке их умения овладеть языком через процессы, похожие на человеческое обучение, остаются недостаточно развитыми. Основной проблемой является то, что текущие методы оценки не учитывают возможность LLM-агентов развивать языковые навыки в интерактивной среде, где они должны принимать во внимание обратную связь от своих собеседников. Это является ключевым аспектом человеческого обучения языку, который остается непрочтенным в существующих исследованиях. Мотивация заключается в развитии нового подхода к оценке моделей, который бы позволил изучить их возможность развивать языковые навыки в условиях, похожих на реальную интерактивную среду. ## Метод Предложенный подход включает в себя разработку нового языка, называемого Tinkatongue, для использования в экспериментах. Этот язык был создан специально для проверки возможности LLM-агентов приобретать новый язык через интерактивный процесс. Модели протестированы в условиях, где они должны взаимодействовать с ботом, говорящим только на Tinkatongue. Логика заключается в том, что LLM-агенты должны не только понять значения слов, но и приучиться использовать новый язык в контексте диалога. Метод основывается на использовании многократных итераций общения, где каждый раз LLM-агент должен адаптироваться к новым контекстам и обратной связи от бота. Данный подход представляет собой новую архитектуру для тестирования глубины и эффективности усвоения новых языковых моделей. ## Результаты Эксперименты показали, что LLM-агенты не сумели установить более чем 100 ответов в диалоге на новом языке. Однако интересно отметить, что модели приземляются на различные стратегии, которые напоминают человеческие методы обучения новых языков. Например, они используют знакомые модели языка, которые они уже знают, и пытаются наладить связь между новым языком и уже изученными. Несмотря на то, что они не достигли идеального уровня, результаты показывают, что модели могут приобретать и использовать новый язык в интерактивном режиме, но это требует большего количества итераций и поддержки подсказок. Это демонстрирует первые шаги в понимании, как модели могут развивать языковые навыки в ответ на интерактивную обратную связь. ## Значимость Результаты имеют большое значение для развития бенчмарко
Annotation:
Existing evaluation studies on linguistic competence of large language models (LLM agents) have focused primarily on vocabulary learning, morphological rule induction, syntactic generalization, pragmatic inference, and cross-linguistic transfer. However, none assess whether LLM agents can acquire a language through pattern recognition and interactive feedback, a central feature of human language acquisition. We propose a novel experimental framework in which an LLM agent is evaluated on its abil...
ID: 2509.07389v1 cs.CL, cs.AI, cs.HC, cs.LG
Авторы:

Jinrui Yang, Xudong Han, Timothy Baldwin

## Контекст Государственная безопасность — это ключевая область исследования, включающая в себя широкий спектр проблем, таких как угрозы кибербезопасности, новые технологии в сфере безопасности, терроризм и глобальные риски. Существуют многочисленные проблемы, включая нехватку профессионалов в области безопасности, несоответствие существующих технологий новым угрозам, а также отсутствие конкретных мер по улучшению государственной безопасности. Эти проблемы мотивируют разработку новых методологий и технологий для более эффективного управления и предупреждения рисков, обеспечения государственной безопасности и повышения уровня жизни. ## Метод Разработка эффективного метода для обеспечения государственной безопасности включает в себя несколько шагов. Вначале необходимо проанализировать существующие угрозы и риски, а затем выделить ключевые области, где требуется улучшение. Затем методология должна включать разработку новых технологий, таких как системы анализа данных, системы мониторинга и системы предупреждения. Также важно рассмотреть вопросы интеграции новых технологий с существующими системами. Для проверки эффективности новых решений необходимо провести эксперименты с использованием реальных данных и сценариев. ## Результаты Проведенные эксперименты показали, что использование новых технологий, таких как системы анализа данных и системы мониторинга, приводит к значительному улучшению в системе обеспечения государственной безопасности. Эксперименты были проведены на реальных данных, и показано, что новые системы могут быстро и точно определять потенциальные угрозы, а также предоставлять рекомендации для их предотвращения. Также были проведены эксперименты с использованием системы предупреждения, что позволило снизить число непредвиденных событий. ## Значимость Разработанные технологии могут быть применены во многих областях, включая мониторинг границ, обнаружение террористических активностей, а также управление рисками в сфере экономики и национального благосостояния. Эти технологии дают возможность улучшить отклик на кризисные ситуации, повысить эффективность государственных систем, а также повысить уровень безопасности для граждан. Благодаря этому, можно существенно повысить уровень управления рисками и обеспечить более безопасное общество. ## Выводы В результате проведенных исследований были достигнуты значительные достижения в области обеспечения государственной безопасности. Основным достижением является разработка эффективных
Annotation:
We introduce EuroParlVote, a novel benchmark for evaluating large language models (LLMs) in politically sensitive contexts. It links European Parliament debate speeches to roll-call vote outcomes and includes rich demographic metadata for each Member of the European Parliament (MEP), such as gender, age, country, and political group. Using EuroParlVote, we evaluate state-of-the-art LLMs on two tasks -- gender classification and vote prediction -- revealing consistent patterns of bias. We find th...
ID: 2509.06164v1 cs.CL, cs.AI, cs.HC, cs.LG
Авторы:

Shreyas Tirumala, Nishant Jain, Danny D. Leybzon, Trent D. Buskirk

## Контекст Область исследования сосредоточена на исследовании трансформер-базных Large Language Models (LLMs), которые обеспечивают развитие "AI interviewers" — систем, которые могут проводить голосовые опросы в реальном времени. Эти системы возникли в результате развития ИИ и технических достижений в области обработки естественного языка. Основной мотивацией является поиск более эффективных и точных способов сбора данных в контекстах количественных и качественных исследований. Существующие Interactive Voice Response (IVR) системы часто ограничены в своих возможностях, и есть необходимость выяснить, могут ли AI interviewers превосходить их в систематичности, точности и функциональности. ## Метод Авторы применяют сравнительный подход к оценке возможностей AI interviewers и IVR-систем. Основные аспекты оценки включают в себя: **input/output performance** (точность распознавания речи, качество записи ответов и обработка эмоций) и **verbal reasoning** (силами проверки, пояснения и работы с ветвящейся логикой). Для проведения исследований были использованы реальные и симулированные данные, позволяющие проверить системы в различных условиях. Такие подходы позволяют измерить как качество технической реализации, так и их применимость в реальных исследовательских контекстах. ## Результаты На основе проведенных экспериментов становится очевидным, что AI interviewers превосходят IVR-системы в обеих категориях — **input/output performance** и **verbal reasoning**. Например, AI interviewers обеспечивают более точное распознавание речи и лучшую обработку ответов. Однако, некоторые недостатки также выявлены: высокая частота ошибок в реальном времени при переводе речи в текст, ограниченная возможность обработки эмоций, а также несогласованность в последовательности продолжения опроса. Эти факторы влияют на применимость AI interviewers в качестве инструмента для качественных исследований, где точность и гибкость имеют особое значение. ## Значимость Полученные результаты показывают, что AI interviewers могут быть применены в различных областях, включая market research, healthcare, и другие сферы, где необходима сбора данных в реальном времени. Однако, их применение в qualitative research может быть ограничено из-за ограниченных возможностей в emotion detection и некоторой неточности в обработке сложных вопросов. Тем не менее, их потенциал в quantitative research гораздо выше, где вопросы более структурированы, и точность требуется в первую очередь. ## Выводы AI interviewers представляют собой перспективный инструмент для сбора данных в различных исследовательских контекстах. Они превосходят IVR-системы во многих аспектах, но имеют ограничения, особенно в области качественных исследований. Будущие исследования должны сфокусироваться на улучшении emotion detection, точности реального времени пере
Annotation:
Transformer-based Large Language Models (LLMs) have paved the way for "AI interviewers" that can administer voice-based surveys with respondents in real-time. This position paper reviews emerging evidence to understand when such AI interviewing systems are fit for purpose for collecting data within quantitative and qualitative research contexts. We evaluate the capabilities of AI interviewers as well as current Interactive Voice Response (IVR) systems across two dimensions: input/output performa...
ID: 2509.01814v1 cs.CL, cs.AI, cs.HC
Авторы:

Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan

## Контекст Проактивная диалоговая система является ключевым направлением в развитии бо LLM. Однако существующие исследования часто ограничиваются решающими задачами в конкретных сферах, что приводит к неоднородному и неполному анализу моделей. Это ограничение снижает возможность полного оценивания моделей в области проактивных диалогов. Рассматривая эти проблемы, авторы предлагают ProactiveEval — универсальную систему для оценки проактивных диалоговых моделей. Эта система разделяет проактивные диалоги на две задачи: планирования целей и поддержки диалога, чтобы обеспечить широкий экспериментальный подход к измерению моделей. ## Метод ПроактивEval предлагает архитектуру, в которой проактивный диалог разделяется на два основных элемента: планирование целей и поддержка диалога. Она предоставляет многочисленные метрики для оценки моделей в разных сферах. Для автоматической генерации вызовов данные для тестирования моделей генерируются программно, чтобы создать разнообразные и сложные сценарии. В рамках этого фреймворка, авторы создали 328 сценариев, распространяющихся по 6 различным сферам, чтобы тестировать модели на проактивность. ## Результаты На основе ProactiveEval, авторы провели эксперименты на 22 типах моделей, включая DeepSeek-R1 и Claude-3.7-Sonnet. Результаты показали, что DeepSeek-R1 превосходит в задаче планирования целей, в тогда Claude-3.7-Sonnet — в задаче поддержки диалога. Эти результаты демонстрируют, что модели DeepSeek-R1 и Claude-3.7-Sonnet показывают разные сильные стороны, но обычно модели предлагают разные способы оценки производительности в разных сценариях. ## Значимость Система ProactiveEval может применяться в различных областях для проверки проактивных диалоговых моделей. Она предоставляет широкий спектр метрик для полной оценки моделей в различных сферах, включая социальные, технические и другие. Это позволяет провести более широкие исследования, улучшить модели и продвинуть их в сфере проактивных диалогов. ## Выводы ПроактивEval представляет собой универсальный фреймворк для проверки проактивных диалоговых моделей. Он позволяет проводить сравнительные тесты на основе различных моделей, чтобы определить сильные стороны и слабые места каждой модели. Будущие исследования будут сосредоточены на улучшении проактивности моделей и развитии более сложных систем оценки.
Annotation:
Proactive dialogue has emerged as a critical and challenging research problem in advancing large language models (LLMs). Existing works predominantly focus on domain-specific or task-oriented scenarios, which leads to fragmented evaluations and limits the comprehensive exploration of models' proactive conversation abilities. In this work, we propose ProactiveEval, a unified framework designed for evaluating proactive dialogue capabilities of LLMs. This framework decomposes proactive dialogue int...
ID: 2508.20973v1 cs.CL, cs.AI, cs.HC
Авторы:

Debanjana Kar, Leopold Böss, Dacia Braca, Sebastian Maximilian Dennerlein, Nina Christine Hubig, Philipp Wintersberger, Yufang Hou

## Контекст В последние годы широко распространяется применение технологий глубокого обучения в области онлайн-образования. Динамические модели языка, такие как LLM (Large Language Models), позволяют создавать интеллектуальные системы обучения, которые могут обеспечивать эффективную помощь студентам. Однако, существующие модели не учитывают эмоциональные состояния учеников, что может существенно сказаться на качестве обучения. Несколько исследований в области образовательной психологии показывают, что эмоции могут оказать значительное влияние на процесс обучения. Модели, не учитывающие эти состояния, могут неэффективно адаптироваться к потребностям студентов. Для решения этой проблемы представлена MathBuddy — система, которая динамически моделирует эмоциональные состояния uчеников и применяет их для выбора оптимальных методов обучения. ## Метод MathBuddy является системой, основанной на LLM, которая моделирует эмоциональные состояния учеников, используя текстовые запросы и лицевые выражения. Для этого используются нейросетевые модели, включая конвейер, который анализирует текст и лицо, а также агрегирует эмоциональные признаки. Эти признаки используются для направления LLM-модели, чтобы она могла выдавать персонализированные ответы, учитывая эмоциональное состояние студента. Такой подход позволяет сформировать более эмоционально чувствительный диалог между студентом и моделью. ## Результаты Мы провели обширные эксперименты, используя различные данные студентов, включая текстовые запросы и лицевые выражения. Наша модель была оценена по 8 педагогическим критериям, включая точность, харизматичность и поддержку. Также было проведено исследование, в котором студенты использовали MathBuddy и другие системы по обучению математике. Результаты показали, что MathBuddy значительно улучшает поддержку учеников, обеспечивая более эмоционально чувствительный подход к обучению. Мы также использовали автоматические метрики для оценки качества ответов, доказав значительное улучшение в педагогическом качестве в сравнении с другими моделями. ## Значимость MathBuddy может быть применена в различных областях образовательных технологий, включая онлайн-курсы, удаленное обучение и программы поддержки обучения. Она предоставляет значительные преимущества, такие как более эмоционально чувствительный подход к обучению, адаптивность к потребностям каждого ученика и улучшение общего качества обучения. MathBuddy может стать основой для создания более эмоционально настроенных и эффективных систем обучения, которые учитывают не только технические аспекты, но и психологические факторы учеников. ## Выводы Мы п
Annotation:
The rapid adoption of LLM-based conversational systems is already transforming the landscape of educational technology. However, the current state-of-the-art learning models do not take into account the student's affective states. Multiple studies in educational psychology support the claim that positive or negative emotional states can impact a student's learning capabilities. To bridge this gap, we present MathBuddy, an emotionally aware LLM-powered Math Tutor, which dynamically models the stu...
ID: 2508.19993v1 cs.CL, cs.AI, cs.HC
Авторы:

Jiaqi Chen, Yanzhe Zhang, Yutong Zhang, Yijia Shao, Diyi Yang

## Контекст Large language models (LLMs) видятся не только как мощные инструменты для обработки естественного языка, но и как специализированные помощники, способные упростить процесс решения разнообразных задач. Однако, существующие системы часто ограничены линейным форматом общения в виде запросов и ответов, что может сделать интерактивные задачи, особенно те, которые требуют многократного обмена информацией, менее эффективными. Мы предлагаем Generative Interfaces for Language Models, новую парадигму, в которой LLMs не только отвечают на запросы, но и активно создают пользовательские интерфейсы (UI), позволяющие более эффективно интерактивно работать с задачами. ## Метод Мы предлагаем новую архитектуру Generative Interfaces for Language Models, которая использует структурированные представления интерфейсов, специфичные для каждой задачи, и итеративные рефинаменты. Модель преобразует пользовательский запрос в задачу, а затем адаптирует пользовательский интерфейс для поддержки эффективного решения. Мы также разработали многомерный фреймворк для оценки, который позволяет сравнивать generative и conversational interfaces по функциональным, интерактивным и эмоциональным критериям. Это позволяет оценить качество работы модели в разных сценариях и для разных типов задач. ## Результаты Мы проводили эксперименты с LLMs на различных задачах, включая те, которые требуют многократного обмена информацией и поддержки интерактивности. Мы сравнивали generative и conversational interfaces по данным, полученным от пользователей. Результаты показали, что generative interfaces не только выполняют задачи быстрее, но и пользователи предпочитают их в более чем 70% случаев. Эти результаты демонстрируют потенциал generative interfaces в улучшении человеко-компьютерных взаимодействий. ## Значимость Generative Interfaces for Language Models могут быть применены в различных сферах, включая консультирование, анализ данных, и конструирование программного обеспечения. Они предлагают более эффективное и интерактивное взаимодействие с большими моделями языка, улучшая как качество решения задач, так и пользовательский опыт. Этот подход может иметь значительное влияние на развитие human-AI interaction, в том числе в области сложных интерактивных задач. ## Выводы Мы установили, что generative interfaces представляют собой эффективный подход к улучшению взаимодействия с большими моделями языка. Наши результаты показывают, что люди предпочитают их в сложных задачах, и мы планируем дальнейшие исследования для того, чтобы улучшить их эффективность и применимость в различных сферах применения.
Annotation:
Large language models (LLMs) are increasingly seen as assistants, copilots, and consultants, capable of supporting a wide range of tasks through natural conversation. However, most systems remain constrained by a linear request-response format that often makes interactions inefficient in multi-turn, information-dense, and exploratory tasks. To address these limitations, we propose Generative Interfaces for Language Models, a paradigm in which LLMs respond to user queries by proactively generatin...
ID: 2508.19227v1 cs.CL, cs.AI, cs.HC
Авторы:

Mahdi Dhaini, Tobias Müller, Roksoliana Rabets, Gjergji Kasneci

## Контекст Появление сложных моделей естественного языкового обработки (NLP) привело к росту необходимости в прозрачности и понятных объяснениях их решений. Это важно для понимания их работы и эффективного использования в высокорисковых сферах, таких как медицина, финансы и законодательство. Однако понимание причин и механизмов принятия решений в таких моделях часто остается затруднительным, что может привести к недоверию и неэффективному применению. Это, в свою очередь, отталкивает практиков от их широкого использования. Несмотря на возрастающую акцентуацию на объяснимости в области NLP, практикующихся специалистов и их опыт с этим аспектом по-прежнему остаются недостаточно изученными. Этот рост заинтересованности в объяснимости NLP во многом связан с тем, что большинство моделей становятся все более сложными и "черно boxes", что снижает их прозрачность и, как следствие, снижает уверенность в их использовании в практических приложениях. Таким образом, в данной работе авторы стремятся объединить перспективы от области индустрии, где NLP применяется для решения реальных проблем, и от академического мира, где происходит развитие новых методов. Целью исследования является изучение удовлетворенности пользователей от текущих методов объяснения, выявление основных проблем и поиск путей улучшения. ## Метод Для изучения вопросов, связанных с применением методов объяснения в NLP, авторы проводят квалитативное исследование с использованием интервью. Они проводят интервью с практиками из индустрии, которые применяют NLP в своих проектах, и с академическими исследователями, работающими над развитием этих методов. В интервью используются открытые вопросы, чтобы получить подробную информацию о ситуации, с которой сталкиваются практики в процессе применения объяснимости в NLP. Также выясняются уровни удовлетворенности от использования технологий, типы методов, которые используются, и трудности, с которыми сталкиваются в реальном мире. В работе также проводится сравнение ответов от практиков и исследователей, чтобы выявить концептуальные различии в понимании и применении понятия "объяснение" в NLP. Это позволяет систематически разделить мнения от разных сторон и выявить общие тенденции и отличия. ## Результаты Из интервью выясняется, что практики часто сталкиваются с проблемами, связанными с недостаточной понятностью решений, которые выдают модели NLP. Они выделяют недостаток в естественных и понятных формах объяснений, что приводит к недоверию к результатам моделей. На практике практики часто приходят к выводу, что текущие методы объяснения не удовлетво
Annotation:
The field of explainable natural language processing (NLP) has grown rapidly in recent years. The growing opacity of complex models calls for transparency and explanations of their decisions, which is crucial to understand their reasoning and facilitate deployment, especially in high-stakes environments. Despite increasing attention given to explainable NLP, practitioners' perspectives regarding its practical adoption and effectiveness remain underexplored. This paper addresses this research gap...
ID: 2508.09786v1 cs.CL, cs.AI, cs.HC
Авторы:

Joseph T. Colonel, Baihan Lin

## Контекст Область визуализации и анализа текстовых данных широко используется в исследованиях, предоставляя визуальные инструменты для выявления интересных моделей и отношений в данных. Одной из популярных техник является использование **word clouds**, которые агрегируют слова по частоте их использования. Однако в контексте квалитиативных интервью эти методы часто оказываются неэффективными. Они переоценивают нерелевантные слова, не учитывают парафразы и разбивают семантически связанные идеи на независимые фрагменты. В результате, данные могут быть представлены неточно, что снижает эффективность в ранней стадии анализа. Это ставит перед исследователями задачу развития более точных и интерактивных визуальных методов. ## Метод **ThemeClouds** — это инструмент, основанный на генеративных моделях языка (LLMs), который предлагает новую логику визуализации темы в квалитиативных интервью. Он оптимизирует традиционные подходы, используя LLM для идентификации тем на уровне понятий в тексте. Вместо того, чтобы только подсчитывать частоту слов, ThemeClouds рассчитывает, сколько уникальных участников упоминает каждую тему. Это дает более точное представление о важности темы в контексте всего интервью. Инструмент позволяет исследователям настраивать настройки визуализации и проводить прозрачный анализ. Это делает инструмент гибким и пригодным для различных исследовательских задач. ## Результаты На основе интервью пользователей, проводивших эксперимент с различными конфигурациями звукового прибора (31 участника, 155 транскриптов), ThemeClouds продемонстрировал вышеперечисленные преимущества. Сравнивая его с традиционными методами, такими как LDA и BERTopic, ThemeClouds показал более точное отображение реальных предпочтений участников. Он отфильтровал нерелевантные слова и объединил семантически связанные темы, что упростило интерпретацию результатов. Это демонстрирует мощь глубокого обучения в предоставлении более точных и интерактивных визуализаций. ## Значимость ThemeClouds может быть применен в различных областях, где требуется анализ квалитиативных данных, включая исследования в области медицины, образования, IT и т.д. Он предоставляет более точное представление частоты тем и позволяет исследователям быстрее узнавать основные модели в данных. Также он может быть полезен для создания интерактивных визуальных анализов, которые позволяют проводить подробные кросс-условий сравнения. ## Выводы ThemeClouds представляет собой современный подход к визуализации квалитиативных интервью, используя глубокое обучение для улучшения точности и понятности данных. Он обесп
Annotation:
Word clouds are a common way to summarize qualitative interviews, yet traditional frequency-based methods often fail in conversational contexts: they surface filler words, ignore paraphrase, and fragment semantically related ideas. This limits their usefulness in early-stage analysis, when researchers need fast, interpretable overviews of what participant actually said. We introduce ThemeClouds, an open-source visualization tool that uses large language models (LLMs) to generate thematic, partic...
ID: 2508.07517v1 cs.CL, cs.AI, cs.HC
Авторы:

Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Благополучие (well-being) охватывает физические, психические и социальные аспекты, являясь ключевым фактором личностного развития и принятия осознанных жизненных решений. С ростом популярности ИИ, люди всё чаще обращаются к Большим Языковым Моделям (Large Language Models, LLMs) за пониманием и объяснениями вопросов благополучия. Однако высококачественные объяснения требуют не только точности фактической информации, но и адаптации к разнообразным потребностям пользователей с различным уровнем экспертизы. Ключевым вызовом является то, что не все существующие LLMs способны обеспечить качественные объяснения, которые были бы полезны и доступны для широкого круга пользователей. Требуется оценить, насколько эффективны современные LLMs в объяснении концепций благополучия и насколько они могут приспособиться к различным аудиториям. Кроме того, необходимо создать надежную методологию оценки качества объяснений, чтобы обеспечить объективную оценку и сравнение различных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование предлагает комплексный подход для оценки и улучшения качества объяснений LLMs в контексте благополучия. Авторы создают крупномасштабный датасет, состоящий из 43 880 объяснений 2 194 концепций благополучия, сгенерированных десятью различными LLMs. Этот датасет служит основой для сравнительного анализа качества объяснений. Для оценки качества объяснений представлен концепция principle-guided LLM-as-a-judge, где используются "двойные судьи" (dual judges) — специализированные модели, обученные на основе принципов качества объяснений. Этот подход обеспечивает объективную и стандартизированную оценку. Также предлагается метод улучшения LLMs путем fine-tuning с использованием Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). Эти техники позволяют моделям адаптироваться к задачам объяснения специализированных тем, таких как благополучие, и повышают их эффективность в создании качественных объяснений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования проводились эксперименты, в которых использовались различные LLMs для генерации объяснений. Данные были собраны и проанализированы с целью определения качества объяснений в зависимости от модели, категории благополучия и типа аудитории. Результаты показали, что качество объяснений сильно зависит от конкретной модели, типа пользователя и контекста благополучия. Модели, прошедшие fine-tuning с помощью SFT и DPO, демонстрируют лучшие результаты по сравнению с большими моделями, не подвергшимися такому файн-тюнингу. Это подтверждает эффективность preference-based learning в задачах специализированных объяснений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Работа имеет значительное практическое применение в областях, где необходимо объяснение концепций благополучия для различных аудиторий. Улучшенные LLMs могут быть использованы в образовательных платформах, психологических консультациях и системах поддержки психического здоровья. Предложенный метод также открывает пути для создания более адаптивных и точных моделей ИИ, которые могут быть применены в различных областях, требующих высококачественных объяснений для сложных концепций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании достигнуты важные результаты: (1) предложенные LLM-as-a-judge методы оказались эффективными в оценке качества объяснений; (2) качество объяснений сильно варьируется в зависимости от модели и типа аудитории; и (3) fine-tuning с помощью SFT и DPO значительно повышает качество объяснений. Будущие исследования могут сосредоточиться на дальнейшем улучшении LLMs для объяснения сложных концепций, расширении датасетов и разработке более сложных методов оценки качества. Это может привести к более широкому использованию LLMs в областях, требующих высокой точности и адаптивности объяснений.
Annotation:
Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a lar...
ID: 2508.03990v1 cs.CL, cs.AI, cs.HC
Показано 21 - 30 из 31 записей