📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Multi-Hierarchical Feature Detection for Large Language Model Generated Text

2025-09-25

Авторы:

Luyan Zhang, Xinyu Xie

## Контекст С ростом популярности технологий больших языковых моделей (LLM) возрастает интерес к возможности улучшения систем AI для определения текстов, сгенерированных этими моделями. Несмотря на то, что интуитивно понятно, что комбинирование различных типов признаков (семантических, синтаксических и статистических) может привести к значительным улучшениям, эта гипотеза не была достаточно систематически проверена в условиях современных LLM-генерируемых текстов. Основной мотивацией для этого исследования является понять, стоит ли выполнять дополнительные вычислительные затраты для комбинирования нескольких признаковых типов, если результаты почти не отличаются от тех, которые дают однотипные модели. ## Метод Для решения этой задачи была разработана методология MHFD (Multi-Hierarchical Feature Detection). Она включает в себя три основных компонента: 1. **DeBERTa-based semantic analysis** — анализ семантических признаков с помощью модели DeBERTa. 2. **Syntactic parsing** — синтаксический разбор, позволяющий определять структуру предложений. 3. **Statistical probability features** — использование статистических признаков для определения вероятности генерирования текста моделью. Такие признаки объединены в одну систему с помощью адаптивного метода слияния. Такой подход позволяет проверить, насколько эффективно комбинирование этих признаков повышает точность определения текстов, сгенерированных LLM. ## Результаты Использованы несколько бенчмарк-датасеты для проверки эффективности MHFD. Эксперименты показали, что данная система достигла достаточно высокой точности — 89.7% при определении текстов, сгенерированных внутри одной доменной области (in-domain detection). В случае перекрестных доменов (cross-domain detection) точность составила 84.2%, что является незначительным улучшением (0.4–2.6%) по сравнению с современными методами. Однако стоит отметить, что реализация MHFD требует больших вычислительных ресурсов — до 4.2 раз больше, чем у однотипных моделей. ## Значимость Результаты этого исследования имеют важное значение для двух областей. Во-первых, они могут быть использованы в сферах, где необходима высокая точность определения текстов, сгенерированных моделями LLM (например, в области моделирования языка и верификации исходных текстов). Во-вторых, этот подход показывает, что существующие модели LLM уже эффективно сочетают различные признаки, и дополнительное комбинирование им необходимо только в случаях, когда требуется исключительно высокая точность. ## Выводы Несмотря на положительные эффекты MHFD в увеличении точности, предлагаемый подход показывает, что дополнительные вычислительные затраты не всегда оправданы. Большинство признако

Annotation:

With the rapid advancement of large language model technology, there is growing interest in whether multi-feature approaches can significantly improve AI text detection beyond what single neural models achieve. While intuition suggests that combining semantic, syntactic, and statistical features should provide complementary signals, this assumption has not been rigorously tested with modern LLM-generated text. This paper provides a systematic empirical investigation of multi-hierarchical feature...

ID: 2509.18862v1 cs.CL, I.2.7; I.2.1

arXiv PDF

📄 MCP: A Control-Theoretic Orchestration Framework for Synergistic Efficiency and Interpretability in Multimodal Large Language Models

2025-09-24

Авторы:

Luyan Zhang

## Контекст В последние годы искусственные нейронные сети, особенно большие языковые модели, стали основополагающим инструментом в области машинного обучения, обеспечивая потрясающие результаты в различных задачах, таких как ретроспективный анализ, предсказание и синтез текста. Однако при работе с многослойными моделями возникают серьезные проблемы: высокая сложность вычислений и невысокая понятность результатов, что становится барьером для их практического применения. Например, в задачах многокрутного рассуждения или мультимодального взаимодействия требуется не только высокая точность, но и транспарентность решений. Многочисленные исследования стремятся улучшить эффективность и понятность таких моделей, но не удалось достичь полного решения этих проблем. Мотивируя данное исследование является потребность в разработке новых методов, которые бы способствовали эффективному использованию больших моделей в реальных задачах. ## Метод Для решения вопросов эффективности и понятности больших языковых моделей разработана модель MCP, основанная на концепции трёхуровневой кооперации: модель-контроллер-задача (Model-Controller-Task Adaptation, MCP). Эта модель разделяет функционал большой модели на три модуля: рассуждение, генерация и поиск. Решение этих модулей осуществляется с помощью усовершенствованного метода управления, основанного на управлении теорией. Динамическое алгоритмическое руководство, основанное на реинфорсменте, и механизмы адаптации задач позволяют лучше интегрировать модель с задачами. Это глубокое взаимодействие между контроллером и моделью позволяет динамически отслеживать и управлять процессом вычислений, улучшая как эффективность, так и транспарентность результатов. Эта технология представляет собой новую техническую архитектуру для улучшения работы больших моделей. ## Результаты Эксперименты проводились на популярных бенчмарк-задачах, таких как GLUE, COCO и ScienceQA. Результаты показали, что MCP-фреймворк повышает точность решений на 15–30% по сравнению с базовыми моделями, при этом улучшая эффективность рассуждения на 40%. Одним из ключевых достижений является получение транспарентных интерпретируемых результатов с помощью Presenter-слоя. Эти результаты были оценены с помощью оценки интерпретируемости, получивший 90% согласия с оценкой человеческой экспертизы. Это улучшение в транспарентности делает работу модели более понятной и доступной для применения в практических задачах, в том числе принятии решений в сложных средах. ## Значимость MCP-фреймворк может применяться в разли

Annotation:

Aiming at the problems of computational inefficiency and insufficient interpretability faced by large models in complex tasks such as multi-round reasoning and multi-modal collaboration, this study proposes a three-layer collaboration framework based on model-controller-task adaptation (MCP). By decoupling large model functions into reasoning, generation and retrieval modules, and combining reinforcement learning-driven dynamic routing algorithms and task adaptation mechanisms, the systematic in...

ID: 2509.16597v1 cs.CL, I.2.7; I.2.6

arXiv PDF

📄 Cognitive Linguistic Identity Fusion Score (CLIFS): A Scalable Cognition-Informed Approach to Quantifying Identity Fusion from Text

2025-09-24

Авторы:

Devin R. Wright, Jisun An, Yong-Yeol Ahn

## Контекст Квантификация идентичного сближения — это ключевой вопрос для понимания групповых поведенческих явлений. Идентичное сближение (идентичный фьюз) — это психологический подход, где самость человека сливается с другим субъектом или абстрактным цельным (например, религиозной группой, политической партией, идеологией, ценностью, брендом или верой). Основным подходом к измерению идентичного сближения являются визуальные и текстовые методы, которые требуют управляемых опросов или прямого взаимодействия с исследуемыми. Однако эти методы имеют ограничения в масштабируемости и широком применении, особенно в автоматизированных исследованиях. ## Метод Мы предлагаем Cognitive Linguistic Identity Fusion Score (CLIFS) — новый метод, который объединяет когнитивную лингвистику с большими языковыми моделями (LLMs). Основа CLIFS — это автоматическое определение имплицитных метафор в тексте. Этот подход предлагает не только детальный анализ, но и масштабируемость. CLIFS не требует прямого взаимодействия с пользователем, что делает его более эффективным по сравнению с традиционными методами. Мы разработали и тестировали CLIFS на основе существующих данных и показали, что он превосходит традиционные автоматизированные методы и традиционные текстовые оценки. ## Результаты Для проверки CLIFS мы проводили ряд экспериментов, используя текстовые данные, полученные из различных источников, включая социальные медиа, публичные декларации и другие текстовые системы. Мы сравнивали результаты CLIFS с традиционными методами и показали, что CLIFS демонстрирует значительное превосходство в предсказании уровня идентичного сближения. Например, в одном из экспериментов, связанном с оценкой риска насилия, CLIFS улучшил точность прогноза на 240% по сравнению с существующими методами. ## Значимость CLIFS может быть применен в различных областях, включая оценку риска насилия, мониторинг групповых тенденций и анализ групповых узколобых приверженностей. Одним из основных преимуществ CLIFS является его масштабируемость и автоматизация, что упрощает применение в больших данных и широких исследованиях. Кроме того, CLIFS может быть использован для улучшения ранее существующих моделей оценки риска, таких как модели, основанные на решающих деревьях или глубоких нейронных сетях. ## Выводы Мы представили новый подход к оценке идентичного сближения, который объединяет когнитивную лингвистику и технологии больших языковых моделей. CLIFS демонстрирует значительное превосходство по сравнению с традиционны

Annotation:

Quantifying identity fusion -- the psychological merging of self with another entity or abstract target (e.g., a religious group, political party, ideology, value, brand, belief, etc.) -- is vital for understanding a wide range of group-based human behaviors. We introduce the Cognitive Linguistic Identity Fusion Score (CLIFS), a novel metric that integrates cognitive linguistics with large language models (LLMs), which builds on implicit metaphor detection. Unlike traditional pictorial and verba...

ID: 2509.16813v1 cs.CL, I.2.7; H.3.1; I.5.4; J.4

arXiv PDF

📄 Towards Adaptive Context Management for Intelligent Conversational Question Answering

2025-09-24

Авторы:

Manoj Madushanka Perera, Adnan Mahmood, Kasun Eranda Wijethilake, Quan Z. Sheng

## Контекст Улучшение доступности и точности взаимодействия с системами конверсационного вопроса-ответа (ConvQA) является ключевым аспектом в современном интеллектуальном анализе. Одной из основных проблем таких систем является ограничение по объему подаваемой информации на модель ConvQA из-за ограниченности токенов. Это приводит к потере контекста и неточности ответов. Необходима система, которая эффективно управляла бы контекстом, сохраняла релевантную информацию и исключала ненужные данные. В этом контексте возникает необходимость в разработке адаптивной системы управления контекстом (ACM), которая бы позволила ConvQA-системам обрабатывать большие объемы информации с максимальной точностью и относительной простотой. ## Метод Предлагаемый фреймворк ACM включает три основных модуля: Context Manager (CM), Summarization (SM), и Entity Extraction (EE). CM динамически регулирует размер контекста, при этом сохраняя самую актуальную информацию в пределах ограничения токенов. SM обрабатывает старые части контекста с помощью скользящего окна и позволяет избавиться от неактуальных данных. EE идентифицирует и сохраняет ключевые сущности из старых частей контекста, чтобы не потерять важное содержание. Эти модули работают вместе, чтобы обеспечить оптимальное управление контекстом и повысить точность ответов ConvQA. ## Результаты Исследования осуществлялись на основе заданий ConvQA с различными данными, включая общие знания, технические вопросы и другие. Фреймворк ACM был сравнен с традиционными подходами к обработке контекста. Результаты показали, что предлагаемый подход дает более точные ответы, лучшую обработку контекста и эффективную использование ресурсов. Например, ACM позволяет ConvQA-системам увеличить точность ответов на 15% в сравнении с базовыми моделями, при этом сохраняя размер токенов в пределах ограничений. ## Значимость Предлагаемый фреймворк ACM открывает новые возможности для применения в различных областях, включая искусственный интеллект, образование, системы поддержки принятия решений. Он позволяет ConvQA-системам быть более скелетными, гибкими и эффективными в обработке больших данных. Благодаря повышенной точности и эффективности, ACM может положительно сказаться на взаимодействии пользователей с системами и улучшить качество решений в сложных задачах. ## Выводы Разработанный фреймворк ACM демонстрирует эффективность в управлении контекстом для ConvQA-систем. Он улучшает точность ответов и эффективно использует ресурсы. Будущие исследования будут сфокусированы на дальнейшем повышении эффективности, увели

Annotation:

This particular paper introduces an Adaptive Context Management (ACM) framework for the Conversational Question Answering (ConvQA) systems. The key objective of the ACM framework is to optimize the use of the conversation history by dynamically managing context for maximizing the relevant information provided to a ConvQA model within its token limit. Our approach incorporates a Context Manager (CM) Module, a Summarization (SM) Module, and an Entity Extraction (EE) Module in a bid to handle the c...

ID: 2509.17829v1 cs.CL, I.2.7; H.3.3

arXiv PDF

📄 SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

2025-09-23

Авторы:

Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, Yueran Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao

## Контекст Паралюнгвистические звуки, такие как смех и сиг, широко используются в генерации и понимании речи для создания более реалистичных и привлекательных голосовых моделей. Тем не менее, существующие методы часто опираются на закрытые данные, которые недоступны для общественности, либо используют открытые ресурсы, бедные качеством и отсутствием реальности. Эти проблемы приводят к затруднению обучения моделей на естественной паралюнгвистической речи. С другой стороны, доступные по открытому доступу данные часто отсутствуют или имеют неточные аннотации, что препятствует их использованию в нейронных сетях. Мы предлагаем разработать автоматизированный подход для построения больших паралюнгвистических датасетов, чтобы сделать доступными естественные семплы речи. ## Метод Мы разработали фреймворк SynParaSpeech, основанный на методам машинного обучения, для автоматической генерации паралюнгвистических данных. Наш метод производит набор паралюнгвистических звуков, включая смех, сиг, ухмылки и другие, с помощью синтеза речи от естественных диалогов. Мы использовали многоканальные сети для выделения паралюнгвистических звуков из голосовых записей, а затем аннотировали их с точными временными метками. Эта архитектура позволяет генерировать большие датасеты с высокой точностью и реалистичностью. ## Результаты Мы применили SynParaSpeech для построения датасета SynParaSpeech, состоящего из 6 паралюнгвистических категорий с общим объемом 118.75 часов. Данные получены с точными временными метками из реальных диалогов. Мы проверили качество датасета путем сравнения с мануально аннотированными данными и обнаружили высокую точность синтеза. Это позволяет значительно улучшить генерацию речи и обнаружение паралюнгвистических событий. ## Значимость Датасет SynParaSpeech открывает новые возможности в синтезе естественной паралюнгвистической речи, помогая моделям лучше понимать и генерировать звуки, которые часто отсутствуют в традиционных датасетах. Мы предоставили данные в открытом доступе для использования в различных задачах, включая синтез речи, детекцию паралюнгвистических событий, искусственный интеллект и улучшение речи. Этот подход может быть применен в многих сферах, включая развитие голосовых помощников, роботов-интерпретаторов, систем поддержки речи и психологических исследований. ## Выводы Мы представили SynParaSpeech, первый автоматизированный фреймворк для построения больших паралюнгвистических датасетов. Мы показали, что наш подход значительно улучшает качество генерации речи и понимания паралюнгвистич

Annotation:

Paralinguistic sounds, like laughter and sighs, are crucial for synthesizing more realistic and engaging speech. However, existing methods typically depend on proprietary datasets, while publicly available resources often suffer from incomplete speech, inaccurate or missing timestamps, and limited real-world relevance. To address these problems, we propose an automated framework for generating large-scale paralinguistic data and apply it to construct the SynParaSpeech dataset. The dataset compri...

ID: 2509.14946v2 eess.AS, cs.CL, I.2.7

arXiv PDF

📄 The Curious Case of Visual Grounding: Different Effects for Speech- and Text-based Language Encoders

2025-09-23

Авторы:

Adrian Sauter, Willem Zuidema, Marianne de Heer Kloots

## Контекст На протяжении последних десяти лет технологии глубокого обучения позволили достичь значительных успехов в области естественных языков. Однако многие из этих моделей оперируют в условиях недостатка визуальной информации. Это приводит к очевидным различиям в их внутренних представлениях слов в зависимости от того, обучены ли они на текстовых или аудиоданных. Например, модели, обученные на аудиоданных, часто не включают в свои представления значительных семантических характеристик. Этот феномен может привести к проблемам в понимании речи, в частности, когда слова имеют несколько значений. Недавние исследования показали, что подача визуальных сигналов может улучшить представления моделей языка. Однако не ясно, какие изменения происходят внутри моделей в зависимости от того, используется ли текстовый или аудиоinput. Эта работа будет исследовать эти эффекты, а также помочь выявить лучшие практики для интеграции визуальной информации в модели глубокого обучения. ## Метод Чтобы изучить влияние визуальной информации на языковые модели, мы использовали две различные модели: Speech-based Language Encoder (SLE) и Text-based Language Encoder (TLE). Для обучения этих моделей были использованы данные из двух источников: аудиозаписи речи и текстовые корпусы. В работе применялась множественная эмпирическая оценка, включающая сравнение глобальных представлений, а также локальные анализы фонетической и семантической дискриминабильности. Для анализа фонетической дискриминабильности использовались методы кластеризации, которые разделяли слова на группы на основе звуковых символов. Для семантической дискриминабильности — методы, оценивающие схожесть значений слов. ## Результаты Наши результаты показали, что включение визуальной информации в обучение приводит к значительному улучшению взаимосвязи между представлениями речи и письма. Однако этот эффект был сильнее заметен в TLE, чем в SLE. Эксперименты по фонетической дискриминабильности показали, что SLE по-прежнему остается нацеленным на звуковые черты, даже при включении визуальных сигналов. Это отличается от TLE, где визуальная информация улучшила семантическую дискриминабильность. Эти результаты указывают на различия в как обработке, так и в интеграции визуальной информации в эти двух типов моделей. ## Значимость Эти находки имеют практическое значение для развития моделей, которые могут эффективно обрабатывать как речь, так и письменный текст. Такие модели могут быть полезны в областях, где нужно понимать и интепретировать речевые и текстовые данные о

Annotation:

How does visual information included in training affect language processing in audio- and text-based deep learning models? We explore how such visual grounding affects model-internal representations of words, and find substantially different effects in speech- vs. text-based language encoders. Firstly, global representational comparisons reveal that visual grounding increases alignment between representations of spoken and written language, but this effect seems mainly driven by enhanced encodin...

ID: 2509.15837v1 cs.CL, I.2.7

arXiv PDF

📄 SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

2025-09-20

Авторы:

Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, YueRan Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao

## Контекст Паралюнгвистические звуки, такие как смех и сиг, являются ключевыми для создания более реалистичных и захватывающих речи. Однако существующие методы часто ограничиваются использованием проприетарных данных, тогда как свободно распространяемые ресурсы часто страдают от неполноты речи, неточности или отсутствия таймстемпов, а также от сильного ограничения на реальные условия. Данная работа стремится устранить эти проблемы, предложив автоматизированный подход для генерации больших объемов паралюнгвистических данных и создания датасета SynParaSpeech. Он включает шесть паралюнгвистических категорий с 118.75 часов данных, подробно оформленных с таймстемпами и собранными из естественных бесед. Вышел первый в своем роде метод для автоматического генерирования таких данных, что дает новые возможности для синтеза естественной паралюнгвистической речи и улучшения ее понимания. ## Метод Предлагаемый подход состоит в автоматизированной процедуре построения датасета, основанной на применении машинного обучения для идентификации паралюнгвистических событий в естественных речевых потоках. Используется глубокое нейронное сетевое устройство, которое обучается на меток паралюнгвистических событий из уже существующих датасетов. Оно способно определять и классифицировать такие события, даже в условиях шума и неточностей в звуковой структуре. Основным этапом является автоматическое размечвание данных с помощью метода группирования по аналогии и экспертной верификации, что обеспечивает точность и разнообразие результирующих данных. Метод целенаправленно используется для создания SynParaSpeech, посредством которого достигнуты высокие показатели в естественности синтезированной речи. ## Результаты Используя SynParaSpeech, проводились эксперименты, подтвердившие высокую точность классификации и синтеза паралюнгвистических звуков. Данные были сравнены с существующими датасетовами, и демонстрируются значительные преимущества в естественности и глубине понимания. Датасет был протестирован на различных задачах генерирования звука и распознавания паралюнгвистических событий. Результаты показали значительное улучшение качества речи и увеличение точности обнаружения паралюнгвистических событий в сравнении с базовыми методами. Эти результаты отражены в метриках, таких как F1-меру и точность распознавания. ## Значимость Основное применение SynParaSpeech заключается в синтезе естественной паралюнгвистической речи. Он может быть использован в разработке моделей распознавания речи, а также для создания новы

Annotation:

ID: 2509.14946v1 eess.AS, cs.CL, I.2.7

arXiv PDF

📄 Chat-Driven Text Generation and Interaction for Person Retrieval

2025-09-18

Авторы:

Zequn Xie, Chuxin Wang, Sihang Cai, Yeqiang Wang, Shulei Wang, Tao Jin

#### Контекст Text-based person search (TBPS) — это важная задача, позволяющая искать изображения людей в больших базах данных с помощью естественного языка. Она находит применение в областях, таких как слежение и безопасность. Однако одной из самых сложных проблем в этой области является необходимость подготовить качественные текстовые описания для каждого изображения. Это затрудняет масштабирование и применение таких систем в реальной жизни. Для решения этой проблемы необходимо создать автоматизированные методы, которые смогут генерировать текстовые метки и динамически интерпретировать пользовательские запросы. #### Метод Мы предлагаем два модуля, которые работают вместе для улучшения TBPS: **Multi-Turn Text Generation (MTG)** и **Multi-Turn Text Interaction (MTI)**. **MTG** генерирует финергрантные и разнообразные текстовые описания за счет симулированных диалогов с многомодальными языковыми моделями (MLLMs). Это позволяет создавать псевдометки без ручной аннотации. **MTI**, в свою очередь, адаптирует запросы пользователя во время выполнения запроса, используя динамическую диалоговую природу запросов. Он динамически анализирует неточные, неполные или неясные запросы, чтобы улучшить точность и универсальность системы. Эти два модуля объединены в единое целое, не требующее контролируемых текстовых меток. #### Результаты Мы провели подробные эксперименты, используя различные данные, включая сценарии с реальными образами. Мы сравнивали нашу модель с другими подходами в задаче TBPS. Результаты показали, что наш подход существенно улучшает точность поиска, устойчивость к неточным запросам и общую эффективность. Благодаря тому, что не требуется ручная аннотация, наш метод проявляет преимущества в масштабируемости и применении в реальной жизни. #### Значимость Наша модель может применяться в следующих областях: мониторинге и безопасности, поиске лиц в массовых сборах и транспортных узлах. Она предлагает выгоды, такие как снижение количества необходимой ручной работы, улучшение скорости и точности поиска, а также увеличение универсальности системы. Это открывает новые возможности для применения TBPS в реальном времени, особенно там, где недоступны дорогостоящие ручные метки или где нужно быстро реагировать на интересующие запросы. #### Выводы Наш проект доказывает, что автоматизированные методы генерации и интерпретации текста могут эффективно заменять ручные метки в TBPS, делая такую систему более доступной и эффективной. Мы планируем дальнейшее исследование по предсказанию текстовых описаний в разных условиях, а также расширение функциональности для других задач, в

Annotation:

Text-based person search (TBPS) enables the retrieval of person images from large-scale databases using natural language descriptions, offering critical value in surveillance applications. However, a major challenge lies in the labor-intensive process of obtaining high-quality textual annotations, which limits scalability and practical deployment. To address this, we introduce two complementary modules: Multi-Turn Text Generation (MTG) and Multi-Turn Text Interaction (MTI). MTG generates rich ps...

ID: 2509.12662v1 cs.CL, I.2.7; I.4.9

arXiv PDF

📄 Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect

2025-09-17

Авторы:

Alina Klerings, Jannik Brinkmann, Daniel Ruffinelli, Simone Ponzetto

#### Контекст Modern large language models (LLMs) обладают возможностью генерировать текст с высоким уровнем грамматической корректности. Однако, насколько эти модели внутренне кодируют синтаксическую информацию, остается неясным. Несмотря на то, что большая часть предыдущих исследований сосредоточилась на двоичных грамматических характеристиках (например, правильность глагола в бинарной конструкции), настоящее исследование сосредоточено на более сложных, многомерных структурах, таких как глагольные времена и аспекты. Эти понятия имеют множественные составляющие, которые влияют друг на друга. Целью данной работы является раскрытие и контроль этих сложных структур в генеративных моделях. #### Метод Чтобы изучить способность моделей кодировать времена и аспекты глаголов, авторы применяют **linear discriminant analysis (LDA)** для выявления ориентированных направлений в пространстве резидентных весов модели. Эти направления характеризуются как влияющие на конкретные грамматические черты. Далее, авторы применяют **concept steering** для контроля этих грамматических черт в генерации текста. Этот подход включает в себя внесение мелких изменений в веса модели, чтобы управлять выходом генерации. Исследования проводятся на трех различных задачах генерации текста, чтобы проверить устойчивость и точность контроля. #### Результаты В результате экспериментов авторы устанавливают, что модели могут кодировать времена и аспекты глаголов с большим уровнем структурированности. Определены определенные направления в весах, которые влияют на эти грамматические черты. Далее, применение concept steering позволяет контролировать эти черты в ходе генерации, но с определенными ограничениями. Например, для выдачи желаемого результата требуется тщательная настройка параметров, таких как сила, место и длительность концепт-стиринга. Однако, существуют риски, такие как нежелательные эффекты, такие как смена темы или дегенерация текста. #### Значимость Полученные результаты имеют важное применение в области глубокого обучения и генеративных моделей. Например, знание о том, как модели кодируют времена и аспекты глаголов, может помочь в создании более точных текстовых генераторов, используемых в различных приложениях, таких как перевод, синтез речи и генерация ответов на вопросы. Кроме того, эта работа открывает пути к более точному контролю выходов генеративных моделей, что может быть полезно в сферах, где важна точность и контроль, таких как юридическая генерация или генерация текста в определенной сфере. #### Выводы Исследование показывает, что LLM могут кодировать вре

Annotation:

Large language models (LLMs) are able to generate grammatically well-formed text, but how do they encode their syntactic knowledge internally? While prior work has focused largely on binary grammatical contrasts, in this work, we study the representation and control of two multidimensional hierarchical grammar phenomena - verb tense and aspect - and for each, identify distinct, orthogonal directions in residual space using linear discriminant analysis. Next, we demonstrate causal control over bo...

ID: 2509.12065v1 cs.CL, I.2.7

arXiv PDF

📄 How to Evaluate Medical AI

2025-09-17

Авторы:

Ilia Kopanichuk, Petr Anokhin, Vladimir Shaposhnikov, Vladimir Makharev, Ekaterina Tsapieva, Iaroslav Bespalov, Dmitry V. Dylov, Ivan Oseledets

#### Контекст Интеграция искусственного интеллекта (ИИ) в медицинские процессы диагностики становится все более актуальной, однако требуется разработать согласованные и надежные методы оценки точности и клинической значимости таких систем. Существующие метрики, такие как precision и recall, часто не учитывают вариативность медицинских оценок, что приводит к несогласованным результатам. Другие показатели, например, Cohen's Kappa, хотя и демонстрируют более высокую надежность, но не имеют легкой интерпретируемости. Из-за этого необходимо разработать методы, которые учитывали бы вариативность медицинских оценок и предоставляли более реалистичный подход к оценке ИИ в медицине. #### Метод Мы предлагаем новую методологию оценки медицинских ИИ, основанную на Relative Precision and Recall of Algorithmic Diagnostics (RPAD) и Relative Recall of Algorithmic Diagnostics (RRAD). Эти метрики сравнивают результаты ИИ с множеством медицинских оценок, а не с одной стандартной справочной диагностикой. Это позволяет учесть вариативность медицинских мнений. Оптимизируя подход, мы также применяем автоматизированную систему для установления бесформенных клинических диагнозов, что повышает точность до 98%. Исследование основывается на анализе 360 медицинских диалогов, в которых сравниваются несколько больших языковых моделей (LLMs) с мнениями группы врачей. #### Результаты Исследование показало, что наиболее продвинутые языковые модели, такие как DeepSeek-V3, демонстрируют высокую консистентность и точность, которая соответствует или превышает клинические оценки. Мы также отметили, что медицинские оценки часто чрезвычайно вариативны, и вариации между мнениями врачей могут превышать различия между оценками ИИ и человека. Это подчеркивает необходимость использования относительных метрик в оценке ИИ. #### Значимость Новая оценочная методология может быть применена в различных клинических направлениях, где требуется надежность диагностики и сравнение результатов с множеством медицинских мнений. Результаты показывают, что ИИ может не только сочетать множество диагностических мнений, но и преодолевать вариативность медицинских оценок, что значительно повышает надежность систем. Этот подход имеет большой потенциал для улучшения медицинского ИИ и расширения его применения в реальных клинических условиях. #### Выводы Наши исследования показали, что RPAD и RRAD предлагают новый подход к оценке точности ИИ в медицине, учитывая вариативность медицинских оценок. Мы также отметили, что ИИ может превосходить многие клинические оценки в консистентности результатов. В буду

Annotation:

The integration of artificial intelligence (AI) into medical diagnostic workflows requires robust and consistent evaluation methods to ensure reliability, clinical relevance, and the inherent variability in expert judgments. Traditional metrics like precision and recall often fail to account for the inherent variability in expert judgments, leading to inconsistent assessments of AI performance. Inter-rater agreement statistics like Cohen's Kappa are more reliable but they lack interpretability. ...

ID: 2509.11941v1 cs.AI, cs.CL, I.2.7; I.2.1

arXiv PDF

Показано 31 - 40 из 63 записей