📊 Статистика дайджестов
Всего дайджестов: 35039 Добавлено сегодня: 432
Последнее обновление: сегодня
Авторы:
Luyan Zhang, Xinyu Xie
## Контекст
С ростом популярности технологий больших языковых моделей (LLM) возрастает интерес к возможности улучшения систем AI для определения текстов, сгенерированных этими моделями. Несмотря на то, что интуитивно понятно, что комбинирование различных типов признаков (семантических, синтаксических и статистических) может привести к значительным улучшениям, эта гипотеза не была достаточно систематически проверена в условиях современных LLM-генерируемых текстов. Основной мотивацией для этого исследования является понять, стоит ли выполнять дополнительные вычислительные затраты для комбинирования нескольких признаковых типов, если результаты почти не отличаются от тех, которые дают однотипные модели.
## Метод
Для решения этой задачи была разработана методология MHFD (Multi-Hierarchical Feature Detection). Она включает в себя три основных компонента:
1. **DeBERTa-based semantic analysis** — анализ семантических признаков с помощью модели DeBERTa.
2. **Syntactic parsing** — синтаксический разбор, позволяющий определять структуру предложений.
3. **Statistical probability features** — использование статистических признаков для определения вероятности генерирования текста моделью.
Такие признаки объединены в одну систему с помощью адаптивного метода слияния. Такой подход позволяет проверить, насколько эффективно комбинирование этих признаков повышает точность определения текстов, сгенерированных LLM.
## Результаты
Использованы несколько бенчмарк-датасеты для проверки эффективности MHFD. Эксперименты показали, что данная система достигла достаточно высокой точности — 89.7% при определении текстов, сгенерированных внутри одной доменной области (in-domain detection). В случае перекрестных доменов (cross-domain detection) точность составила 84.2%, что является незначительным улучшением (0.4–2.6%) по сравнению с современными методами. Однако стоит отметить, что реализация MHFD требует больших вычислительных ресурсов — до 4.2 раз больше, чем у однотипных моделей.
## Значимость
Результаты этого исследования имеют важное значение для двух областей. Во-первых, они могут быть использованы в сферах, где необходима высокая точность определения текстов, сгенерированных моделями LLM (например, в области моделирования языка и верификации исходных текстов). Во-вторых, этот подход показывает, что существующие модели LLM уже эффективно сочетают различные признаки, и дополнительное комбинирование им необходимо только в случаях, когда требуется исключительно высокая точность.
## Выводы
Несмотря на положительные эффекты MHFD в увеличении точности, предлагаемый подход показывает, что дополнительные вычислительные затраты не всегда оправданы. Большинство признако
Annotation:
With the rapid advancement of large language model technology, there is
growing interest in whether multi-feature approaches can significantly improve
AI text detection beyond what single neural models achieve. While intuition
suggests that combining semantic, syntactic, and statistical features should
provide complementary signals, this assumption has not been rigorously tested
with modern LLM-generated text. This paper provides a systematic empirical
investigation of multi-hierarchical feature...
📄 How to Evaluate Medical AI
2025-09-17Авторы:
Ilia Kopanichuk, Petr Anokhin, Vladimir Shaposhnikov, Vladimir Makharev, Ekaterina Tsapieva, Iaroslav Bespalov, Dmitry V. Dylov, Ivan Oseledets
#### Контекст
Интеграция искусственного интеллекта (ИИ) в медицинские процессы диагностики становится все более актуальной, однако требуется разработать согласованные и надежные методы оценки точности и клинической значимости таких систем. Существующие метрики, такие как precision и recall, часто не учитывают вариативность медицинских оценок, что приводит к несогласованным результатам. Другие показатели, например, Cohen's Kappa, хотя и демонстрируют более высокую надежность, но не имеют легкой интерпретируемости. Из-за этого необходимо разработать методы, которые учитывали бы вариативность медицинских оценок и предоставляли более реалистичный подход к оценке ИИ в медицине.
#### Метод
Мы предлагаем новую методологию оценки медицинских ИИ, основанную на Relative Precision and Recall of Algorithmic Diagnostics (RPAD) и Relative Recall of Algorithmic Diagnostics (RRAD). Эти метрики сравнивают результаты ИИ с множеством медицинских оценок, а не с одной стандартной справочной диагностикой. Это позволяет учесть вариативность медицинских мнений. Оптимизируя подход, мы также применяем автоматизированную систему для установления бесформенных клинических диагнозов, что повышает точность до 98%. Исследование основывается на анализе 360 медицинских диалогов, в которых сравниваются несколько больших языковых моделей (LLMs) с мнениями группы врачей.
#### Результаты
Исследование показало, что наиболее продвинутые языковые модели, такие как DeepSeek-V3, демонстрируют высокую консистентность и точность, которая соответствует или превышает клинические оценки. Мы также отметили, что медицинские оценки часто чрезвычайно вариативны, и вариации между мнениями врачей могут превышать различия между оценками ИИ и человека. Это подчеркивает необходимость использования относительных метрик в оценке ИИ.
#### Значимость
Новая оценочная методология может быть применена в различных клинических направлениях, где требуется надежность диагностики и сравнение результатов с множеством медицинских мнений. Результаты показывают, что ИИ может не только сочетать множество диагностических мнений, но и преодолевать вариативность медицинских оценок, что значительно повышает надежность систем. Этот подход имеет большой потенциал для улучшения медицинского ИИ и расширения его применения в реальных клинических условиях.
#### Выводы
Наши исследования показали, что RPAD и RRAD предлагают новый подход к оценке точности ИИ в медицине, учитывая вариативность медицинских оценок. Мы также отметили, что ИИ может превосходить многие клинические оценки в консистентности результатов. В буду
Annotation:
The integration of artificial intelligence (AI) into medical diagnostic
workflows requires robust and consistent evaluation methods to ensure
reliability, clinical relevance, and the inherent variability in expert
judgments. Traditional metrics like precision and recall often fail to account
for the inherent variability in expert judgments, leading to inconsistent
assessments of AI performance. Inter-rater agreement statistics like Cohen's
Kappa are more reliable but they lack interpretability. ...
Авторы:
Vanessa Figueiredo
## Контекст
Крупномасштабные языковые модели (LLM) находят широкое применение в различных областях, включая обучение и сопровождение диалогов. Однако их точность и эффективность в инструкционных диалогах часто ограничиваются существующими архитектурными ограничениями, которые могут недостаточно адаптироваться к контексту или недостаточно направлять пользователя по структурированному рассуждению. Эти ограничения могут приводить к неточностям в решениях, несоответствию контекста или несохранению памяти в диалоге. Целью данного исследования является изучение влияния архитектурных особенностей на умственное поведение LLMs в инструкционных диалогах и разработка механизмов, которые могут улучшить их способность работы в таких ситуациях.
## Метод
Методология исследования основывается на использовании символического механизма скаффолдинга (scaffolding), который включает в себя короткосрочную схему памяти. Модель проектировалась для поддержки адаптивного и структурированного рассуждения в контексте систем ассистентов. Функциональность модели была расширена пятью вариантами, каждый из которых отличался различными компонентами, такими как расширенная система памяти или улучшенная система символического рассуждения. Для оценки выходных данных использовался специально разработанный рубрикат, включающий критерии, такие как символическое рассуждение, отзывчивость и контекстная память. Эксперименты проводились с использованием ЛЛМ-фреймворка, позволяющего сравнивать воздействие различных архитектурных вариантов.
## Результаты
Эксперименты показали, что полная модель, включающая символический скаффолдинг и короткосрочную память, показала существенно лучший результат в сравнении с базовыми вариантами. Эти результаты были подтверждены с помощью рубриката, который оценивал ключевые аспекты, такие как символическое рассуждение и контекстная память. Удаление символической структуры или короткосрочной памяти приводило к значительной ухудшению результатов, в том числе и в сфере абстрактного рассуждения, адаптивного пробития и последовательности концептуальных соображений. Эти результаты подтверждают, что комбинация символической структуры и памяти может улучшить не только работу LLMs в инструкционных диалогах, но и их общую способность выполнять когнитивные задачи.
## Значимость
Полученные результаты открывают новые возможности для применения LLMs в области обучения и сопровождения диалогов. Этот подход может быть применен в различных сферах, включая образовательные платформы, сист
Annotation:
We study how architectural inductive biases influence the cognitive behavior
of large language models (LLMs) in instructional dialogue. We introduce a
symbolic scaffolding mechanism paired with a short-term memory schema designed
to promote adaptive, structured reasoning in Socratic tutoring. Using
controlled ablation across five system variants, we evaluate model outputs via
expert-designed rubrics covering scaffolding, responsiveness, symbolic
reasoning, and conversational memory. We present p...