📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores

2025-08-23

Авторы:

Yingshu Li, Yunyi Liu, Lingqiao Liu, Lei Wang, Luping Zhou

## Контекст Интерпретируемый, точный и быстрый оценивание текстовых данных, особенно в области медицины, является ключевым аспектом для широкого круга применений, включая диагностику и анализ медицинского содержимого. Однако, актуальной проблемой в этой области является несовершенство метрик, которые либо выдают общую оценку, либо основываются на непонятных для человека моделях. Более того, существующие метрики часто не могут достаточно точно оценивать комплексность и глубину анализа, что влечет недостаточность в решении задач в системах медицинского анализа. Наша мотивация заключается в разработке метрики, которая была бы обоснована клинически, ясна для пользователя и многомерна в своем подходе. ## Метод Мы предлагаем RadReason, новую метрику для оценки радиологических отчетов, которая отличается развитым клиническим обоснованием и точностью. Методология основывается на Group Relative Policy Optimization, что позволяет выделять точки ошибок и давать их подробные оценки. Метрика предоставляет шесть видов ошибок и дает подробные отчеты об их причинах. Она также включает в себя два ключевых элемента: (1) **Sub-score Dynamic Weighting**, который адаптирует оценки отдельных подмножеств ошибок в зависимости от их клинического значения, и (2) **Majority-Guided Advantage Scaling**, который учитывает сложность оценки в зависимости от степени согласия с реальными клиническими ответами. Эти компоненты обеспечивают более стабильный процесс оптимизации и лучшее соответствие клиническим стандартам. ## Результаты Мы провели эксперименты на бенчмарке ReXVal, сравнив RadReason с другими методами. Наши результаты показали, что RadReason превосходит существующие оффлайн-метрики и достигает оценочных результатов, приближенных к GPT-4-based моделям. Это достигается благодаря тому, что RadReason не только выдает точные результаты, но и обеспечивает передовой уровень читаемости и клинического значения. Эта метрика также демонстрирует высокую эффективность и позволяет делать клинические выводы без значительных затрат на вычислительные ресурсы. ## Значимость Метрика RadReason может применяться в разных медицинских областях, в том числе в радиологии, для точного оценивания автоматически сгенерированных отчетов. Она обеспечивает значительные преимущества перед существующими методами, в том числе: 1. Многомерная оценка с точным разбиением на ошибки. 2. Интерпретируемость результатов. 3. Эффективность в вычислениях и подходность для клинического применения. Это может положительно сказаться на качестве медицинского анализа и здоровье пациентов. ## Выводы RadReason продемонстрировала свою выдающуюся эффективность в медицинских приложениях, позволяя более точно и надежно оценива

Annotation:

Evaluating automatically generated radiology reports remains a fundamental challenge due to the lack of clinically grounded, interpretable, and fine-grained metrics. Existing methods either produce coarse overall scores or rely on opaque black-box models, limiting their usefulness in real-world clinical workflows. We introduce RadReason, a novel evaluation framework for radiology reports that not only outputs fine-grained sub-scores across six clinically defined error types, but also produces hu...

ID: 2508.15464v1 cs.CL, cs.AI

arXiv PDF

📄 Subjective Behaviors and Preferences in LLM: Language of Browsing

2025-08-23

Авторы:

Sai Sundaresan, Harshita Chopra, Atanu R. Sinha, Koustava Goswami, Nagasai Saketh Naidu, Raghav Karan, N Anushka

## Контекст Современные бо LLM (Large Language Models) широко используются для решения различных задач: от генерации текстов до помощи в принятии решений. Однако, большинство тренировочных данных для этих моделей имеют широкую глобальную репрезентативность, не учитывая индивидуальных потребностей и предпочтений пользователей. Браузеры и приложения, особенно в мобильных средах, предлагают пользователям свободу в разных формах взаимодействия и браузеринга. Это поведение, как правило, является субъективным и идентично пользователю. Таким образом, вопрос о том, может ли большой модель быть эффективной для представления индивидуальных предпочтений, остается открытым. Мы исследуем, могут ли более мелкие бо быть более эффективными, чем большие, для представления индивидуальных поведений и предпочтений, особенно в области проведения браузеринга. ## Метод Мы предлагаем HeTLM (Heterogeneity-aware Training of Language Models), метод, который учитывает субъективность поведений пользователей при обучении модели. HeTLM разбивает пользователей на кластеры на основе их браузерных поведений и тренирует модель с группой параметров, отфокусированной на каждой группе. Мы сравниваем HeTLM с обычными LLM и определяем, какие модели предпочтения браузера могут лучше представлять субъективные поведения пользователей. Мы также изучаем, как поведение и предпочтения пользователей влияют на качество генерации текста в модели. ## Результаты Мы провели эксперименты с различными моделями, включая обученные с нуля модели, большие модели и HeTLM. Мы установили, что HeTLM не только представляет лучше субъективные поведения пользователей, но и показывает лучшую производительность в задачах генерации текста. Мы также обнаружили, что субъективные предпочтения пользователей могут влиять на то, как модель генерирует текст, в частности в случае самостоятельного браузеринга. Наши результаты показывают, что HeTLM может наиболее эффективно представлять индивидуальные поведения и предпочтения пользователей в сравнении с обычными моделями. ## Значимость Наши результаты показывают, что HeTLM имеет большой потенциал в области персонализации браузеринга. Он может быть применен в сфере пользовательских интерфейсов, чтобы предложить более конкретные рекомендации и улучшить пользовательский опыт. Также, мы увидели, что модель HeTLM может быть применена для создания более легковесных, но эффективных моделей, которые могут быть более экономичными в использовании ресурсов, чем большие модели. Это может иметь потенциал для улучшения браузеринга на мобильных платформах, где ресурсы часто ограничены. ## Выводы Наши резу

Annotation:

A Large Language Model (LLM) offers versatility across domains and tasks, purportedly benefiting users with a wide variety of behaviors and preferences. We question this perception about an LLM when users have inherently subjective behaviors and preferences, as seen in their ubiquitous and idiosyncratic browsing of websites or apps. The sequential behavior logs of pages, thus generated, form something akin to each user's self-constructed "language", albeit without the structure and grammar imbue...

ID: 2508.15474v1 cs.CL, cs.AI

arXiv PDF

📄 Trained Miniatures: Low cost, High Efficacy SLMs for Sales & Marketing

2025-08-23

Авторы:

Ishaan Bhola, Mukunda NS, Sravanth Kurmala, Harsh Nandwani, Arihant Jain

## Контекст Область исследования посвящена развитию и использованию сетей глубокого обучения, ориентированных на решение задач в сфере продаж и маркетинга. Большие языковые модели (LLMs) востребованы в этих областях благодаря их высокой точности и мощности в генерировании текстов. Однако, эти модели требуют огромных вычислительных ресурсов и затрат, что делает их невидимыми для малого и среднего бизнеса. Необходимость эффективных, но дешевых альтернатив привела к появлению концепции "Trained Miniatures" — малых языковых моделей (SLMs), при избегании расходов на вычисления, но сохраняющих высокую эффективность в решении задач продаж и маркетинга. ## Метод "Trained Miniatures" — это малые языковые модели, обученные на специально подобранных данных, чтобы сфокусироваться на доменных приложениях продаж и маркетинга. Методология включает следующие этапы: выборку доменных данных, предварительную обработку и масштабирование, дообучение на данных, а также интеграцию с приложениями для продаж. Технические решения включают оптимизацию модели для меньшего объема памяти и вычислительных затрат, чтобы обеспечить высокую скорость и эффективность в реальном времени. ## Результаты Эксперименты проводились на наборах данных, собранных из различных источников продаж и маркетинга. Модели были испытаны на задачах, таких как генерация текста для email-кампаний, создание ответов на вопросы с покупателей и создание рекламных баннеров. Результаты показали высокую точность и достоверность в генерировании релевантных и актуальных ответов, что свидетельствует о подходящем подходе для малого бизнеса. Этот подход демонстрирует значительные экономии в ресурсах в сравнении с традиционными LLMs. ## Значимость "Trained Miniatures" находят применение в малом и среднем бизнесе, где необходимо эффективное решение задач продаж и маркетинга с ограниченными бюджетными возможностями. Эти модели предлагают существенные преимущества, включая низкую стоимость, быструю реакцию и высокую гибкость. Их возможности могут потенциально улучшить конкурентоспособность небольших компаний, позволяя им продвигаться в рыночных состязаниях с более крупными конкурентами. ## Выводы "Trained Miniatures" — это эффективное и бюджетное решение для задач продаж и маркетинга в малом бизнесе. Они демонстрируют, что можно достичь высокой эффективности с меньшими затратами на вычисления. Будущие исследования будут направлены на улучшение модели, расширение применений и оптимизацию для других индустрий, чтобы укрепить свою роль в инновационных технологиях для бизнеса.

Annotation:

Large language models (LLMs) excel in text generation; however, these creative elements require heavy computation and are accompanied by a steep cost. Especially for targeted applications such as sales and marketing outreach, these costs are far from feasible. This paper introduces the concept of "Trained Miniatures" - Small Language Models(SLMs) fine-tuned for specific, high-value applications, generating similar domain-specific responses for a fraction of the cost.

ID: 2508.15617v1 cs.CL, cs.AI

arXiv PDF

📄 Benchmarking Computer Science Survey Generation

2025-08-23

Авторы:

Weihang Su, Anzhe Xie, Qingyao Ai, Jianming Long, Jiaxin Mao, Ziyi Ye, Yiqun Liu

## Контекст Область исследования, связанная с поиском и анализом информации в области научных публикаций, является важной для улучшения доступности и понимания научных знаний. Настоящий взгляд на мотивации, связанные с развитием технологий для автоматизации генерации научных статей, показывает, что это помогает улучшить процесс сбора и подбора сведений для научных статей. Однако существуют сложности, такие как необходимость ручной работы и нехватка бенчмарков для оценки автоматизированных технологий. Эти ограничения затрудняют развитие систем, которые могли бы эффективно автоматизировать генерацию статей научных обзоров, как в области компьютерных наук. ## Метод В данном исследовании предлагается SurGE (Survey Generation Evaluation), новый бенчмарк для оценки моделей, которые генерируют научные обзоры в области компьютерных наук. Бенчмарк включает (1) коллекцию тестовых примеров, каждый из которых содержит описание темы, экспертно написанный обзор и его список цитирований, и (2) крупную коллекцию академических документов, служащую как базу для поиска информации. Методология включает разработку фреймворка для автоматической оценки генерируемых статей по таким критериям, как полнота информации, точность цитирований, структурная организация и качество содержания. Это позволяет провести комплексную оценку моделей, выделив сложности и трудности в задаче генерации научных обзоров. ## Результаты В ходе экспериментов были протестированы различные модели, включая LLMs (large language models), для оценки их работы в SurGE. Результаты показали, что генерация научных обзоров остается высокой сложной задачей, даже для моделей с самостоятельной оценкой. Оценка показала существующие проблемы, такие как несогласованность цитирований, неполнота информации и несоответствие структурным требованиям. Эти результаты подчеркивают необходимость дальнейшего исследования для улучшения моделей, чтобы они могли стать более эффективными и точными в генерации научных статей. ## Значимость Научные обзоры играют важную роль в научном сообществе, поскольку они дают обзор развития науки и помогают в понимании перспектив. Улучшенные модели генерации обзоров могут иметь значительное влияние, облегчив процесс создания обзорных статей и улучшив доступность научной информации. В то же время, SurGE может стать базой для открытого развития технологий в этой области, позволяя разработчикам создавать и тестировать модели с открытым кодом. Это дает возможность совершенствовать технологии и привлекать внимание к задаче генерации обзоров в научных статьях. ## Выводы В этом исследовани

Annotation:

Scientific survey articles play a vital role in summarizing research progress, yet their manual creation is becoming increasingly infeasible due to the rapid growth of academic literature. While large language models (LLMs) offer promising capabilities for automating this process, progress in this area is hindered by the absence of standardized benchmarks and evaluation protocols. To address this gap, we introduce SurGE (Survey Generation Evaluation), a new benchmark for evaluating scientific su...

ID: 2508.15658v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models

2025-08-23

Авторы:

Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning

#### Контекст E-commerce платформы полны мультимодальных данных, включая различные изображения, описывающие товары. Однако возникает важный вопрос: всегда ли изображения улучшают понимание товаров, или могут ли они, в некоторых случаях, привести к ненужной разнообразию или ухудшению результатов? Настоящие данные, используемые в исследованиях, часто ограничиваются небольшим размером или простым дизайном, что снижает возможность систематического анализа этой проблемы. Чтобы закрыть этот пробел, мы предлагаем EcomMMMU — большой датасет для мультимодального понимания в e-commerce, содержащий 406 190 примеров и 8 989 510 изображений. Он предоставляет данные в формате visual-language с восьми основными задачами и специальным подходом VSS для оценки способности мультимодальных больших языковых моделей (MLLMs) использовать визуальные данные. Наши исследования показали, что изображения товаров не всегда улучшают результаты и могут даже снижать производительность, что указывает на сложности, которые MLLMs испытывают при использовании визуальных данных в e-commerce. #### Метод Мы вводим SUMEI — метод, основанный на выводе, который стратегически использует несколько изображений для товарных задач. SUMEI включает в себя этап предсказания визуальной полезности, чтобы определить, какие изображения являются эффективными для задачи. Этот подход позволяет воздействовать только на самые полезные данные, уменьшая влияние мультимодальных данных, которые могут негативно сказаться на результаты. Использование SUMEI включает простую архитектуру с несколькими моделями, которые обучаются одновременно на визуальных и текстовых данных. SUMEI также основывается на том, чтобы оптимизировать доступ к изображениям в течение рабочего процесса, чтобы увеличить эффективность и уменьшить время обработки. #### Результаты Мы проводили ряд экспериментов для оценки SUMEI на EcomMMMU. Для этого мы использовали визуальные и текстовые данные, оценивая производительность на восьми задачах. Результаты показали, что SUMEI существенно улучшает производительность в сравнении с другими методами, особенно при работе с комплексными продуктами, где визуальные данные часто являются ключевым фактором. Мы также проверили SUMEI на различных подмножествах данных, в том числе на VSS, и показали, что SUMEI демонстрирует устойчивость и высокую точность. Эти результаты подтвердят, что SUMEI является продвинутым подходом для эффективного использования визуальных данных в e-commerce. #### Значимость EcomMMMU и SUMEI имеют широкое применение в области e-commerce, где мультимодальные данные играют ключевую роль. SUMEI может быть применен для

Annotation:

E-commerce platforms are rich in multimodal data, featuring a variety of images that depict product details. However, this raises an important question: do these images always enhance product understanding, or can they sometimes introduce redundancy or degrade performance? Existing datasets are limited in both scale and design, making it difficult to systematically examine this question. To this end, we introduce EcomMMMU, an e-commerce multimodal multitask understanding dataset with 406,190 sam...

ID: 2508.15721v1 cs.CL, cs.AI

arXiv PDF

📄 End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

2025-08-23

Авторы:

Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

## Контекст Исследование адаптивных систем ретриева и логического рендеринга (RAG), ориентированных на лечебные задачи, является ключевым направлением в современной медицинской информатике. Одной из главных проблем является точность диагноза, которая часто страдает из-за недостатка знаний, решающихся с помощью ретриева значимых данных, и недостаточной возможности проведения методологического анализа, которая может возникнуть из-за недостаточного развития технологий анализа данных. Эти проблемы значительно сказываются на качестве предпринимаемых диагностических мер. Улучшение технологий RAG становится важным для обеспечения более точной и прозрачной диагностики, что позволяет клиническим работникам делать более надежные выводы и принимать усовершенствованные решения в области лечения. ## Метод Deep-DxSearch представляет собой агентскую систему RAG, обученную с помощью развития политики реформы использования внешнего знания и интеллектуального анализа. Для обеспечения решения диагностических задач, мы строим большой медицинский репликатор, включающий записи пациентов и достоверные медицинские источники. Основной компонент — выборка текстов, по которым обучена система, поддерживающая интеграцию внешних источников. Мы используем разработку отдельных признаков для формирования LLM-агента, который может взаимодействовать с репликатором. Благодаря reinforcement learning (RL) и техническим развитиям, мы добились того, чтобы LLM мог взаимодействовать с репликатором по сценарию, используя структурированные реакции и диагностические сигналы. ## Результаты Запуская эксперименты с Deep-DxSearch, мы применяли данные из различных медицинских центров. Это позволило нам измерить точность диагноза в задачах классической диагностики. Результаты показали, что данная система опережает другие системы, включая GPT-4o и DeepSeek-R1, как в классических задачах, так и в тех, которые подразумевают использование редких данных. Мы также проводили анализ штрафов и мотиваций внутри системы, который подтвердил значительное влияние на точность и структуру диагностического процесса. Это демонстрирует, что Deep-DxSearch может повысить роль значимых данных в диагностических сценариях. ## Значимость Система Deep-DxSearch может быть применена в различных сферах, включая клиническое лечение, оптимизацию диагностических процессов и поддержку клинических решений. Ее преимущества заключаются в том, что она обеспечивает более точные диагностические решения, повышает транспарентность в диагностическом процессе и дает клиническим работникам большую в

Annotation:

Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct...

ID: 2508.15746v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

2025-08-23

Авторы:

Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen

## Контекст Бо LLM (large language models) показали свою эффективность в различных рассуждающих задачах, особенно с применением методов цепочки мыслей (chain-of-thought, CoT). Однако, несмотря на эти успехи, LLMs часто сталкиваются с проблемами в выполнении задач, требующих точных вычислений. Такие задачи часто приводят к перебору вариантов или "overthinking", что сказывается на эффективности и точности решений. Tool-Integrated Reasoning (TIR) — это новая подход, включающий внешние инструменты в процесс рассуждения. Он позволяет LLMs использовать специальные инструменты для точных вычислений, уменьшая необходимость в переборе вариантов. Несмотря на это, недостаточно изучена проблема общей эффективности TIR в различных областях. Кроме того, неясно, насколько TIR влияет на улучшение рассуждающего поverья LLMs и на способность к более подробному и структурированному мышлению. Для оценки эффективности TIR в различных сферах рассуждения и изучения его влияния на рассуждающие модели, мы предложили ReasonZoo — широкомасштабный бенчмарк, охватывающий 9 областей рассуждения. Мы также разработали два новых показателя: Performance-Aware Cost (PAC) и Area Under the Performance-Cost Curve (AUC-PCC), для оценки рассуждающей эффективности. ## Метод ReasonZoo — это комплексный бенчмарк, который включает задачи из 9 различных областей рассуждения, например: числовые вычисления, логические задачи, текстовое понимание и т.д. Этот бенчмарк разработан для оценки качества рассуждения LLMs, использующих инструменты в своих рассуждениях. Мы также предложили два новых метрики для оценки рассуждающей эффективности: 1. **Performance-Aware Cost (PAC)** — это метрика, которая измеряет уровень точности рассуждения в зависимости от затраченных ресурсов (например, времени или вычислительных ресурсов). 2. **Area Under the Performance-Cost Curve (AUC-PCC)** — это показатель, отображающий эффективность рассуждения в целом, учитывая как точность, так и затраты на вычисления. Мы применяем эти метрики для оценки различных моделей с и Sans TIR и с TIR, чтобы выявить значимость и влияние инструментов на рассуждающие модели. ## Результаты Мы провели многочисленные эксперименты с различными моделями, определив, насколько TIR влияет на эффективность и точность рассуждений. Наши результаты показали, что TIR-enabled модели (модели с интегрированными инструментами) показывают значительные улучшения в областях математических и нематематических задач по сравнению с моделями без инструментов. Мы также обнаружили, что TIR уменьшает "overthinking", что влечет за собой уменьшение времени обработки и улучшение PAC и AUC-PCC. Это означает, что TIR позволяет моделям принимать более осмысленные решения, с меньшим количеством нен

Annotation:

Large Language Models (LLMs) have made significant strides in reasoning tasks through methods like chain-of-thought (CoT) reasoning. However, they often fall short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR) has emerged as a solution by incorporating external tools into the reasoning process. Nevertheless, the generalization of TIR in improving the reasoning ability of LLM is still unclear. Additionally, whether TIR has improved the model's reasoning behavior and hel...

ID: 2508.15754v1 cs.CL, cs.AI

arXiv PDF

📄 LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

2025-08-23

Авторы:

Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

## Контекст В последние годы становится важной задачей развития систем, способных решать сложные задачи, в том числе с использованием различных инструментов. Модель Context Protocol (MCP) предлагает стандартизованный подход для интеграции многообразных инструментов, улучшая возможности систем для решения многошаговых проблем. Однако существует значительная проблема: трудность в эффективном и последовательном использовании этих инструментов в реальных, динамичных условиях. Для оценки и улучшения таких систем необходимы более реалистичные и сложные тестовые среды. ## Метод LiveMCP-101 является бенчмарком, состоящим из 101 запросов, специально подобранных для проверки возможностей систем, использующих MCP-инструменты. Запросы были сформированы с помощью последовательных этапов редактирования с помощью глубокого обучения (LLM) и подробного ручного анализа. Общая сложность задач включает веб-поиск, работу с файлами, математическое моделирование и анализ данных. Метод оценки основывается на сравнении реальных результатов с предварительно определенным планом выполнения, что дает более точное отображение реального ситуационного контекста. ## Результаты В ходе экспериментов участвовали различные модели, включая лидеры в области глубокого обучения. Результаты показали, что даже усовершенствованные модели не могут достичь высокой точности — успешность решения задач остается ниже 60%. Анализ включал в себя расстановку ошибок, определение эффективности использования токенов и проблемы в управлении инструментами. Эти выводы позволяют выявить конкретные направления для улучшения моделей и отработки более отказоустойчивых стратегий для инструментов. ## Значимость LiveMCP-101 представляет собой важный инструмент для проверки и развития систем с использованием MCP в реальных условиях. Он может быть применен в сферах, требующих автоматизации, например, в управлении проектами, медицинских приложениях и сервисах поддержки. Особый потенциал LiveMCP-101 заключается в том, что он позволяет отслеживать и улучшать эффективность моделей в решении сложных задач, становясь ключевым элементом развития совершенно автономных AI-систем. ## Выводы LiveMCP-101 устанавливает новый стандарт для тестирования и оценки систем, использующих MCP, в реальных условиях. Основными достижениями являются идеология строгой оценки и раскрытие различных недостатков в текущих моделях. Будущие исследования будут сфокусированы на усовершенствовании стратегий управления инструментами, увеличении точности решений и развитии более прочных систем, способных эффективно решать много

Annotation:

Tool calling has emerged as a critical capability for AI agents to interact with the real world and solve complex tasks. While the Model Context Protocol (MCP) provides a powerful standardized framework for tool integration, there is a significant gap in benchmarking how well AI agents can effectively solve multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In this work, we present LiveMCP-101, a benchmark of 101 carefully curated real-world queries, refined through iterat...

ID: 2508.15760v1 cs.CL, cs.AI

arXiv PDF

📄 Disentangling concept semantics via multilingual averaging in Sparse Autoencoders

2025-08-22

Авторы:

Cliff O'Reilly, Ernesto Jimenez-Ruiz, Tillman Weyde

## Контекст Современные языковые модели (LLMs) становятся все более мощными в обработке и генерации текстов. Однако их недостатком является неполное понимание концептуальной семантики, которая часто замешательна синтаксическими и языковыми особенностями. Это ограничивает их применение в задачах, требующих точного понимания смысла, таких как семантический анализ и рассуждения с применением формального знания. Например, LLMs могут недостаточно различать семантические отношения между классами в формальных знаниях, таких как классы в языках ontology (OWL). Исследователи ищут методы, позволяющие лучше раскладывать семантические компоненты, отделяя их от синтаксических и языковых зависимостей. ## Метод Мы предлагаем метод, основанный на **Sparse Autoencoders**, для того, чтобы выделить концептуальные семантики с помощью **среднего активации** по словарным словам. Мы начинаем с классов OWL-онтологии написанных на английском языке, переводим их на французский и китайский, а затем вводим эти переводы в LLM Gemma 2B. Используя **Gemma Scope**, мы получаем активации слов для каждого класса и каждого языка. Затем мы создаем **средние значения активаций** для каждого класса на каждом языке, создавая **концептуальный средний профиль** для класса. Эти профили мы сравниваем с знаниями из онтологии в тесте, используя корреляцию, чтобы определить, насколько они соответствуют знаниям. ## Результаты Проведенные эксперименты показывают, что средние концептуальные профили, полученные с помощью **многоязычного среднего**, дают более точный результат, чем средние для отдельных языков. Мы выявляем, что когда мы объединяем активации из нескольких языков, получается более четкое представление значения класса. На примере классов OWL-онтологии, мы получили **высокую корреляцию** с знаниями, которая была **выше**, чем когда мы использовали только один язык. Это указывает на то, что **многоязычное среднее** позволяет лучше отделить семантические смыслы от языковых и синтаксических зависимостей. ## Значимость Наш метод демонстрирует потенциал для **более точного понимания семантических отношений** в LLMs. Это может быть использовано для улучшения семантического анализа, формальных рассуждений, интеллектуальных систем, а также для классификации и поиска информации. Мы также отмечаем, что наш подход может быть применен к другим языкам, что делает его **универсальным** и **перспективным** для развития методов в семантической обработке текста. ## Выводы Мы предложили метод для **выделения концептуальных семантик** с помощью **

Annotation:

Connecting LLMs with formal knowledge representation and reasoning is a promising approach to address their shortcomings. Embeddings and sparse autoencoders are widely used to represent textual content, but the semantics are entangled with syntactic and language-specific information. We propose a method that isolates concept semantics in Large Langue Models by averaging concept activations derived via Sparse Autoencoders. We create English text representations from OWL ontology classes, translat...

ID: 2508.14275v1 cs.CL, cs.AI

arXiv PDF

📄 Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency

2025-08-22

Авторы:

Aman Goel, Daniel Schwartz, Yanjun Qi

#### Контекст Large language models (LLMs) становятся все более важной составляющей современных технологий, позволяя решать задачи, от написания кода до генерирования текстов. Однако они не освобождены от ошибок, одной из самых важных из которых является "hallucination" — выдача неточных или неподтвержденных ответов, которые могут показаться авторитетными, но являются фактически неверными. Эта проблема особенно критична в задачах, требующих высокой точности, таких как медицинские или юридические приложения. Наличие эффективного метода для обнаружения и устранения таких ошибок может существенно усилить надежность LLM в производственных средах. #### Метод Мы предлагаем Finch-Zk — блэк-боксный фреймворк, основанный на **fine-grained cross-model consistency** (тонкой структурной совпадении ответов между разными моделями). За основу фреймворка лежит две ключевые идеи: 1. **Cross-model consistency checking**: Обнаружение тонких неточностей в ответах LLM, проводившись сравнение выдач от нескольких моделей, запущенных на семантически одинаковых запросах. Это позволяет выявить мелкие ошибки, которые могут быть пропущены стандартными методами. 2. **Targeted mitigation**: Использование локальных коррекций, которые исправляют только те части ответа, где обнаружены неточности, при этом сохраняя точные части ответа. Finch-Zk работает на базе black-box моделей, не требуя доступа к их внутренним представлениям или дополнительных источников знаний. #### Результаты Мы провели эксперименты на датасете FELM, сравнив Finch-Zk с существующими подходами. Результаты показали, что F1-меру для обнаружения hallucinations Finch-Zk увеличивает на 6–39% по сравнению с конкурентными вариантами. Также, на GPQA-diamond датасете, Finch-Zk повысил точность ответов примененным к моделям, таким как Llama 4 Maverick и Claude 4 Sonnet, на 7–8 процентных единиц. Эти результаты подтверждают, что этот подход дает существенное улучшение в обнаружении и исправлении неточностей, даже при использовании готовых моделей. #### Значимость Подход Finch-Zk может быть применен в различных областях, где точность ответов критична, включая: - Медицинские приложения. - Юридические системы. - Автоматизация поддержки клиентов. Один из основных преимуществ этого подхода заключается в том, что он может быть использован для любых блэк-боксных моделей без дополнительных требований к обучению или редактированию. Это делает его широко применимым и открывает путь к его внедрению в рабочих производственных средах. #### Выводы Finch-Zk представляет собой эффективный и практичный подход к обнаружению и исправлению неточностей в LLM. Мы доказали его эффективность при помощи научных экспериментов и сравнени

Annotation:

Large language models (LLMs) have demonstrated impressive capabilities across diverse tasks, but they remain susceptible to hallucinations--generating content that appears plausible but contains factual inaccuracies. We present Finch-Zk, a black-box framework that leverages FINe-grained Cross-model consistency to detect and mitigate Hallucinations in LLM outputs without requiring external knowledge sources. Finch-Zk introduces two key innovations: 1) a cross-model consistency checking strategy t...

ID: 2508.14314v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
176
177
178
179
180
204
205

Показано 1771 - 1780 из 2042 записей