📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Evaluating Retrieval-Augmented Generation vs. Long-Context Input for Clinical Reasoning over EHRs

2025-08-22

Авторы:

Skatje Myers, Dmitriy Dligach, Timothy A. Miller, Samantha Barr, Yanjun Gao, Matthew Churpek, Anoop Mayampurath, Majid Afshar

## Контекст Клинические заметки в электронных системах хранения здравоохранения (EHR) являются обширными, шумными и часто повторяющимися, что создает значительные сложности для клинического разума при работе с этими данными. Большие языковые модели (LLM) предлагают возможность автоматизировать эти задачи, но длина истории пациента часто превышает их возможности. Новые подходы, такие как Retrieval-Augmented Generation (RAG), предлагают новые возможности, используя задачу-специфичные вспомогательные данные для сокращения объема требуемых входных данных. Этот подход может быть эффективен для решения клинических задач, позволяя использовать дополнительные источники информации без необходимости обрабатывать всю историю пациента. ## Метод Для тестирования RAG были разработаны три клинические задачи, которые могут быть повторно применены в разных системах здравоохранения: 1) извлечение процедур со сканированием, 2) генерация хронологии использования антибиотиков, и 3) идентификация ключевых диагнозов. Данные были извлечены из EHR живых пациентов, и для тестирования были использованы три языковые модели с разным количеством контекста, включая целевую выборку искомых данных и последние заметки клиников. Эксперименты были проведены с целью выявить, насколько RAG может приблизиться к полной модели, сохранив ограниченный объем входных данных. ## Результаты Работу показали, что RAG в большинстве случаев показывает результаты, которые приближаются к полной модели, но требуют значительно меньшего объема входных данных. Например, в тестировании на генерации хронологии антибиотиков и извлечении ключевых диагнозов, RAG показала почти одинаковую точность с полной моделью, при этом использовала от 2 до 4 раз меньше входных данных. В задаче извлечения процедур со сканированием применение RAG привело к незначительному ухудшению качества, но все еще оставалось высоким. ## Значимость Результаты показывают, что RAG является более эффективным подходом для обработки длинных EHR в клиническом контексте, чем традиционные подходы, такие как использование последних заметок. Он может быть применен в различных клинических задачах, таких как выявление ключевых диагнозов, генерация хронологии, или анализ процедур. Этот подход не только экономит ресурсы, но и может существенно улучшить точность и эффективность клинического разума. ## Выводы Работа подтверждает значимость RAG в тех случаях, когда требуется обработка длинных и шумных данных, таких как EHR. Будущие исследования будут направлены на то, как можно улучшить RAG, оптимизировав методы поиска в

Annotation:

Electronic health records (EHRs) are long, noisy, and often redundant, posing a major challenge for the clinicians who must navigate them. Large language models (LLMs) offer a promising solution for extracting and reasoning over this unstructured text, but the length of clinical notes often exceeds even state-of-the-art models' extended context windows. Retrieval-augmented generation (RAG) offers an alternative by retrieving task-relevant passages from across the entire EHR, potentially reducing...

ID: 2508.14817v1 cs.CL, cs.AI

arXiv PDF

📄 Long Chain-of-Thought Reasoning Across Languages

2025-08-22

Авторы:

Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr

#### Контекст Огромный рост мощности и гибкости технологий машинного обучения в последние годы способствовал развитию технологий естественного языка, но при этом был отмечен значительный языковый фокус на английский. Даже самые совершенные модели раскладывают свою эффективность на языках, отличных от английского. Особенно трудности возникают в случае языков с более низким ресурсом, где модели часто сталкиваются с проблемами в понимании задач и выполнении адекватного рассуждения. Наше исследование Long Chain-of-Thought Reasoning Across Languages концентрируется на расширении возможностей рассуждения в LLMs (large language models) на разных языках, включая русский, французский, испанский, и т.д. Мы видим, что существуют существенные проблемы с корректным пониманием и выполнением рассуждений в основном вне англоязычного пространства. Наша мотивация заключается в том, чтобы создать более универсальную модель, которая могла бы оперировать не только на английском, но и на других языках с разными уровнями ресурсов. #### Метод Чтобы достичь этой цели, мы придумали методологию, основанную на переводе и адаптации существующих данных. Мы выбрали два популярных англоязычных датасета, перевели их на целевые языки, и использовали несколько моделей, в том числе Qwen 2.5 (7B) и Qwen 3 (8B). Мы внедрили технический подход, включающий в себя fine-tuning моделей на многоязычных датасетах с различным количеством данных. Например, мы проводили эксперименты с короткими и длинными chain-of-thought reasoning на языках, таких как латынь, французский, японский и свахили. При этом мы придерживались двух основных подходов: 1) узконаправленный fine-tuning, который использовал более качественные, но меньшие данные; 2) более общий подход с использованием многоязычных датасетов, но с меньшим количеством тренировочных данных. Мы также проводили эксперименты с настройкой для конкретных языков, включая русский, чтобы оптимизировать производительность модели для разных языковых структур. #### Результаты Мы получили несколько основных выводов. Во-первых, мы обнаружили, что при использовании английского языка как pivot-языка, который может помочь в выполнении рассуждений, результаты варьируются в зависимости от целевого языка. Например, для французского языка английский не приносил дополнительных выгод, но для японского и латыньи он давал существенный подъем в производительности. Во-вторых, предварительное обучение на многоязычных датасетах (multilingual pretraining) помогло уменьшить разрыв в производительности между разными языками, но не смог пол

Annotation:

Scaling inference through long chains-of-thought (CoTs) has unlocked impressive reasoning capabilities in large language models (LLMs), yet the reasoning process remains almost exclusively English-centric. We construct translated versions of two popular English reasoning datasets, fine-tune Qwen 2.5 (7B) and Qwen 3 (8B) models, and present a systematic study of long CoT generation across French, Japanese, Latvian, and Swahili. Our experiments reveal three key findings. First, the efficacy of usi...

ID: 2508.14828v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

2025-08-22

Авторы:

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

#### Контекст Диффузионные большие языковые модели (dLLMs) представляют собой альтернативную подход к авторегрессионным (AR) языковым моделям для задач естественного языкового понимания и генерации. Они используют полное внимание и стратегии декодирования на основе дискретного диффузионного сглаживания, что делает их эффективными для многих задач. Однако, деплоймент dLLMs на ресурсораспределенных устройствах, таких как мобильные и IoT-устройства, остается сложной задачей из-за их высокого потребления ресурсов и массивного объема параметров. Хотя методы постобучения (post-training) компрессии, такие как постобучевая трансляция в низкобитную сетку (post-training quantization, PTQ), показали свою эффективность для сжатия AR LLMs, их применимость к dLLMs еще не тщательно исследована. Это ставит задачу разработки методов сжатия dLLMs для эффективного деплоймента. #### Метод Мы предлагаем тщательное исследование постобучевая трансляция в низкобитную сетку для dLLMs. Методология включает в себя: 1) идентификацию и анализ активационных выбросов (activation outliers), которые являются резкими значениями, занимающими большую часть динамического диапазона; 2) разработка и реализация современных методов PTQ для dLLMs; 3) построение экспериментов на различных типах задач и моделях dLLM, включая различные бит-width и настройки; 4) анализ производительности моделей по фундаментальным критериям качества и сжатия. Наша методика позволяет изучить различные аспекты сжатия dLLMs и установить рекомендации для эффективного использования PTQ в таких моделях. #### Результаты Мы провели эксперименты на нескольких различных размерах моделей dLLM, включая наиболее популярные архитектуры, используя различные бит-width и методы PTQ. Наши результаты показали, что dLLMs очень чувствительны к выбору бит-width и метода компрессии. Мы обнаружили, что низкобитные модели (например, 4-bit или 8-bit) могут вызывать существенную потерю точности, особенно для высоконагруженных моделей. Однако современные методы quantization-aware training (QAT) и zero-shot PTQ показали некоторый потенциал для улучшения качества после сжатия. Мы также проанализировали влияние разных задач (например, синтеза речи, трансформации текста) на поведение dLLMs после сжатия. #### Значимость Предлагаемый подход добавляет значительные возможности для эффективного деплоймента dLLMs на ресурсораспределенных устройствах. Мы продвигаем знания в области сжатия dLLMs, которые могут быть использованы для создания моделей с более низким потреблением ресурсов, без значительной потери качества. Это открывает пути для использования d

Annotation:

Recent advances in diffusion large language models (dLLMs) have introduced a promising alternative to autoregressive (AR) LLMs for natural language generation tasks, leveraging full attention and denoising-based decoding strategies. However, the deployment of these models on edge devices remains challenging due to their massive parameter scale and high resource demands. While post-training quantization (PTQ) has emerged as a widely adopted technique for compressing AR LLMs, its applicability to ...

ID: 2508.14896v1 cs.CL, cs.AI

arXiv PDF

📄 STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples

2025-08-21

Авторы:

Haiquan Hu, Jiazhi Jiang, Shiyou Xu, Ruhan Zeng, Tian Wang

#### Контекст Изучение эффективности и потенциала больших языковых моделей (LLMs) является ключевым направлением в машинном обучении. Однако современные модели становятся все более сложными, что затрудняет их оценку. Обычные бенчмарки не всегда отражают реальную реалиятические ситуации. Также существуют проблемы с overfitting'ом, высокими затратами на ресурсы, и нехваткой транспарентных результатов. Необходимо разработать метод, который бы позволил сравнивать модели быстро и точно, не требуя огромных затрат на вычисления. STEM предлагает решение этих проблем, ориентируясь на свойства LLMs. #### Метод STEM (Structured Transition Evaluation Method) - это метод оценки LLMs, основанный на анализе "значимых переходов" (STS) в поведении моделей. Он использует последовательности моделей с разными параметрами внутри одной архитектуры. На основе этих переходов, STEM создает модель-контроль, сравнивая стабильные и нестабильные решения. Эта модель-контроль позволяет оценить модели, которые не входят в пул для сравнения напрямую. STEM эффективен так как ориентируется на конкретные случаи, а не на глобальные статистики. Он также интерпретируем и не требует вычислительных ресурсов на полной оценке всех моделей. #### Результаты STEM был протестирован на Qwen3 модели с разными параметрами. Использовались 6 разных бенчмарков, охватывающих различные аспекты языкового моделирования. Результаты показали, что STEM способен точно оценить модели и сравнить их по реальной реализации, а не только по бенчмаркам. Метод показал высокую точность в определении положения моделей в цепочке по сравнению с традиционными методами. Эксперименты подтвердили, что STEM значительно эффективнее и точнее, чем предыдущие подходы. #### Значимость STEM предлагает практический и эффективный подход к оценке LLMs, который может применяться во многих областях: от принятия решений в реальных условиях до создания стандартов для сравнения моделей. Он предлагает более точную и легко интерпретируемую оценку по сравнению с традиционными методами. Благодаря своей легковесности и интерпретируемости, STEM может стать ключевым инструментом для быстрой и точной оценки моделей без высоких затрат на ресурсы. #### Выводы Результаты исследования подтверждают, что STEM является эффективным инструментом для оценки LLMs, который может быть использован для сравнения моделей в разных условиях. Будущие исследования будут направлены на расширение этой методики для различных архитектур моделей и улучшение ее отказоустойчивости в разных сценариях. Это может привести к более широкому применению STEM в промышленных задачах.

Annotation:

Evaluating large language models (LLMs) has become increasingly challenging as model capabilities advance rapidly. While recent models often achieve higher scores on standard benchmarks, these improvements do not consistently reflect enhanced real-world reasoning capabilities. Moreover, widespread overfitting to public benchmarks and the high computational cost of full evaluations have made it both expensive and less effective to distinguish meaningful differences between models. To address thes...

ID: 2508.12096v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description

2025-08-21

Авторы:

Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Peng

## Контекст Текстово-к SQL-парсинг (Text-to-SQL) является ключевым заданием в области естественного общения с базами данных, становясь все более важной для пользователей без технических навыков. Несмотря на то, что новые технологии глубокого обучения, такие как текстовые генеративные модели, позволили значительно повысить точность таких систем, они продолжают сталкиваться с систематическими проблемами в области семантического соответствия между естественным языком (NLQ) и соответствующими SQL-запросами. Эти проблемы усиливаются в больших, кросс-доменных базах данных, где сильно различаются семантические атрибуты, что затрудняет связь схемы и приводит к семантическому сдвигу во время генерации SQL-запросов. Эти ограничения могут привести к уменьшению точности и надежности таких систем. Мы предлагаем CRED-SQL, новую фреймворк, которая адресует эти проблемы, используя кластерную схему для поиска и оптимизации семантического соответствия между NLQ и SQL. ## Метод CRED-SQL основывается на кластерном подходе к схеме и применению нового естественного языка репрезентации, называемого Execution Description Language (EDL). В первом этапе CRED-SQL использует кластерную схему для извлечения связанных таблиц и столбцов, чтобы уменьшить семантический сдвиг и сравнение схемы. Во втором этапе CRED-SQL преобразует NLQ в Execution Description Language (EDL), чтобы сделать задачу более структурированной и уменьшить семантические несоответствия. Эта модель использует LLMs (Large Language Models) для обучения стадий Text-to-EDL и EDL-to-SQL. Это декомпозиция задачи позволяет получить более точные и целенаправленные результаты, улучшая итоговую точность генерации запросов. ## Результаты Для оценки эффективности CRED-SQL проводились испытания на двух кросс-доменных базах данных: SpiderUnion и BirdUnion. Эксперименты показали, что CRED-SQL достигает нового состояния искусства в полях точности и скорости работы в этих двух базах. Улучшения были связаны с эффективным кластерным подходом и реформулировкой в EDL, которая позволила уменьшить семантический сдвиг. Эксперименты также показали, что CRED-SQL лучше справляется с большими базами данных, где семантические проблемы являются особенно важными, улучшая точность по сравнению с другими подходами. ## Значимость CRED-SQL может быть применено в различных областях, где требуется перевод естественного языка в SQL, включая решение задач управления базами данных, анализ бизнес-данных и интеллектуальный поиск. Его главное преимущество заключается в сокращении семантического сдвига и повышении точности в больших базах данных. Благодаря этому модель может стать ключевым инструментом для оптимизации

Annotation:

Recent advances in large language models (LLMs) have significantly improved the accuracy of Text-to-SQL systems. However, a critical challenge remains: the semantic mismatch between natural language questions (NLQs) and their corresponding SQL queries. This issue is exacerbated in large-scale databases, where semantically similar attributes hinder schema linking and semantic drift during SQL generation, ultimately reducing model accuracy. To address these challenges, we introduce CRED-SQL, a fra...

ID: 2508.12769v3 cs.CL, cs.AI

arXiv PDF

📄 Overcoming Latency Bottlenecks in On-Device Speech Translation: A Cascaded Approach with Alignment-Based Streaming MT

2025-08-21

Авторы:

Zeeshan Ahmed, Frank Seide, Niko Moritz, Ju Lin, Ruiming Xie, Simone Merello, Zhe Liu, Christian Fuegen

## Контекст В последние годы непрерывно растет интерес к реализации реального времени реализации систем перевода речи. Одним из основных вызовов является обеспечение высокого качества и низкой задержки в системах, объединяющих Автоматическое Речевое За reconition (ASR) и Машинный Перевод (MT). Несмотря на успех индивидуальных систем (ASR и MT), их комбинация в режиме реального времени для научного обслуживания клиентов остается трудной задачей. Этот доклад фокусируется на сложностях, связанных с эффективным использованием ASR и MT в системах перевода речи на устройствах. Основным мотивом является необходимость повышения качества и снижения задержки, чтобы обеспечить более естественное и быстродействующее взаимодействие в реальном времени. ## Метод Методология, разработанная в работе, основывается на каскадной архитектуре, объединяющей ASR и MT. Рассматривается многоуровневый подход для решения задачи синхронного перевода, в котором ASR обеспечивает динамическую транскрипцию, которая затем используется для MT. Оптимизация проводится с использованием техник, таких как привязка к контексту (когнитивная организация), эффективное предварительное удаление бита (time-out) и принудительная завершающая процедура (forced finalization). Эти методы позволяют сбалансировать качество перевода и задержку. Также в статье рассматривается использование лингвистических признаков, создаваемых ASR, для управления контекстом в MT. ## Результаты Система была протестирована в режиме реального времени, выполняя билингвальные переговоры между русским и английским языками. Эксперименты показали, что система сочетает высокий уровень качества перевода с низкой задержкой, превосходя традиционные системы. Было доказано, что применение техник, таких как привязка к контексту и эффективное распределение ресурсов, позволяет уменьшить задержку без существенного повреждения качества. Результаты показали, что система оказалась более эффективной, снизив задержку до значительного уровня, что делает ее пригодной для реального времени. ## Значимость Система предлагаемая в статье имеет широкие возможности для применения в технологиях, требующих реального времени перевода речи, таких как телекоммуникации, медицина, туризм и онлайн-обучение. Основное преимущество заключается в уменьшении задержки без потери качества, что значительно повышает эффективность. Эта разработка может положительно сказаться на развитии технологий, включая смартфоны, автомобили и роботы, которые требуют надежных систем реального времени. ## Выводы В итоге, предложенный подход доказал свою эффективност

Annotation:

This paper tackles several challenges that arise when integrating Automatic Speech Recognition (ASR) and Machine Translation (MT) for real-time, on-device streaming speech translation. Although state-of-the-art ASR systems based on Recurrent Neural Network Transducers (RNN-T) can perform real-time transcription, achieving streaming translation in real-time remains a significant challenge. To address this issue, we propose a simultaneous translation approach that effectively balances translation ...

ID: 2508.13358v1 cs.CL, cs.AI

arXiv PDF

📄 Whispering Context: Distilling Syntax and Semantics for Long Speech Transcripts

2025-08-21

Авторы:

Duygu Altinok

## Контекст В последние годы значительный прогресс показали системы распознавания речи (ASR), особенно с ростом мощности глубокого обучения. Однако в случае долгих аудиозаписей, таких как передачи радио, семинары или лекции, эти системы сталкиваются с значительными проблемами. В частности, они сталкиваются с ограниченной точностью в задачах, таких как распознавание сущностей (NER), правильное постановление заглавных букв и добавление пунктуации. Эти неточности влияют на статистический анализ, поиск информации и автоматизацию процессов, которые требуют четкого понимания контекста. Наша мотивация заключается в улучшении точности ASR, особенно при работе с долгими аудиозаписями, с помощью интеграции глубокого контекстуального понимания. Мы рассматриваем то, как модели типа LLaMA, способные генерировать глубокий текстовый контекст, могут быть адаптированы для улучшения Whisper, предназначенной для работы с долгими аудиозаписями. ## Метод Мы предлагаем процедуру "дистилляции контекста", которая предназначена для улучшения точности ASR, опираясь на модель LLaMA. Этот подход имеет два основных аспекта. В **первом** аспекте мы используем оптимальный транспорт для сопоставления токенов между выходом ASR и моделью LLaMA. Это позволяет выравнивать последовательности токенов в двух моделях, даже если их длина разная. В **втором** аспекте мы минимизируем разность между представлениями слов и предложений, полученными с помощью Whisper и LLaMA. Этот подход способствует сочетанию синтаксических и семантических свойств. Эта модель обучается на большом корпусе аудио-текстовых пар, включая долгие аудиозаписи с богатым контекстом. У нас также есть новые метрики для оценки распознавания сущностей, которые учитывают то, как ASR работает в трудных условиях долгих аудиозаписей. ## Результаты Мы провели эксперименты на датасете Spoken Wikipedia, который является отправной точкой для оценки работы с долгими аудиозаписями. Наши результаты показали значительные улучшения в Word Error Rate (WER), NER, правильности постановки заглавных букв и добавления пунктуации. Например, точность распознавания сущностей увеличилась на 15%, а WER сократился на 10% в сравнении с базовой моделью Whisper. Эти результаты демонстрируют, что интеграция контекстуального понимания может значительно улучшить точность ASR в долгих выступлениях. Мы также проверили нашу модель на других датасетах, показав, что она показывает хорошие результаты не только в сценарии Spoken Wikipedia, но и в других ситуациях. ## Значимость Наш подход имеет широкие применения в области распознавания речи, где точность критична.

Annotation:

ASR systems often struggle with maintaining syntactic and semantic accuracy in long audio transcripts, impacting tasks like Named Entity Recognition (NER), capitalization, and punctuation. We propose a novel approach that enhances ASR by distilling contextual knowledge from LLaMA models into Whisper. Our method uses two strategies: (1) token level distillation with optimal transport to align dimensions and sequence lengths, and (2) representation loss minimization between sentence embeddings of ...

ID: 2508.13376v1 cs.CL, cs.AI

arXiv PDF

📄 Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis

2025-08-21

Авторы:

Ayoub Ben Chaliah, Hela Dellagi

## Контекст В последнее время роль искусственного интеллекта в анализе данных становится все более высокой. Одной из основных задач в этой области является создание моделей, которые не только способны отвечать на вопросы, но и проводят глубокую структурированную рассуждение для решения сложных задач. Одним из важных направлений является создание моделей, которые могут выполнять трансформацию данных с помощью скриптов, выполнять логические выводы, корректировать ошибки и предоставлять подробные выводы. Эти модели применяются в различных областях, включая финансы, медицину и компьютерные науки. Тем не менее, существуют ряд проблем: существующие модели часто имеют трудности в выполнении логически корректных рассуждений, теряются в трассировке ошибок и выпускают много ненужной информации. Модель Datarus-R1-14B предлагает решение этих проблем, предоставляя эффективное решение для адаптивного многошагового предсказания. ## Метод Datarus-R1-14B является 14-миллиардным параметром моделью, которая была усовершенствована из Qwen-2.5-14B-Instruct. Она была обучена не только на отдельных вопросах и ответах, но и на полных аналитических траекториях, включая логические рассуждения, выполнение кода, ошибки и корректировки. Эта модель обучена в ReAct-стиле, создавая записные книжки, которые отражают различные сферы, такие как финансы, медицина и технические расчеты. Основной методологией является подход, основанный на (i) генерировании синтетических данных, призванных обучать модель к глубоким логическим выводам, (ii) двойной фреймворк, который включает в себя структурный и глубокий сигнал, и (iii) оптимизированную алгоритмически схему групповой политики, которая позволяет эффективно использовать память и ресурсы. Для регулирования темпа обучения использовалась функция курса, которая постепенно меняла фокус от структурной точности к семантическому глубину. Модель также может работать в двух режимах: в агентском режиме она выполняет ReAct-стильные действия, используя Python для реальных вычислений, а в рефлексивном режиме она выдает короткие цепочки логических мыслей. ## Результаты Datarus-R1-14B прошла ряд тестов, включая высокоуровневые задачи, такие как AIME 2024/2025 и LiveCodeBench. Она показала высокий уровень точности, превышая другие модели того же размера и даже достигая того же уровня, что и модели с более крупным числом параметров, такие как QwQ-32B. Более того, Datarus-R1-14B экономит ресурсы, выпуская 18-49% меньше токенов за решение по с

Annotation:

We present Datarus-R1-14B, a 14 B-parameter open-weights language model fine-tuned from Qwen 2.5-14B-Instruct to act as a virtual data analyst and graduate-level problem solver. Datarus is trained not on isolated question-answer pairs but on full analytical trajectories including reasoning steps, code execution, error traces, self-corrections, and final conclusions, all captured in a ReAct-style notebook format spanning finance, medicine, numerical analysis, and other quantitative domains. Our t...

ID: 2508.13382v1 cs.CL, cs.AI

arXiv PDF

📄 ALIGN: Word Association Learning for Cross-Cultural Generalization in Large Language Models

2025-08-21

Авторы:

Chunhua Liu, Kabir Manandhar Shrestha, Sukai Huang

#### Контекст Современные большие языковые модели (LLMs) широко применяются для поддержки кросс-культурной коммуникации. Однако они часто отражают биазы, возникающие из-за преобладания определенных языков и перспектив в их обучающих данных. Это приводит к неточностям и неудовлетворительному пониманию культурных контекстов, особенно при работе с редкими или менее представленными языками и культурами. Недостаток эффективных методов для моделирования культуры и лимитная доступность качественных культурных норм делают этот вопрос особенно актуальным. #### Метод Мы предлагаем параметр-эффективную методику оптимизации готовых моделей на основе норм бесплатного ассоциативного словообразования (free word association), которые хранят в себе глубокие культурные схемы. Для фактических экспериментов использовались нормы англоязычных (США) и китайских ассоциаций из проекта Small-World-of-Words. Мы применили параметр-эффективные методы, включая параметрическую оптимизацию (SFT) и методы оптимизации предпочтений (PPO), для адаптации моделей Llama-3.1-8B и Qwen-2.5-7B. #### Результаты Подход показал существенные улучшения в культурной смысловой точности. Llama-3.1-8B на удвоенном корпусе ассоциаций повысил held-out association Precision at 5 на 16-20% для английского и на 43-165% для китайского. Было достигнуто гуман-level результат по валенсу и активности, что подтверждает величину данного шага. Модели стали лучше отражать ценности целевой культуры, в том числе на World-Values-Survey. На высоко-затруднительных вопросах, Qwen показала удвоенное улучшение китайско-алигнированных ответов, в то время как Llama снизилась на треть в своих биазах в пользу англоговорящих культур. #### Значимость Этот подход демонстрирует перспективы в использовании бесплатных ассоциативных норм для локализации и культурной алигнации моделей. Он может быть использован в сферах межкультурной коммуникации, медицины, психологии и культурно-психологических исследований. Наш прототип показывает, что малый объем добавленных норм (миллионы норм, а не миллиарды данных) может значительно улучшить модель, не требуя громоздких реинтерпретаций. #### Выводы Наша исследовательская работа указывает на важность использования гуман-граундетиджда ассоциационных норм для улучшения культурной алигнации в БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЯХ. Мы продемонстрировали, что данный подход может значительно улучшить продуктивность моделей без необходимости в громоздких тренировках. На

Annotation:

As large language models (LLMs) increasingly mediate cross-cultural communication, their behavior still reflects the distributional bias of the languages and viewpoints that are over-represented in their pre-training corpora. Yet, it remains a challenge to model and align culture due to limited cultural knowledge and a lack of exploration into effective learning approaches. We introduce a cost-efficient, cognitively grounded remedy: parameter-efficient fine-tuning on native speakers' free word-a...

ID: 2508.13426v1 cs.CL, cs.AI

arXiv PDF

📄 ProMed: Shapley Information Gain Guided Reinforcement Learning for Proactive Medical LLMs

2025-08-21

Авторы:

Hongxin Ding, Baixiang Huang, Yue Fang, Weibin Liao, Xinke Jiang, Zheng Li, Junfeng Zhao, Yasha Wang

## Контекст Интерактивность — ключевой аспект в реальном клиническом практиковании, где врачи активно собирают информацию у пациентов для точного диагноза. Медицинские Large Language Models (LLMs) доказали свою эффективность в реактивной модели, отвечая на вопросы без дополнительной информационной подготовки. Однако в реальных клинических ситуациях, где отсутствует полная информация, реактивная модель может привести к ошибочным выводам. Для перехода к проактивной модели, где модели могут спрашивать дополнительные вопросы для повышения точности, мы предлагаем ProMed — новую стратегию, основанную на reinforcement learning (RL). ProMed способствует переходу LLMs с реактивной модели к проактивной, где модели могут спрашивать пациентов и использовать эту информацию для более точных решений. ## Метод ProMed основывается на Shapley Information Gain (SIG), методе, который оценивает важность каждого вопроса в контексте клинической информации. SIG вычисляется с помощью Shapley values, которые выражают значимость каждого вопроса в зависимости от его вклада в понимание ситуации. Мы предлагаем две стадии обучения: (1) SIG-Guided Model Initialization использует Monte Carlo Tree Search (MCTS) для построения высоко-ревардных траекторий взаимодействия, которые затем используются для начальной тренировки модели, и (2) SIG-Augmented Policy Optimization, где мы используем SIG для улучшения RL-политики, присваивая больший вес информативным вопросам. Это позволяет модели оптимизироваться направленно, сфокусировавшись на самых полезных вопросах. ## Результаты Мы проводим эксперименты на двух новых корпусах частичной клинической информации. Наши результаты показывают, что ProMed значительно выдает лучшие результаты по сравнению с состоянием искусства, повышая точность на среднем уровне 6.29%. Более того, ProMed показывает выдающиеся результаты в переквалификации к другим областям, демонстрируя его универсальность и надёжность. Ключевой преимуществом является реализация проактивного подхода, где модель не только отвечает, но и активно ищет дополнительную информацию, что повышает свою эффективность в реальных клинических сценариях. ## Значимость Помимо его прямого применения в клинической практике, ProMed может быть использован в других областях, где требуется проактивное взаимодействие с данными, таких как финансы, юриспруденция, и даже общие задачи взаимодействия с ЛЛМ. Этот подход предлагает значительные преимущества, включая повышение точности диагноза, эффективность в использовании информации, и универсальность, которая позволяет применять его в различных сферах. Мы считаем, что ProMed открывает новые горизонты в исследованиях по RL в медици

Annotation:

Interactive medical questioning is essential in real-world clinical consultations, where physicians must actively gather information from patients. While medical Large Language Models (LLMs) have shown impressive capabilities in static medical question answering, they predominantly operate under a reactive paradigm: generating answers directly without seeking additional information, which risks incorrect diagnoses in such interactive settings. To address this limitation, we propose ProMed, a rei...

ID: 2508.13514v1 cs.CL, cs.AI

arXiv PDF

1
2
178
179
180
181
182
204
205

Показано 1791 - 1800 из 2042 записей