📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Adoption of Explainable Natural Language Processing: Perspectives from Industry and Academia on Practices and Challenges

2025-08-15

Авторы:

Mahdi Dhaini, Tobias Müller, Roksoliana Rabets, Gjergji Kasneci

## Контекст Появление сложных моделей естественного языкового обработки (NLP) привело к росту необходимости в прозрачности и понятных объяснениях их решений. Это важно для понимания их работы и эффективного использования в высокорисковых сферах, таких как медицина, финансы и законодательство. Однако понимание причин и механизмов принятия решений в таких моделях часто остается затруднительным, что может привести к недоверию и неэффективному применению. Это, в свою очередь, отталкивает практиков от их широкого использования. Несмотря на возрастающую акцентуацию на объяснимости в области NLP, практикующихся специалистов и их опыт с этим аспектом по-прежнему остаются недостаточно изученными. Этот рост заинтересованности в объяснимости NLP во многом связан с тем, что большинство моделей становятся все более сложными и "черно boxes", что снижает их прозрачность и, как следствие, снижает уверенность в их использовании в практических приложениях. Таким образом, в данной работе авторы стремятся объединить перспективы от области индустрии, где NLP применяется для решения реальных проблем, и от академического мира, где происходит развитие новых методов. Целью исследования является изучение удовлетворенности пользователей от текущих методов объяснения, выявление основных проблем и поиск путей улучшения. ## Метод Для изучения вопросов, связанных с применением методов объяснения в NLP, авторы проводят квалитативное исследование с использованием интервью. Они проводят интервью с практиками из индустрии, которые применяют NLP в своих проектах, и с академическими исследователями, работающими над развитием этих методов. В интервью используются открытые вопросы, чтобы получить подробную информацию о ситуации, с которой сталкиваются практики в процессе применения объяснимости в NLP. Также выясняются уровни удовлетворенности от использования технологий, типы методов, которые используются, и трудности, с которыми сталкиваются в реальном мире. В работе также проводится сравнение ответов от практиков и исследователей, чтобы выявить концептуальные различии в понимании и применении понятия "объяснение" в NLP. Это позволяет систематически разделить мнения от разных сторон и выявить общие тенденции и отличия. ## Результаты Из интервью выясняется, что практики часто сталкиваются с проблемами, связанными с недостаточной понятностью решений, которые выдают модели NLP. Они выделяют недостаток в естественных и понятных формах объяснений, что приводит к недоверию к результатам моделей. На практике практики часто приходят к выводу, что текущие методы объяснения не удовлетво

Annotation:

The field of explainable natural language processing (NLP) has grown rapidly in recent years. The growing opacity of complex models calls for transparency and explanations of their decisions, which is crucial to understand their reasoning and facilitate deployment, especially in high-stakes environments. Despite increasing attention given to explainable NLP, practitioners' perspectives regarding its practical adoption and effectiveness remain underexplored. This paper addresses this research gap...

ID: 2508.09786v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 A Comprehensive Survey of Datasets for Clinical Mental Health AI Systems

2025-08-15

Авторы:

Aishik Mandal, Prottay Kumar Adhikary, Hiba Arnaout, Iryna Gurevych, Tanmoy Chakraborty

## Контекст Повышение частоты ментальных расстройств в мире является серьезной социальной и здравоохраненческой проблемой. Однако доступ к квалифицированным клиническим специалистам не растет в размере, необходимом для полной поддержки пациентов. AI может стать важной дополнительной системой, помогающей в диагностике, мониторинге и лечении психиатрических расстройств. Однако эффективное использование AI в клинической психиатрии зависит от качественных клинических данных. Несмотря на рост интереса к созданию таких данных, многие из них остаются разбросанными, недокументированными или недоступными, что сделало невозможным полноценное сравнение и репликацию моделей AI. Наша статья является первым подробным обзором клинических данных для обучения систем AI в сфере клинической психиатрии. ## Метод Мы проводим разбор и классификацию клинических данных по разным уровням: типа расстройства (например, депрессия, шизофрения), типа данных (текст, звук, физиологические сигналы), типа задач (предсказание диагноза, оценка симптомов, генерация лечения), доступности (публичные, ограниченные или частные данные) и контекста (языковой и культурный контекст). Мы также рассматриваем синтетические данные, тщательно рассматриваемые с точки зрения их ценности и ограничений. ## Результаты Мы выявили критические пробелы в существующих данных, включая недостаточное количество длительных наблюдений, неполную культурную и языковую репрезентативность, разные стандарты сбора и означения данных, а также недостаточную представительность синтетического данных. Наш обзор подчеркивает значимость этих проблем для развития эффективных и справедливых AI-систем в клинической психиатрии. ## Значимость Наши результаты имеют большое значение для развития систем помощи при клинических расстройствах. Данные, предоставленные в нашем обзоре, могут способствовать развитию AI-систем, которые будут более прозрачными, надёжными и доступными для клиников по всему миру. Мы предлагаем рекомендации по стандартизации данных и расширению представительности в культурном и языковом плане. ## Выводы Наш обзор выделяет ключевые проблемы в клинических данных для AI-систем в психиатрии и даёт рекомендации для их решения. Мы направляем свои усилия на создание более открытых, доступных и эффективных данных, чтобы помочь в развитии AI, который может стать важной частью клинической практики в будущем. Будущие исследования будут нацелены на устранение этих проблем и расширение представительности данных.

Annotation:

Mental health disorders are rising worldwide. However, the availability of trained clinicians has not scaled proportionally, leaving many people without adequate or timely support. To bridge this gap, recent studies have shown the promise of Artificial Intelligence (AI) to assist mental health diagnosis, monitoring, and intervention. However, the development of efficient, reliable, and ethical AI to assist clinicians is heavily dependent on high-quality clinical training datasets. Despite growin...

ID: 2508.09809v1 cs.CL, cs.AI

arXiv PDF

📄 Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

2025-08-15

Авторы:

Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng

################################# ## Контекст ################################# Large Language Models (LLMs) представляют собой мощные инструменты для решения проблем в области естественного языка, включая моделирование, распространение и распознавание. Они обладают выдающимися свойствами в области генерации, рассуждения и обработки много modal'ных данных. Основанные на механизме трансформера, LLMs достигли необычного успеха в решении задач, но сопряжены с значительными требованиями к вычислительной мощности. Эта ситуация становится более сложной при масштабировании моделей и их развертывании в реальных системах. Таким образом, появилась необходимость развития более эффективных архитектур LLMs, которые могли бы снизить требования к вычислительным мощностям и оптимизировать их применение в практических задачах. ################################# ## Метод ################################# Данная статья предлагает подробный обзор новых архитектур LLMs, которые стремятся улучшить эффективность систем. Основной акцент делается на линейных и спарсе-моделях, включая различные варианты полного внимательного моделирования и смесей экспертов в эффективных структурах. Также рассматриваются гибридные модели, которые объединяют эти техники, и возникающие Diffusion-LLMs, которые используют различные подходы к моделированию. Авторы также обсуждают модификации этих технологий для других модальностей, таких как видео и мультимодальные модели, чтобы демонстрировать широкий потенциал этих новых архитектур. Эта систематизация помогает понять основные направления развития более эффективных моделей. ################################# ## Результаты ################################# В ходе исследования проведены сравнительные эксперименты с различными типами моделей. Были использованы стандартные датасеты для оценки эффективности и качества моделей. Например, проверено как линейные модели работают в задачах генерации текста и сравнение с традиционными моделями. Также были проведены эксперименты с многомодальными моделями, включая видео- и изображения-текст модели. Результаты показали, что новые структуры могут значительно сократить требования к вычислительным ресурсам, при этом сохраняя высокий уровень качества решения задач. ################################# ## Значимость ################################# Этот обзор имеет практическое значение для развития систем глубокого обучения, особенно в области LLMs. Новые эффективные архитектуры позволяют уменьшить требования к вычислительной мощности и энергопотреблению, что важно для развертывания моделей в реальных системах. Благодаря этому, модели могут быть применены в различных сферах, включая здравоохранение, финансы, энергетику и другие. Это также открывает путь к развитию скейлимых и ресурсо-оптими

Annotation:

Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of ...

ID: 2508.09834v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

2025-08-15

Авторы:

Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

#### Контекст Понимание текста и рассуждение в нем являются основными задачами в области обработки естественного языка. Однако существующие бенчмарки часто ограничиваются короткими контекстами, не требуя глобального понимания и глубокого рассуждения. Библиотечные книги, включая их предшествующие части (преквоты), являются источником информации, включающим многоуровневые связи и сложные структуры. Такие источники требуют от моделей значительного усилия для понимания и точного рассуждения. Бенчмарк PRELUDE (Prequel Consistency Evaluation for Long-Context Understanding and Reasoning) предназначен для оценки моделей по способности к глобальному пониманию и логическому рассуждению на основе длинных контекстов. #### Метод Benchmark PRELUDE состоит из 1,558 предложенных вопросов, построенных на основе 12 литературных произведений, включая классические романы. Ответы на вопросы требуют не только понимания отдельных фрагментов текста, но и объединения сведений из разных частей текста, чтобы оценить предварительное рассуждение. Модели были проверены на множестве экспериментов с различными подходами: стандартными вспомогательными сетями, глубокими обучением (LLMs), вспомогательными системами поиска информации (RAG) и вспомогательными системами глубокого поиска информации (DeepResearch). #### Результаты Эксперименты показали, что существующие модели сталкиваются с значительными трудностями в выполнении задачи. Наилучшие результаты были достигнуты с помощью вспомогательных систем DeepResearch, но они оставались ниже уровня человеческого уровня на 15% в общем понимании и 30% в правильности логического рассуждения. Биологические исследования показали, что модели часто приходят к правильным ответам, но с использованием неточных или неполных логических доказательств, что приводит к заметному разрыву с уровнем логического рассуждения человека. #### Значимость Предложенный бенчмарк имеет широкое назначение в области обучения глубоких новых моделей. Он позволяет оценить способность моделей к глобальному пониманию, которое является ключевым для решения задач в области глубокого текстового рассуждения. Бенчмарк также помогает оценить текущий уровень технологий и направляет направления для будущих исследований в области расширения глубины и точности анализа текста. #### Выводы PRELUDE — это первый бенчмарк, оценивающий модели по способности к глобальному пониманию и логическому рассуждению на основе длинных контекстов. Результаты экспериментов показали, что текущие модели значительно отстают от уровня человеческого уровня. Этот результат подчеркивает необходимость улучшения моделей

Annotation:

We introduce PRELUDE, a benchmark for evaluating long-context understanding through the task of determining whether a character's prequel story is consistent with the canonical narrative of the original book. Our task poses a stronger demand for global comprehension and deep reasoning than existing benchmarks -- as the prequels are not part of the original story, assessing their plausibility typically requires searching and integrating information that is only indirectly related. Empirically, 88...

ID: 2508.09848v2 cs.CL, cs.AI

arXiv PDF

📄 Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models

2025-08-15

Авторы:

Jiaqi Cao, Jiarui Wang, Rubin Wei, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin

## Контекст Large Language Models (LLMs) доказали свою эффективность в решении общих языковых задач. Однако применение этих моделей к специализированным дисциплинам, таким как биомедицина, финансы и право, требует индивидуальной адаптации, которая традиционно требует дорогостоящей полного переноса параметров (Domain Adaptive Pretraining, DAPT). Эта процедура затратна из-за сложности обучения и катастрофической забываемости. Кроме того, Retrieval-Augmented Generation (RAG), хотя и улучшает адаптацию, приводит к значительному затрату ресурсов на вычисления и долгому времени ответа из-за необходимости поиска в больших выборках. Эти ограничения подчеркивают необходимость разработки эффективных способов адаптации LLMs к конкретным сферам без негативных побочных эффектов. ## Метод Memory Decoder представляет собой простую, но эффективную архитектуру в виде небольшого transformer-decoder, который настраивается для имитации поведения внешнего непараметрического ретривера. Алгоритм обучения оптимизирует декодер для точного воспроизведения ответов, полученных из внешней памяти. Эта архитектура отличается тем, что она не требует изменения оригинальной модели и может быть легко интегрирована в любую LLM с использованием одного и того же токенизатора. Такое решение обеспечивает высокую эффективность при адаптации к новым сферах, сохраняя всю мощь предварительно обученной модели. ## Результаты Эксперименты проводились на трех специализированных областях: медицина, финансы и право. Для каждой области были использованы специальные данные, а модели Qwen и Llama были адаптированы с помощью Memory Decoder. Результаты показали существенную улучшение в предсказании текста, снижением perplexity на среднем уровне в 6.17 пунктов по сравнению с оригинальными моделями. Это достигное улучшение подтверждает то, что Memory Decoder добавляет мощь и точность в специализированных темах без необходимости изменять оригинальную модель. ## Значимость Memory Decoder представляет собой важное дополнение к возможностям LLMs, позволяя их эффективно адаптировать к конкретным дисциплинам без изменения основной модели. Эта модель может быть применена в различных сферах, где требуется высокая точность и эффективность, таких как системы поддержки решений в биомедицине, финансовые системы и системы судебного толкования. Важное преимущество Memory Decoder заключается в том, что он обеспечивает элегантное решение проблемы затратных вычислений и зависимости от дорогих сетей памяти, обеспечивая быструю и точную адаптацию. ## Выводы Memory Decoder представляет собой перспективное направление в развитии LLMs, предоставляя новый подход к адаптации моделей к специальным дисциплинам. Будущие исследования б

Annotation:

Large Language Models (LLMs) have shown strong abilities in general language tasks, yet adapting them to specific domains remains a challenge. Current method like Domain Adaptive Pretraining (DAPT) requires costly full-parameter training and suffers from catastrophic forgetting. Meanwhile, Retrieval-Augmented Generation (RAG) introduces substantial inference latency due to expensive nearest-neighbor searches and longer context. This paper introduces Memory Decoder, a plug-and-play pretrained mem...

ID: 2508.09874v1 cs.CL, cs.AI

arXiv PDF

📄 A Comprehensive Evaluation framework of Alignment Techniques for LLMs

2025-08-15

Авторы:

Muneeza Azmat, Momin Abbas, Maysa Malfiza Garcia de Macedo, Marcelo Carpinette Grave, Luan Soares de Souza, Tiago Machado, Rogerio A de Paula, Raya Horesh, Yixin Chen, Heloisa Caroline de Souza Pereira Candello, Rebecka Nordenlow, Aminat Adebiyi

## Контекст Появление больших языковых моделей (LLMs) значительно изменило область ИИ, обеспечив широкий спектр приложений, включая работу с текстом, перевод, вопрос-ответ и творческие задачи. Однако их потенциал распространения ограничивается нехваткой системных методов для гарантии того, что их выходы соответствуют человеческим ценностям и безопасности. Несмотря на развитие многообразных подходов к выравниванию моделей (RLHF, instruction tuning, post-hoc correction, inference-time interventions), нет единого фреймворка для компаративного анализа их эффективности. Это создает проблемы для выбора и развертывания наиболее подходящих методов. Наша мотивация заключается в создании универсального, многомерного фреймворка для валидации выравнивания LLMs, чтобы улучшить понимание их производительности и ограничений. ## Метод Мы предлагаем многомерный фреймворк для оценки выравнивания LLMs, включающий четыре ключевые аспекта: (1) **Alignment Detection**: определение того, насколько модель понимает и выражает предпочтения пользователя; (2) **Alignment Quality**: оценка точности и соответствия выходов модели желаемым ценностям; (3) **Computational Efficiency**: рассмотрение скорости и ресурсоемкости процесса выравнивания; (4) **Robustness**: измерение устойчивости модели к различным входным данным и условиям. Наши эксперименты основываются на различных базовых моделях и методах выравнивания, используя стандартные датасеты и метрики для точного сравнения. ## Результаты Мы проверили наш фреймворк на нескольких моделях, включая эталонные тестовые датасеты. Результаты показали, что RLHF и instruction tuning обеспечивают высокую точность в выравнивании, но имеют высокую стоимость работы и требуют больших ресурсов. Post-hoc correction и inference-time interventions демонстрируют лучшую эффективность, но могут снизить качество выходов. Наши эксперименты также показали, что модели с высокой robustness часто имеют уменьшенную alignment quality. Эти результаты отражают сложности в достижении баланса между эффективностью, качеством и устойчивостью. ## Значимость Наш фреймворк может быть применен во многих областях, включая разработку систем защиты прав человека в ИИ, мониторинг соответствия моделей нормам и требованиям, а также в поддержку исследователей в выборе наиболее подходящих методов выравнивания. Он предоставляет ценный инструмент для анализа ограничений и сил моделей, упрощая принятие решений о развертывании. Мы видим потенциал в расширении нашего фреймворка для оценки дополнительных аспектов, таких как семантическое восприятие и эмоциональная корреляция. ## Выводы Мы представили первый комплексный фреймворк для оценки выравнивания LLMs, который позволяет ко

Annotation:

As Large Language Models (LLMs) become increasingly integrated into real-world applications, ensuring their outputs align with human values and safety standards has become critical. The field has developed diverse alignment approaches including traditional fine-tuning methods (RLHF, instruction tuning), post-hoc correction systems, and inference-time interventions, each with distinct advantages and limitations. However, the lack of unified evaluation frameworks makes it difficult to systematical...

ID: 2508.09937v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

2025-08-15

Авторы:

Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei

#### Контекст Multimodal large language models (MLLMs) позволяют объединить процессы визуального и текстового понимания, но их возможности генерировать код на основе многомодальных входных данных до сих пор ограничены. Эта проблема в узком контексте генерации кода с графическими входными данными остается актуальной. Многие текущие модели страдают от лимитов в обработке разных модальностей, что приводит к неточностям в результатах. Наша мотивация заключается в создании модели, которая могла бы эффективно объединять визуальные и текстовые данные для генерации кода, обеспечивая высокую точность и универсальность. #### Метод VisCodex — это универсальная модель, которая объединяет сильные модели обработки текста и визуального содержимого. Мы внедрили стандартное моделирование задач (task vector-based model merging) для интеграции лучших свойств кодинговой модели с визуально-языковой моделью. Эта стратегия позволяет VisCodex успешно решать задачи, требующие как глубокого текстового анализа, так и визуальной интерпретации. Мы также представили Multimodal Coding Dataset (MCD), содержащий более 598 тысяч примеров, включая HTML-код, связи изображений-кода, а также задачи с изображениями для StackOverflow. Для оценки, мы предложили InfiBench-V — новый, сложный бенчмарк для оценки моделей на реальных программируемых задачах, требующих глубокого понимания текста и визуальных сценариев. #### Результаты Мы провели эксперименты на многочисленных многомодальных задачах, включая генерацию кода для HTML, интеграцию изображений с текстом, а также решение программируемых задач. Результаты показывают, что VisCodex выдает лучшие результаты среди открытых MLLMs и приближается к показателям закрытых моделей, таких как GPT-4o. Мы также демонстрируем, что наша модель эффективно решает задачи в InfiBench-V, которые требуют визуального и текстового анализа. Это показывает, что VisCodex может оптимизировать генерацию кода в разных контекстах. #### Значимость VisCodex может применяться в сферах, где необходима интеграция визуальных и текстовых данных для генерации кода, такие как разработка программного обеспечения, диагностика технических проблем и создание интерактивных систем. Ее преимущества заключаются в универсальности, повышенной точности и возможности использования в различных сценариях. Мы считаем, что VisCodex может стать ключевым инструментом для развития будущих моделей генерации кода, влияя на области AI, программирования и разработки. #### Выводы В результате нашей работы, мы создали VisCodex — модель, которая внедрила новые способы объединения визуальных и текстовых данных для генерации кода. Она показала высокую эфф

Annotation:

Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong visi...

ID: 2508.09945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 Specialised or Generic? Tokenization Choices for Radiology Language Models

2025-08-15

Авторы:

Hermione Warr, Wentian Xu, Harry Anthony, Yasin Ibrahim, Daniel McGowan, Konstantinos Kamnitsas

## Контекст В области языковых моделей (Language Models, LM) важность выбора токенизатора, определяющего словарь модели, четко установлена. Однако эта проблема в радиологии остается подробно изученной. Радиологические отчеты отличаются специфичным лексиконом, включая медицинские термины и формальную нотацию. Применение широко распространенных естественноязыковых токенизаторов может привести к ошибкам или неполному пониманию текста. Наша мотивация заключается в сравнении специализированных, медицинских и генерических токенизаторов на задаче суммаризации радиологических отчетов, а также изучении эффекта предварительного тренирования моделей (pre-training) на PubMed. ## Метод Мы сравниваем три типа токенизаторов: генерический (с поддержкой русского языка), медицинский и домен-специфический (созданный специально для радиологии). Каждый токенизатор используется для преобразования текстов радиологических отчетов на трех различных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных. Модели тренируются с использованием PubMed и без него. Задача суммаризации измеряется по метрикам качества текста. Для экспериментов используются данные из радиологических центров. ## Результаты Модели с домен-специфическими токенизаторами показали лучшие результаты по метрике BLEU, суммарному скору качества (ROUGE) и другим критериям. Эти модели также работают эффективнее с меньшими потребностями в памяти из-за меньшего размера словаря и корочего потока токенов. Модели с медицинскими токенизаторами также демонстрируют высокий уровень эффективности, хотя специализированные токенизаторы показывают лучшие результаты. Без предварительного тренирования на PubMed различия между токенизаторами более заметны. ## Значимость Наши результаты показывают, что домен-специфические токенизаторы являются оптимальным выбором для задач суммаризации радиологических отчетов. Их использование повышает точность моделей, уменьшает требования к памяти и улучшает производительность. Эти модели могут быть применены в области медицинского

Annotation:

The vocabulary used by language models (LM) - defined by the tokenizer - plays a key role in text generation quality. However, its impact remains under-explored in radiology. In this work, we address this gap by systematically comparing general, medical, and domain-specific tokenizers on the task of radiology report summarisation across three imaging modalities. We also investigate scenarios with and without LM pre-training on PubMed abstracts. Our findings demonstrate that medical and domain-sp...

ID: 2508.09952v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens

2025-08-14

Авторы:

Anna Seo Gyeong Choi, Hoon Choi

## Контекст Automatic Speech Recognition (ASR) становится все более важной компонентой современных технологий, поскольку системы ASR встречаются в различных сферах жизнедеятельности, от устройств для домашнего использования до систем управления бизнес-процессами. Однако несмотря на их распространенность, исследования по формированию базы данных ASR, а также по оценке их точности, остаются недостаточно развитыми. Это приводит к проблемам с удовлетворением пользователей и ограничению применения ASR в различных сегментах рынка. Эти факторы определяют мотивацию для данного исследования, нацеленного на раскрытие проблемы недостатка в ресурсах для ASR, а также на проведение оценки эффективности существующих решений. ## Метод Для решения проблемы недостатка баз данных ASR используется подход, основанный на сборе и анализе данных из различных источников. Основные шаги методологии включают: 1. **Сбор данных**: Использование общедоступных и приватных источников для получения данных для обучения и тестирования ASR. 2. **Предобработка данных**: Очистка и преобразование данных в формат, пригодный для обучения моделей ASR. 3. **Обучение модели**: Построение модели ASR с использованием методов машинного обучения. 4. **Оценка точности**: Реализация многообразных экспериментов для оценки точности распознавания речи в различных условиях. 5. **Анализ результатов**: Выявление проблем, связанных с неточностью распознавания и предложение мер для их устранения. ## Результаты Использование описанного подхода привело к получению следующих результатов: - **Увеличение точности распознавания**: Модель ASR, обученная на полученных данных, показала значительное увеличение точности в распознавании речи в сравнении с эталонными моделями. - **Уменьшение частоты ошибок**: Оценка показала существенное снижение частоты ошибок в распознавании речи, особенно в условиях шума и сильных акцентов. - **Расширение области применения**: Улучшенная модель ASR продемонстрировала эффективность в различных сценариях применения, включая устройства для домашнего использования и системы управления бизнес-процессами. ## Значимость Результаты имеют значительное значение для развития технологий ASR, так как они позволяют: - **Повысить качество услуг**: Улучшение точности распознавания речи позволяет повысить качество интерактивных систем, таких как круглосуточная поддержка, системы управления домашними устройствами и системы заказа товаров. - **Расширить рыночные возможности**: Эффективное решение проблем неточности распознавания позволяет расширить рыночные возможности ASR, охватив новые сегменты пользователей. - **Улучшить удобство использования**: Уменьшение частоты ошибок способ

Annotation:

Automatic Speech Recognition (ASR) systems now mediate countless human-technology interactions, yet research on their fairness implications remains surprisingly limited. This paper examines ASR bias through a philosophical lens, arguing that systematic misrecognition of certain speech varieties constitutes more than a technical limitation -- it represents a form of disrespect that compounds historical injustices against marginalized linguistic communities. We distinguish between morally neutral ...

ID: 2508.07143v2 cs.CL, cs.AI

arXiv PDF

📄 Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

2025-08-14

Авторы:

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

## Контекст На протяжении последних лет выработки моделей текстов на основе широковещательных моделей языков (LLM) значительно продвинулись в области работы с значительными и значительно сложными задачами, причем в большой степени используя внешние инструменты. Одним из ключевых инструментов являются системы поиска, которые играют важную роль в доступе к большим объемам внешней информации. Однако даже при использовании открытых источников, открытые системы агентов до сих пор не могут достичь экспертного уровня поисковой интеллектуальности — способности решать неоднозначные запросы, формировать точные поисковые запросы, анализировать результаты и проводить глубокий поиск. Отсутствие масштабируемости, эффективности и качества данных в существующих методах ограничивает возможности в области поисковых агентов. Это несостоятельность мотивирует развитие методологий, позволяющих более эффективно использовать технологии машинного обучения для повышения поискового уровня систем. ## Метод В этом исследовании предлагается ASearcher — открытая система для реализации большого масштаба обучения с помощью глубокого обучения в области поиска. Главным образом, ASearcher отличается широкомасштабным асинхронным обучением глубоких моделей, которое позволяет работать с долгими горизонтами поиска в процессе обучения. Метод построен на базе промпто-драйвенной модели широковещательных моделей языков (LLM), которая может самостоятельно формировать высококачественные и сложные вопрос-ответ-пары (Q&A), создавая широкомасштабные данные для обучения. Эта архитектура обеспечивает эффективное использование ресурсов и достижение высокого качества обучения в условиях длительных поисковых задач. ASearcher также позволяет проводить эксперименты с помощью простого дизайна и без дополнительных моделей LLM, что упрощает реализацию и повышает доступность. ## Результаты Экспериментальные исследования были проведены на двух общедоступных бенчмарках: xBench и GAIA. Модель QwQ-32B, обученная с помощью ASearcher, показала существенную улучшенную производительность, с Avg@4-ответами в 46.7% на xBench и 20.8% на GAIA. Это свидетельствует о том, что модель справляется с высокой степенью сложности и долгих поисковых задач. Кроме того, пространственные модели ASearcher-Web-QwQ, не использующие дополнительных моделей LLM, достигли Avg@4 в 42.1 на xBench и 52.8 на GAIA, превосходя существующие открытые 32B-модели. Это демонстрирует масштабируемость и эффективность ASearcher в достижении высокого качества поиска. ## Значимость Результаты ASearcher открывают новые возможности в области поисковых агенто

Annotation:

Recent advancements in LLM-based agents have demonstrated remarkable capabilities in handling complex, knowledge-intensive tasks by integrating external tools. Among diverse choices of tools, search tools play a pivotal role in accessing vast external knowledge. However, open-source agents still fall short of achieving expert-level Search Intelligence, the ability to resolve ambiguous queries, generate precise searches, analyze results, and conduct thorough exploration. Existing approaches fall ...

ID: 2508.07976v2 cs.CL, cs.AI

arXiv PDF

1
2
187
188
189
190
191
204
205

Показано 1881 - 1890 из 2042 записей