📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

David Sasu, Natalie Schluter

Мы рассмотрели проблему недостаточного учета просодических признаков, таких как питч-акцент, в системах автоматического распознавания речи (ASR). Для решения этой проблемы предложена модель, объединяющая ASR с модулем детекции питч-акцента. Этот модуль оказался эффективен: F1-метрика для детекции питч-акцента улучшилась на 41%, а значительное сокращение Word Error Rate (WER) — до 28,3% на LibriSpeech — доказывает, что внедрение просодических признаков улучшает работу ASR. Таким образом, решение позволяет значительно повысить точность распознавания речи, особенно при ограниченных ресурсах, и подчеркивает важность восстановления просодических признаков в моделях ASR.
Annotation:
We show the performance of Automatic Speech Recognition (ASR) systems that use semi-supervised speech representations can be boosted by a complimentary pitch accent detection module, by introducing a joint ASR and pitch accent detection model. The pitch accent detection component of our model achieves a significant improvement on the state-of-the-art for the task, closing the gap in F1-score by 41%. Additionally, the ASR performance in joint training decreases WER by 28.3% on LibriSpeech, under ...
ID: 2508.04814v1 cs.CL, cs.SD, eess.AS
Авторы:

Jonathan Benchimol, Sophia Kazinnik, Yossi Saadon

Авторы статьи исследуют стратегии коммуникации Федерального резерва (ФР) во время пандемии COVID-19, сравнивая их с поведением этого органа во времена предыдущих экономических кризисов. Они применяют специализированные словари, анализ тональности и тематический моделирование для изучения тем и слов, которые использовались в обсуждениях о финансовой стабильности, необычных механизмах монетарной политики (НМП) и социальном благосостоянии. Отмечается, что во время пандемии ФР сосредоточился на ряде новых тем, в том числе на макроэкономической неопределенности и рисках для финансовой стабильности. Кроме того, авторы выявили, что реакция ФР на пандемию была более агрессивной и реактивной, чем на прошлые кризисы. Наконец, статья отмечает, что упоминания о НМП стали частью "нормальной" коммуникационной стратегии ФР после 2008 года, что подтверждает вывод о том, что ФР адаптирует свою коммуникацию в ответ на экстремальные экономические условия.
Annotation:
In this study, we examine the Federal Reserve's communication strategies during the COVID-19 pandemic, comparing them with communication during previous periods of economic stress. Using specialized dictionaries tailored to COVID-19, unconventional monetary policy (UMP), and financial stability, combined with sentiment analysis and topic modeling techniques, we identify a distinct focus in Fed communication during the pandemic on financial stability, market volatility, social welfare, and UMP, c...
ID: 2508.04830v1 econ.GN, cs.CL, cs.IT, math.IT, q-fin.EC, stat.AP, stat.ML
Авторы:

Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah

Авторы предлагают комплексный подход для оценки предрассудков в системе автоматической оценки резюме на основе LLMs. Основная проблема заключается в том, что некоторые лингвистические феномены, такие как hedging language, могут приводить к необоснованным отрицательным оценкам, даже если контент остается одинаковым. Авторы представляют бенчмарк, основанный на 100 ситуационных задач, для поиска и измерения таких дискриминационных явлений. Исследование показало, что ответы, использующие hedging, получают 25.6% нижнюю оценку в сравнении с более решительными, что демонстрирует существование нейтрально-негативных лингвистических шибболетов. Основные выводы: новый подход позволяет четко определять и измерять стереотипные предрассудки в AI-системах. Это может иметь широкое применение в обеспечении справедливости в системах автоматизированного решения.
Annotation:
This paper introduces a comprehensive benchmark for evaluating how Large Language Models (LLMs) respond to linguistic shibboleths: subtle linguistic markers that can inadvertently reveal demographic attributes such as gender, social class, or regional background. Through carefully constructed interview simulations using 100 validated question-response pairs, we demonstrate how LLMs systematically penalize certain linguistic patterns, particularly hedging language, despite equivalent content qual...
ID: 2508.04939v1 cs.CL
Авторы:

Aditya Kishore, Gaurav Kumar, Jasabanta Patro

Многорежимная манипуляция информацией, объединяющая текстовые и изображения, становится всё более распространенной проблемой для систем факт-чеккинга. Эти системы часто ориентированы только на текст, что ограничивает их эффективность. Для решения данной проблемы представлен фреймворк "MultiCheck" — универсальная модель, которая объединяет отдельные энкодеры для текста и изображений с модулем фузирования, реализующим элементные взаимодействия между модалами. Классификационный головной модуль предсказывает достоверность утверждений, опираясь на контрастное обучение, стремящееся выравнивать семантику пар утверждения и доказательств в общем пространстве векторов. На датасете Factify 2, "MultiCheck" достиг значительного увеличения весового F1-метрики до 0,84 по сравнению с базой, показав высокую эффективность в многорежимном факт-чеккинге. Результаты подтверждают ценность подхода через явную многорежимную рационализацию и демонстрируют возможность использования модели в решении реальных задач факт-чеккинга.
Annotation:
The growing rate of multimodal misinformation, where claims are supported by both text and images, poses significant challenges to fact-checking systems that rely primarily on textual evidence. In this work, we have proposed a unified framework for fine-grained multimodal fact verification called "MultiCheck", designed to reason over structured textual and visual signals. Our architecture combines dedicated encoders for text and images with a fusion module that captures cross-modal relationships...
ID: 2508.05097v1 cs.CL
Авторы:

Yuhao Wang, Ruiyang Ren, Yucheng Wang, Jing Liu, Wayne Xin Zhao, Hua Wu, Haifeng Wang

**Резюме** В статье предлагается фреймворк BEE-RAG (Balanced Entropy Engineering for Retrieval-Augmented Generation), который решает проблему нестабильности и снижения качества RAG-систем при работе с длинными контекстами. Основная проблема заключается в повышении неуправляемой энтропии и растерзании внимания, вызванных объёмным контекстом извлечённых данных. BEE-RAG предлагает принцип энтропийного баланса, который позволяет ограничивать неожиданные изменения в сенситивности внимания к контексту, независимо от его длины. Для этого распределяется внимание по контексту таким образом, чтобы обеспечить стабильность затрат информации во время генерации. Также BEE-RAG включает в себя стратегию zero-shot для многовариантной оценки важности и адаптивный механизм апробирования, которые позволяют подстроиться под конкретные задачи. Авторы продемонстрировали высокую эффективность BEE-RAG в задачах RAG по сравнению с современными подходами.
Annotation:
With the rapid advancement of large language models (LLMs), retrieval-augmented generation (RAG) has emerged as a critical approach to supplement the inherent knowledge limitations of LLMs. However, due to the typically large volume of retrieved information, RAG tends to operate with long context lengths. From the perspective of entropy engineering, we identify unconstrained entropy growth and attention dilution due to long retrieval context as significant factors affecting RAG performance. In t...
ID: 2508.05100v1 cs.CL
Авторы:

Wuqiang Zheng, Yiyan Xu, Xinyu Lin, Chongming Gao, Wenjie Wang, Fuli Feng

Огромный поток научных работ сделал их оценку на основе качества и значимости задачу, требующей новых подходов. Логическими и разумными они могут быть, но часто ограничены устаревшим доменным знанием или недостаточной способностью применять полное внимание к контексту. Работа предлагает PaperEval — фреймворк, основанный на Large Language Models, для автоматизированной оценки научных работ. Он включает модуль доменно-ориентированного восстановления, позволяющий получать свежую и актуальную информацию, и логическую модель для углубленного анализа мотивации, методики и сравнения с современной конкуренцией. Для точного определения существенных отличий вводится стратегия прогрессивной оптимизации рейтинга. PaperEval показал существенное превосходство на двух датасетах и применен в реальной системе рекомендации для фильтрации высококачественных работ. Он получил широкую популярность в социальных сетях, подтвердив свою практическую эффективность.
Annotation:
With the rapid and continuous increase in academic publications, identifying high-quality research has become an increasingly pressing challenge. While recent methods leveraging Large Language Models (LLMs) for automated paper evaluation have shown great promise, they are often constrained by outdated domain knowledge and limited reasoning capabilities. In this work, we present PaperEval, a novel LLM-based framework for automated paper evaluation that addresses these limitations through two key ...
ID: 2508.05129v1 cs.IR, cs.CL
Авторы:

Catherine Kobus, François Lancelot, Marion-Cécile Martin, Nawal Ould Amer

**Резюме** В статье представлены результаты участия команды ATLANTIS в задаче SemEval-2025 Task 3 по обнаружению халюцинаций в текстах, сгенерированных Large Language Models (LLMs) в контексте задач QA. Халюцинации — некорректные или неточные обобщения, генерируемые LLMs в процессе NLG, являются значительной проблемой, ограничивающей эффективность таких систем. Авторы исследовали методы обнаружения халюцинаций, включая методы с использованием внешнего контекста и без него. Они применяли техники нескольких подсказок с LLMs, классификацию на уровне токенов или fine-tuning моделей на синтетических данных. Исследования показали, что использование специального контекста позволяет значительно повысить точность обнаружения халюцинаций. Команда ATLANTIS достигла ведущих результатов в спановском языке, а также установила конкурентные показатели на английском и немецком. Основным выводом является то, что интеграция контекста и оптимальная настройка моделей позволяют эффективно уменьшить халюцинации и улучшить качество генерируемого текста.
Annotation:
This paper presents the contributions of the ATLANTIS team to SemEval-2025 Task 3, focusing on detecting hallucinated text spans in question answering systems. Large Language Models (LLMs) have significantly advanced Natural Language Generation (NLG) but remain susceptible to hallucinations, generating incorrect or misleading content. To address this, we explored methods both with and without external context, utilizing few-shot prompting with a LLM, token-level classification or LLM fine-tuned ...
ID: 2508.05179v1 cs.CL
Авторы:

Sijie Wang, Quanjiang Guo, Kai Zhao, Yawei Zhang, Xin Li, Xiang Li, Siqi Li, Rui She, Shangshu Yu, Wee Peng Tay

**Резюме** Современные коде-LLMs широко используются для создания эффективных автоматизированных кодинг-процессов, но их обучение через пост-тренировку с использованием reinforcement learning (RL) сталкивается с проблемой коллекции качественных кодинг-инструкций. Эти инструкции часто трудоемко собираются вручную и сложно масштабировать. Однако богатый ресурс — коды — лежит в остатках и недостаточно эффективно используется. Мы предлагаем CodeBoost, рамочную программу, которая улучшает коде-LLMs только на основе доступных кодовых сниппетов, без требуемых инструкций. Она включает максимальный клик курсторинга, двунаправленную предсказательную модель, учитывающую как правильные, так и неверные выводы, а также гетерогенную аугментацию и награждение. Эти компоненты обеспечивают разнообразие, улучшают обучение и увеличивают точность. Исследования показали, что CodeBoost постоянно улучшает производительность LLMs, делая его эффективным и масштабируемым подходом.
Annotation:
Code large language models (LLMs) have become indispensable tools for building efficient and automated coding pipelines. Existing models are typically post-trained using reinforcement learning (RL) from general-purpose LLMs using "human instruction-final answer" pairs, where the instructions are usually from manual annotations. However, collecting high-quality coding instructions is both labor-intensive and difficult to scale. On the other hand, code snippets are abundantly available from variou...
ID: 2508.05242v1 cs.CL
Авторы:

Dongxu Zhang, Ning Yang, Jihua Zhu, Jinnan Yang, Miao Xin, Baoliang Tian

**Резюме** В последнее время Chain-of-Thought (CoT) prompting доказал свою эффективность в улучшении абстрактного разума у Large Language Models (LLMs). Однако остается критическая проблема: ошибки в рассуждениях могут быть катастрофическими, особенно если они возникают в поздних стадиях. Этот эффект, называемый **Late-Stage Fragility**, отличается от ранее принятой мысли о том, что ранние ошибки более критичны. Чтобы справиться с этой проблемой, предлагается метод **ASCoT (Adaptive Self-Correction Chain-of-Thought)**. Он включает модульный подход: сначала работает **Adaptive Verification Manager (AVM)**, определяющий важные, рискованные шаги в конце рассуждений с помощью Positional Impact Score. Затем **Multi-Perspective Self-Correction Engine (MSCE)** применяет уточненные коррективы к проблемным частям. На экспериментальных данных GSM8K и MATH, ASCoT демонстрирует высокую точность, превосходя альтернативы, включая стандартный CoT. Этот результат подтверждает важность адаптивных стратегий и позволяет лучше понять и избегать специфических недостатков в LLM-рассуждениях.
Annotation:
Chain-of-Thought (CoT) prompting has significantly advanced the reasoning capabilities of Large Language Models (LLMs), yet the reliability of these reasoning chains remains a critical challenge. A widely held "cascading failure" hypothesis suggests that errors are most detrimental when they occur early in the reasoning process. This paper challenges that assumption through systematic error-injection experiments, revealing a counter-intuitive phenomenon we term "Late-Stage Fragility": errors int...
ID: 2508.05282v1 cs.CL
Авторы:

Sukannya Purkayastha, Nils Dycke, Anne Lauscher, Iryna Gurevych

Мета-рецензирование является ключевым этапом в peer-review процессе, определяющим рекомендации по принятию или отклонению статьи. Однако данный процесс представляет собой не только суммирование рецензентских аргументов, но и решающую часть, требующую взвешивания этих аргументов в широком контексте. Несмотря на исследования по использованию диалоговых агентов для поддержки решений, данная область остается мало исследована. Для повышения эффективности мета-рецензирования, авторы предлагают адаптировать диалоговые агенты с помощью генерации синтетических данных с помощью Large Language Models (LLMs) с использованием стратегии self-refinement для улучшения весомости диалогов в контексте экспертных доменов. Исследования показали, что выдаваемые данными агенты показали лучшую эффективность по сравнению с обычными LLM-based ассистентами и доказали свою эффективность в реальном мета-рецензировании.
Annotation:
Meta-reviewing is a pivotal stage in the peer-review process, serving as the final step in determining whether a paper is recommended for acceptance. Prior research on meta-reviewing has treated this as a summarization problem over review reports. However, complementary to this perspective, meta-reviewing is a decision-making process that requires weighing reviewer arguments and placing them within a broader context. Prior research has demonstrated that decision-makers can be effectively assiste...
ID: 2508.05283v1 cs.CL
Показано 7341 - 7350 из 7506 записей