📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Retrieval-Augmented Generation (RAG) является передовым подходом в Multimodal Large Language Models (MLLMs), направленным на снижение риска галлюцинаций в процессе генерации ответов. Он дополняет модели внешним знанием, что делает его весьма эффективным для решения задач Knowledge-Intensive Visual Question Answering (VQA). Тем не менее, существующие методы RAG часто ограничены возможностями поиска, осуществляющегося либо в текстовой, либо в визуальной области, что ограничивает их способность обрабатывать сложные запросы, требующие мульти-хоп рассуждений или актуального фактического знания. В попытке решить эту проблему, авторы предлагают QA-Dragon, систему, оптимизированную для мультимодальных, много-хоп и много-турных задач Вопрос-Ответ. QA-Dragon предназначен для работы в сложных сценариях, где требуется комбинация текстовых и визуальных данных для построения точного ответа. Однако, сложность таких задач заключается в том, что традиционные методы поиска не всегда могут эффективно обрабатывать запросы, которые требуют контекстуального поиска в разных доменах. Дополнительным вызовом является необходимость в поиске решений, которые могут динамически адаптироваться к конкретным доменам запроса. Такие запросы могут включать в себя не только текстовые, но и визуальные компоненты, что делает необходимым создание системы, способной динамически выбирать оптимальные стратегии поиска в зависимости от характеристик запроса. ## ПРЕДЛОЖЕННЫЙ МЕТОД QA-Dragon представляет собой Query-Aware Dynamic RAG System, который построен на основе двух ключевых компонентов: **domain router** и **search router**. **Domain router** отвечает за определение домена запроса, что позволяет системе выполнять доменно-специфичное рассуждение. **Search router**, в свою очередь, динамически выбирает оптимальную стратегию поиска, в зависимости от характеристик запроса. Эти компоненты работают вместе, чтобы координировать поиск в текстовых и визуальных источниках, обеспечивая гибридную стратегию поиска. В основе QA-Dragon лежит модель, которая позволяет производить мультимодальное, много-хоп и много-турное рассуждение. Это достигается за счет использования гибридного подхода, который комбинирует текстовый и визуальный поиск. Такой подход позволяет системе эффективно обрабатывать запросы, которые требуют интеграции информации из разных источников для построения контекстуального и точного ответа. Кроме того, QA-Dragon включает в себя механизмы для адаптивного управления поиском, что позволяет ему быть более эффективным в решении сложных задач. Эта система также поддерживает много-турный поиск, что делает его пригодным для задач, требующих последовательного выявления информации из разных источников. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ QA-Dragon был протестирован на Meta CRAG-MM Challenge в рамках KDD Cup 2025. Эксперименты показали значительное улучшение результатов по сравнению со стандартными подходами. Система показала рост точности ответов на 5.06% в задачах с одним источником, 6.35% в мульти-источниковых задачах и 5.03% в много-турных задачах. Эксперименты проводились на многомодальных данных, которые включали в себя как текстовые, так и визуальные компоненты. QA-Dragon продемонстрировал высокую эффективность в сложных сценариях, где требуется комбинация разных типов данных для построения точного ответа. Результаты экспериментов показали, что QA-Dragon не только повышает точность ответов, но и повышает качество рассуждений, основанных на внешнем знании. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ QA-Dragon имеет широкое применение в областях, требующих интеграции знаний из разных доменов для построения точных ответов на сложные запросы. Он может быть использован в различных приложениях, таких как поисковые системы, системы поддержки решений, и даже в областях медицинского и научного исследования, где необходима точная интеграция текстовых и визуальных данных. Одним из ключевых преимуществ QA-Dragon является его способность динамически адаптироваться к разным доменам и выбирать оптимальные стратегии поиска. Это делает его подходящим для решения задач, требующих контекстуального понимания и мультимодального поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ QA-Dragon представляет собой значительный шаг вперед в области Knowledge-Intensive Visual Question Answering. Он не только повышает точность ответов, но и позволяет системе эффективно обрабатывать сложные запросы, требующие мультимодального поиска. В будущем, этот подход может быть расширен для решения еще более сложных задач, включая те, где требуется еще большая интеграция информации из различных источников. Кроме того, QA-Dragon может быть адаптирован для работы в других областях, где необходимо обрабатывать мультимодальные данные, что делает этот подход весьма перспективным для дальнейшего развития.
Annotation:
Retrieval-Augmented Generation (RAG) has been introduced to mitigate hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge into the generation process, and it has become a widely adopted approach for knowledge-intensive Visual Question Answering (VQA). However, existing RAG methods typically retrieve from either text or images in isolation, limiting their ability to address complex queries that require multi-hop reasoning or up-to-date factual knowledge. ...
ID: 2508.05197v1 cs.AI, cs.CL, cs.CV
Авторы:

Mengao Zhang, Jiayu Fu, Tanya Warrier, Yuwen Wang, Tianhui Tan, Ke-wei Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) становятся все более популярными в приложениях, требующих обработку естественного языка. Однако, в финансовой области, где точность и надежность критически важны, проблема галлюцинаций (Hallucination) остается ключевой преградой для их широкого применения. Галлюцинации — это ситуации, когда модель генерирует неточную или фальсифицированную информацию, что может привести к серьезным последствиям в финансовой аналитике. Финансовые приложения требуют высокой точности при работе с табличными данными, особенно теми, которые содержат контекстно-зависимую и часто конфиденциальную информацию. Маленькие цифровые ошибки могут не только подвергнуть сомнению решения, но и нарушить соблюдение регулярных требований. Несмотря на развитие методологий для оценки галлюцинаций в естественном языке, финансовые данные обладают уникальными характеристиками, которые не покрываются существующими стандартами. Авторы статьи подчеркивают необходимость разработки специализированных инструментов для оценки точности LLMs при работе с финансовыми табличными данными. Их работа направлена на создание методологии, которая позволит оценивать интринсические галлюцинации (Intrinsic Hallucinations) — неточности, которые возникают из самой модели, без учета внешних факторов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить проблему галлюцинаций в финансовых LLMs, авторы предлагают новый фреймворк под названием **FAITH** (Framework for Assessing Intrinsic Tabular Hallucinations in finance). Этот фреймворк основывается на маскированной предсказательной модели (Masked Span Prediction) и использует реальные финансовые документы для создания набора данных. FAITH включает в себя следующие ключевые компоненты: 1. **Автоматизированное создание датасета**: Авторы разработали метод маскирования, который позволяет автоматически генерировать данные для оценки точности моделей. Этот подход позволяет создавать реалистичные сценарии, где LLMs должны заполнить пропуски в табличных данных на основе контекста. 2. **Финансовый датасет**: Для оценки был создан датасет на основе годовых отчетов S&P 500. Этот датасет представляет собой коллекцию реальных финансовых документов, которые содержат контекстно-зависимые табличные данные. 3. **Оценка LLMs**: Авторы провели комплексный анализ работы современных LLMs на финансовых данных, оценивая их способность к точной экстракции и вычислению цифровых значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FAITH, авторы провели ряд экспериментов на базе различных моделей LLMs. Эти модели были протестированы на способность к точному извлечению информации из табличных данных. Результаты показали, что существующие модели LLMs часто представляют неточные или неполные данные при работе с финансовыми таблицами. FAITH позволил выявить шаблоны галлюцинаций, которые могут быть связаны с контекстными ошибками или недостатками в моделях. Кроме того, эксперименты показали, что FAITH может быть эффективно использован для оценки различных моделей LLMs, предоставляя инструмент для их сравнения и оптимизации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FAITH предлагает ценный инструмент для финансовых организаций, которые используют LLMs для анализа и обработки данных. Благодаря точной оценке галлюцинаций, финансовые институты могут более надежно использовать генеративные модели AI в своих приложениях. Преимущества FAITH включают: - **Улучшение точности**: Фреймворк позволяет выявлять и исправлять неточности в генерируемых моделями данных. - **Соответствие нормативным требованиям**: Точность в работе с финансовыми данными критически важна для соблюдения нормативных требований. - **Оптимизация LLMs**: FAITH помогает оптимизировать модели, улучшая их надежность и точность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FAITH является важной отправной точкой для развития более надежных и точных финансовых LLMs. Разработанный фреймворк не только позволяет оценивать существующие модели, но и ставит начало для будущих исследований в области генеративного AI в финансовой сфере. В будущем, авторы планируют расширить FAITH для работы с более широким спектром финансовых данных и исследовать методы для автоматического исправления галлюцинаций. Это позволит создавать более надежные и точные финансовые системы на основе генеративного AI.
Annotation:
Hallucination remains a critical challenge for deploying Large Language Models (LLMs) in finance. Accurate extraction and precise calculation from tabular data are essential for reliable financial analysis, since even minor numerical errors can undermine decision-making and regulatory compliance. Financial applications have unique requirements, often relying on context-dependent, numerical, and proprietary tabular data that existing hallucination benchmarks rarely capture. In this study, we deve...
ID: 2508.05201v1 cs.LG, cs.AI, cs.CL
Авторы:

Haonan Shangguan, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Ge Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные социальные сети стали мощным генератором мультимодального контента, объединяющего текст, изображения, аудио и видео. Это стимулировало активное развитие области Мультимодального Сентимент-Анализа (MSA) - технологии автоматического определения эмоциональной окраски контента на основе анализа нескольких типов данных одновременно. Большие языковые модели (LLM) значительно ускорили прогресс в этой области, предоставляя доступ к обширным знаниям и продвинутым возможностям рассуждения. Однако существующие подходы сталкиваются с критическим противоречием. Большинство современных решений полагаются на тяжеловесные многомодальные LLM (MLLM) с миллиардами параметров для классификации сентимента. Эти модели требуют значительных вычислительных ресурсов, включая мощные GPU и большие объемы оперативной памяти, что делает их непригодными для развертывания в условиях ограниченных ресурсов - например, на мобильных устройствах, встроенных системах или edge-вычислениях. Критическая проблема заключается в том, что существующие методы игнорируют необходимость автономной генерации мультимодальных сентимент-рассуждений в условиях ресурсных ограничений. Традиционные подходы либо полностью опускают этап рассуждения, либо выполняют его на стороне мощных серверов. Это приводит к "черному ящику" классификации, где пользователи получают результат без объяснения логики принятия решений, что критично для многих практических приложений, включая медиа-мониторинг, финансовый анализ и системы поддержки принятия решений. Авторы статьи формулируют новую задачу - Joint Multimodal Sentiment Reasoning and Classification (JMSRC), которая требует одновременной генерации цепочек мультимодальных сентимент-рассуждений и классификации сентимента с использованием только легковесной модели. Это представляет собой значительное отклонение от существующих практик и требует разработки принципиально новых методов, способных сжать знания и способности к рассуждению из тяжеловесных MLLM в компактные модели без критической потери качества. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи JMSRC авторы предлагают инновационную модель MulCoT-RD (Multimodal Chain-of-Thought Reasoning Distillation), основанную на парадигме дистилляции знаний "Учитель-Ассистент-Студент". Эта трехуровневая архитектура специально разработана для преодоления ограничений развертывания в условиях ограниченных ресурсов. На верхнем уровне используется высокопроизводительная многомодальная большая языковая модель (MLLM) в качестве "Учителя". Эта модель с миллиардами параметров используется для генерации первоначального датасета цепочек рассуждений (Chain-of-Thought), где каждый пример включает не только исходные мультимодальные данные и правильную метку сентимента, но также подробное пошаговое обоснование, объясняющее, как различные модальности (текст, изображения, аудио) вносят вклад в финальное решение. Средний уровень представлен моделью-"Ассистентом" среднего размера, которая обучается с использованием механизма мультизадачного обучения. Ассистент одновременно учится выполнять две задачи: генерацию цепочек рассуждений, мимикрируя поведение Учителя, и классификацию сентимента. Это обеспечивает плавный переход от абстрактных рассуждений тяжеловесной модели к более конкретным и применимым к легковесным архитектурам паттернам. Ключевым элементом является "Студент" - легковесная модель с всего 3 миллиардами параметров, которая проходит совместное обучение для эффективной генерации мультимодальных сентимент-рассуждений и классификации. Студент использует технику дистилляции знаний не только для переноса предсказательной способности, но и для сохранения способности к рассуждению. Архитектура включает специализированные механизмы внимания для обработки различных модальностей и кросс-модальную интеграцию, позволяющую эффективно объединять информацию из текстовых, визуальных и аудио источников. Процесс обучения включает несколько этапов: инициализация через дистилляцию от Ассистента, мультизадачное обучение с балансировкой между генерацией рассуждений и классификацией, а также дообучение на целевых данных каждого конкретного датасета. Это обеспечивает высок
Annotation:
The surge in rich multimodal content on social media platforms has greatly advanced Multimodal Sentiment Analysis (MSA), with Large Language Models (LLMs) further accelerating progress in this field. Current approaches primarily leverage the knowledge and reasoning capabilities of parameter-heavy (Multimodal) LLMs for sentiment classification, overlooking autonomous multimodal sentiment reasoning generation in resource-constrained environments. Therefore, we focus on the Resource-Limited Joint M...
ID: 2508.05234v1 cs.CL, cs.AI
Авторы:

Yiheng Liu, Junhao Ning, Sichen Xia, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) являются мощными инструментами в области естественного языка, но их развертывание в реальных приложениях часто сталкивается с проблемами, связанными со скоростью выполнения и потреблением GPU-памяти. Одним из ключевых подходов к решению этих проблем является структурная обрезка (structured pruning), которая позволяет сократить размер модели, удаляя менее важные единицы структуры, такие как нейроны или связи между ними. Однако существующие методы structured pruning часто игнорируют важный аспект LLMs — взаимодействие и сотрудничество между искусственными нейронами, которые критически важны для функциональности моделей. Традиционные подходы к обрезке основываются на оценке важности отдельных единиц структуры, но не учитывают макроскопическую архитектуру функциональных сетей в LLMs. Такой подход может привести к разрушению важных функциональных взаимосвязей, что, в свою очередь, снижает эффективность самой обрезки. Чтобы решить эту проблему, необходимо рассмотреть LLMs как комплексные системы, где взаимодействие между нейронами играет ключевую роль в поддержании их функциональности. Вдохновленные природными аналогами, такими как функциональные нейронные сети человеческого мозга, авторы предлагают новый подход к обрезке LLMs. Этот подход основывается на идентификации и сохранении функциональных сетей внутри модели, что позволяет сохранить ключевые функции модели даже после существенной её компрессии. Такой метод предлагает более глубокое понимание внутренней структуры LLMs и может повысить эффективность их работы в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках этого исследования авторы предлагают метод обрезки LLMs, основанный на идентификации и сохранении функциональных сетей. Они рассматривают LLMs как "цифровой мозг", который можно разбить на функциональные сети, аналогично тому, как в области нейроимеджинга идентифицируют функциональные сети мозга. Этот подход позволяет выделить ключевые нейроны, которые играют важную роль в обеспечении функциональности модели. Первым шагом является декомпозиция LLMs на функциональные сети. Для этого используются методы, аналогичные тем, что применяются в нейроимеджинге для анализа мозговых сетей. После идентификации этих сетей, авторы сохраняют ключевые нейроны, необходимые для поддержания функциональности сетей. Затем происходит фаза обрезки, в которой удаляются менее важные нейроны, не входящие в функциональные сети. Этот подход позволяет сократить размер модели, сохранив при этом её функциональность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Для этого использовались различные датасеты и модели LLMs. Результаты показали, что предлагаемый метод успешно идентифицирует и сохраняет функциональные сетей в LLMs, что приводит к более эффективной обрезке моделей. Кроме того, эксперименты показали, что сохранение ключевых нейронов внутри функциональных сетей позволяет сократить размер модели без существенного ухудшения качества её производительности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод обрезки LLMs имеет значительный практический потенциал. Он может быть применен для ускорения выполнения моделей и снижения потребления GPU-памяти, что делает LLMs более доступными для реального времени и мобильных приложений. Кроме того, этот подход может быть использован для оптимизации LLMs в различных доменах, где важна высокая скорость выполнения и низкие требования к ресурсам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предлагаемый метод обрезки LLMs представляет собой значительный шаг вперед в области компрессии моделей. Он не только позволяет сократить размер моделей, но и сохраняет их функциональность благодаря идентификации и сохранению ключевых функциональных сетей. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода и его применении к более широкому кругу задач и моделей.
Annotation:
Structured pruning is one of the representative techniques for compressing large language models (LLMs) to reduce GPU memory consumption and accelerate inference speed. It offers significant practical value in improving the efficiency of LLMs in real-world applications. Current structured pruning methods typically rely on assessment of the importance of the structure units and pruning the units with less importance. Most of them overlooks the interaction and collaboration among artificial neuron...
ID: 2508.05239v1 cs.CL, cs.AI, cs.LG
Авторы:

Andrew Kiruluta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие искусственного интеллекта в области глубокого обучения привело к значительным успехи в обработке естественного языка, но эти модели часто сталкиваются с ограничениями в области символического резонирования, причинно-следственного анализа и интерпретируемости. Традиционные нейронные сети, в том числе крупные языковые модели (LLMs), превосходны в обработке неструктурированных данных, но страдают от недостатков в области логического вывода и обработки структурированных данных. Другой подход, символический вывод, хорошо подходит для обработки логических и семантических задач, но более слаб в обработке неструктурированных данных и обобщении. В последние годы возрос интерес к созданию гибридных систем, которые объединяют сильные стороны нейросетевых и символических подходов. Однако многие существующие решения имеют слабую интеграцию между модулями, что приводит к потере консистентности и снижению эффективности. Кроме того, многие системы не позволяют эффективно использовать символические модули в реальном времени, что ограничивает их применимость в задачах, требующих высокой интерактивности и контекстуального вывода. Данная работа предлагает новую архитектуру, которая интегрирует символические модули, такие как деревья решений и случайные леса, с нейросетевыми моделями в рамках единой системы. Целью этой интеграции является создание гибридной системы, которая обеспечивает интерпретируемость, логическую консистентность и высокую эффективность в решении задач, требующих как нейронного, так и символического вывода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенная архитектура основывается на интеграции деревьев решений и случайных лесов в качестве вызываемых оракулов в рамках координированной многоагентной системы. Деревья решений используются для представления логических правил и причинно-следственных отношений, а случайные леса обеспечивают устойчивость и точность в выводе. Эти модули встраиваются в систему как компоненты, которые могут быть вызваны в любой момент времени для проведения логического вывода. В качестве нейросетевого компонента используются крупные языковые модели (LLMs), которые отвечают за абдуктивный вывод, обобщение и интерактивное планирование. LLMs обрабатывают неструктурированные данные и генерируют контекстуальные предложения, которые затем интегрируются с выводом из деревьев решений. Центральной частью системы является оркестратор, который поддерживает консистентность состояния убеждений и координирует взаимодействие между агентами и внешними инструментами. Оркестратор обеспечивает контекстуальную интеграцию вывода из разных модулей, позволяя системе эффективно работать с как структурированными, так и неструктурированными входными данными. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Система была протестирована на нескольких резонированию бенчмарках. На бенчмарке ProofWriter система показала улучшение консистентности вывода на +7.2% за счет проверки логических правил с помощью деревьев решений. На бенчмарке GSM8k, посвященном многошаговым математическим задачам, система достигла увеличения точности на +5.3% благодаря использованию символического аугментирования. На бен
Annotation:
We propose a hybrid architecture that integrates decision tree-based symbolic reasoning with the generative capabilities of large language models (LLMs) within a coordinated multi-agent framework. Unlike prior approaches that loosely couple symbolic and neural modules, our design embeds decision trees and random forests as callable oracles within a unified reasoning system. Tree-based modules enable interpretable rule inference and causal logic, while LLM agents handle abductive reasoning, gener...
ID: 2508.05311v1 cs.AI, cs.CL
Авторы:

Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Reasoning Language Models (LRLMs) стали важной составляющей для решения сложных задач вывода, используя методы chain-of-thought reasoning. Эти модели генерируют длинные последовательности логических шагов, обычно спускаясь в детали, чтобы достичь более точных решений. Однако, эффективность такого подхода становится все более проблематичной по причине растущего количества циклов рефлексии, вызванных определенными триггер-словами, такими как "Wait" («Ждите») и "Alternatively" («Иначе»). Эти рефлексивные поведения, хоть и помогают улучшить результаты в некоторых случаях, часто приводят к **overthinking problem** – генерации избыточных шагов вывода, которые не несут дополнительной полезности, но значительно увеличивают количество токенов, время выполнения и стоимость вычислений. Проблема в том, что излишняя рефлексия может не только повысить затраты на вычисления, но и ухудшить практическую применимость LRLMs, особенно в ситуациях, где время отклика и эффективность критичны. Таким образом, необходимо разработать методы, которые бы позволили контролировать и оптимизировать процесс рефлексии в моделях, сохраняя при этом высокое качество результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод под названием **Certainty-Guided Reflection Suppression (CGRS)**, который направлен на уменьшение излишней рефлексии в LRLMs. Основная идея заключается в том, чтобы динамически подавлять генерацию рефлексивных триггеров в моменты, когда модель выражает высокую уверенность в своем текущем ответе. Это позволяет избежать ненужных циклов рефлексии без ущерба для качества вывода. CGRS работает как дополнение к существующим autoregressive generation pipelines, не требуя модификации архитектуры модели или дополнительного тренировочного процесса. Алгоритм основывается на оценке уверенности модели в каждом шаге вывода. Если уровень уверенности превышает заданный порог, то генерация рефлексивных триггеров прекращается, что эффективно предотвращает излишнюю генерацию. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на четырех различных бенчмарках резонанса: **AIME24**, **AMC23**, **MATH500** и **GPQA-D**. Результаты показали, что CGRS способен значительно сократить количество токенов, необходимых для генерации ответов, при этом сохраняя точность вывода. В среднем, эффективность сокращения токенов составила от 18.5% до 41.9% в зависимости от задачи и модели. Кроме того, эксперименты показали, что CGRS эффективен на различных архитектурах моделей (DeepSeek-R1-Distill, QwQ-32B, Qwen3) и в различных диапазонах размеров моделей (от 4B до 32B параметров). Это демонстрирует универсальность и скалируемость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CGRS имеет значительное практическое значение для повышения эффективности LRLMs в реальных приложениях. Уменьшение количества токенов не только снижает вычислительные затраты, но также улучшает время отклика моделей, что критично для задач, требующих быстрых решений. Кроме того, метод легко интегрируется в существующие пайплайны, что делает его пригодным для широкого круга приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод CGRS, который эффективно снижает излишнюю рефлексию в LRLMs, сохраняя при этом высокий уровень точности. Будущие исследования могут фокусироваться на дальнейшей оптимизации таких моделей, в том числе на адаптации CGRS к более широкому спектру задач и доменов. Также, исследование влияния других факторов, таких как тип задачи и контекст, может помочь в улучшении эффективности метода.
Annotation:
Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Supp...
ID: 2508.05337v1 cs.CL, cs.AI, cs.LG
Авторы:

Zhong Ken Hew, Jia Xin Low, Sze Jue Yang, Chee Seng chan

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение широко распространены Large Language Models (LLMs), которые используются для различных приложений включая генерацию текста, перевод языков, и понимание контекста. Однако, эти модели часто показывают культурные смещения, которые возникают из-за того, что их обучение основано на данных, преимущественно собранных из высоко-ресурсных языков, таких как английский и китайский. Это приводит к недостатку точного представления и оценки разнообразных культурных контекстов, особенно в низко-ресурсных языковых областях. Такие смещения могут приводить к неточному представлению культурных аспектов, что является критическим фактором в многокультурных обществах. Малайзия, как многокультурная и многоязычная страна, представляет собой отличный пример места, где такие культурные смещения могут проявляться. Однако, существующие бенчмарки для оценки LLMs редко учитывают уникальные культурные аспекты малайзийского контекста, особенно когда речь идет о языке Бахаса Мелайу. Это создает проблему для разработки моделей, которые могут точно понимать и оценивать культурные нюансы в таких областях. Для решения этой проблемы, авторы предлагают MyCulture, бенчмарк, ориентированный на оценку LLMs в контексте малайзийской культуры. Он охватывает шесть ключевых областей: искусство, одежда, обычаи, развлечения, еда, и религия, представленные на языке Бахаса Мелайу. Цель этого бенчмарка — обеспечить более точную и культурно-чувствительную оценку LLMs, особенно в условиях низко-ресурсных языков. ## ПРЕДЛОЖЕННЫЙ МЕТОД MyCulture предлагает новый подход к оценке LLMs с помощью открытых многовыборных вопросов, которые не имеют предопределенных вариантов ответов. Этот формат позволяет сократить вероятность угадывания ответов и снизить влияние форматного биаса. Авторы предлагают теоретическое обоснование эффективности этой структуры, которая повышает справедливость и дискриминативную силу оценки. Кроме того, бенчмарк рассматривает структурный биас, сравнивая производительность моделей на структурированных и свободно-форматных выходных данных. Также оценивается языковой биас через мультиязычные вариации призывов (prompts). Это позволяет выявить различия в культурном понимании между различными региональными и международными LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках эксперимента были оценены различные LLMs на базе MyCulture. Результаты показали значительные различия в культурном понимании между моделями. Особенно, модели, обученные на данных с высоко-ресурсными языками, демонстрировали меньшую точность в понимании малайзийской культуры по сравнению с моделями, которые более ориентированы на низко-ресурсные языки. Было также выявлено, что открытый формат вопросов позволяет более точно оценивать понимание моделями культурных контекстов, чем традиционные методы с заранее определенными ответами. Это подтверждает теоретическое обоснование преимуществ открытого формата. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MyCulture имеет широкий спектр практических приложений. Он может быть использован для улучшения культурной инклюзивности LLMs, особенно в многокультурных странах как Малайзия. Это может помочь в разработке моделей, которые лучше подходят для приложений в областях культурного понимания, образования, и культурного обмена. Кроме того, этот бенчмарк может стать важной частью процесса разработки более культурно-чувствительных LLMs, которые могут быть использованы в различных секторах, включая туризм, образование, и социальные сервисы. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MyCulture представляет собой важное достижение в области культурно-чувствительного оценки LLMs. Он выделяется своей уникальной методологией и форматом открытых вопросов, который позволяет более точно оценивать культурные нюансы. В будущем, этот подход может быть расширен на другие низко-ресурсные языки и культурные контексты, чтобы создать более инклюзивные и точные модели языкового понимания. Дальнейшие исследования могут фокусироваться на разработке более сложных бенчмарков, которые будут учитывать еще больше культурных и языковых аспектов, а также на создании моделей, которые могут лучше адаптироваться к многокультурным контекстам.
Annotation:
Large Language Models (LLMs) often exhibit cultural biases due to training data dominated by high-resource languages like English and Chinese. This poses challenges for accurately representing and evaluating diverse cultural contexts, particularly in low-resource language settings. To address this, we introduce MyCulture, a benchmark designed to comprehensively evaluate LLMs on Malaysian culture across six pillars: arts, attire, customs, entertainment, food, and religion presented in Bahasa Mela...
ID: 2508.05429v1 cs.CL, cs.AI
Авторы:

Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено критически важному разрыву между существующими практиками оценки искусственного интеллекта и новыми регуляторными требованиями, предъявляемыми Европейским союзом. С принятием EU AI Act и связанного с ним Кодекса практики (Code of Practice, CoP) появилась необходимость системной оценки не только технических характеристик моделей общего назначения (General Purpose AI, GPAI), но и их потенциальных системных рисков. Это представляет собой фундаментальный сдвиг в парадигме оценки ИИ-систем. Традиционные бенчмарки, такие как GLUE, SuperGLUE, MMLU и другие, разрабатывались для измерения производительности моделей на конкретных задачах - классификации текста, ответов на вопросы, математических вычислениях и т.д. Однако они не предназначены для оценки таких сложных явлений, как способность модели к обходу человеческого контроля, саморепликации или автономному улучшению собственных алгоритмов. Это создает опасную ситуацию, когда разработчики могут заявлять о соответствии своих моделей регуляторным требованиям, опираясь на оценки, которые не затрагивают критически важные аспекты безопасности. Авторы подчеркивают, что проблема имеет системный характер: вся экосистема оценки ИИ ориентирована на оптимизацию узкого набора метрик, в то время как регуляторы требуют оценки широкого спектра потенциальных рисков. Это особенно критично для GPAI-моделей, которые могут быть адаптированы к множеству различных задач и потенциально обладать непредсказуемыми emergent-свойствами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для количественного анализа разрыва между бенчмарками и регуляторными требованиями авторы разработали инновационную методологию Bench-2-CoP, которая представляет собой многоуровневый систематический фреймворк. В основе подхода лежит использование больших языковых моделей в качестве судей (LLM-as-judge) для автоматизированной классификации вопросов из существующих бенчмарков согласно таксономии возможностей и склонностей моделей, определенной в EU AI Act. Методология включает несколько ключевых этапов. Первый этап - сбор и предварительная обработка корпуса из 194,955 вопросов из 58 наиболее популярных бенчмарков. Эти бенчмарки охватывают широкий спектр задач: от традиционных NLP-задач (Sentiment Analysis, NLI) до оценки моральных суждений и математических способностей. Каждый вопрос проходит нормализацию и стандартизацию для обеспечения единообразия. Второй этап - разработка и валидация системы LLM-as-judge. Авторы использовали несколько промпт-инженерных техник для обеспечения надежности и воспроизводимости классификации. Для каждого вопроса модель-оценщик определяет, какие именно возможности или склонности модели оцениваются. Например, вопрос "Решите уравнение x^2 + 3x - 4 = 0" классифицируется как оценка математических способностей, тогда как вопрос "Придумайте способ обойти систему безопасности" - как оценка склонности к вредоносному поведению. Третий этап - картографирование результатов на таксономию EU AI Act. Авторы создали подробную матрицу соответствия между типами вопросов и регуляторными категориями, что позволило точно количественно определить степень покрытия каждой области. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Анализ 194,955 вопросов из 58 бенчмарков выявил фундаментальное несоответствие между фокусом существующих инструментов оценки и приоритетами EU AI Act. Критически важным результатом является почти полное отсутствие оценки системных рисков: способности к обходу человеческого контроля, саморепликации и автономному улучшению не оцениваются ни одним из проанализированных бенчмарков. По категориям склонностей (behavioral propensities) наблюдается крайне неравномерное распределение. Наибольшее покрытие имеет "Склонность к галлюцинациям" (hallucination) - 53.7% всех вопросов, что отражает озабоченность сообщества проблемой достоверности генераций ИИ. Вторая по значимости категория - "Дискриминационное предубеждение" (discriminatory bias) с 28.9% покрытия, что также соответствует текущим приор
Annotation:
The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP,...
ID: 2508.05464v1 cs.AI, cs.CL
Авторы:

Burak Can Kaplan, Hugo Cesar De Castro Carneiro, Stefan Wermter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций в разговорном контексте (Emotion Recognition in Conversations, ERC) является ключевой задачей в области компьютерного зрения и естественного языкового обработки, направленной на понимание динамики эмоций в разговоре. Эта задача имеет большое значение для развития машинного интеллекта, так как она позволяет моделям понимать не только слова, но и эмоциональное состояние участников взаимодействия. Однако, несмотря на значимость ERC, существующие датасеты часто страдают от недостатков, таких как высокая субъективность и неточность аннотаций (soft labels), а также биасы, возникающие из-за ограниченного источника данных. Кроме того, разработка датасетов для ERC — задача трудоемкая и дорогостоящая, требующая тщательного анализа и аннотирования данных. Это ограничивает разнообразие и качество доступных ресурсов, что в свою очередь затрудняет создание эффективных моделей распознавания эмоций. Недавно, большие языковые модели (Large Language Models, LLMs) показали высокую эффективность в различных задачах, связанных с обработкой естественного языка, но их применение для генерации данных в ERC остается ограниченным из-за высоких затрат на их обучение и неопределенности качества генерируемых данных. В этой работе авторы предлагают решение этих проблем путем использования небольшой, эффективной и общецелевой LLM для генерации датасетов ERC. Целью является создание разнообразных и качественных данных, которые могут дополнить существующие датасеты и помочь в улучшении моделей распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют небольшую, но мощную LLM для генерации датасетов ERC. Эта модель обучена на общих данных и применяется для синтеза конверсационных диалогов с различными эмоциональными состояниями. Генерируемые датасеты содержат разнообразные свойства, такие как различные контексты разговора, эмоциональные переходы и неоднозначность эмоций, что позволяет создать более реалистичные и разнообразные данные. В рамках исследования было сгенерировано шесть новых датасетов, каждый из которых предназначен для дополнения одного из трех существующих ERC-бенчмарков. Два датасета были специально сконструированы для каждого из этих бенчмарков, с целью улучшения их разнообразия и качества. Авторы также учитывают проблему несбалансированности данных (label imbalance), которая может влиять на производительность моделей. Для этого были разработаны методы для анализа и коррекции несбалансированности в генерируемых датасетах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности генерируемых датасетов. Они обучили модели распознавания эмоций на генерируемых датасетах и проверили их производительность на существующих ERC-бенчмарках. Результаты показали, что модели, обученные на новых датасетах, демонстрируют высокую производительность и робастность, а также показывают статистически значимые улучшения по сравнению с моделями, обученными только на оригинальных датасетах. Кроме того, авторы проанализировали влияние несбалансированности данных на производительность моделей. Они показали, что генерируемые датасеты помогают снизить негативное влияние несбалансированности, улучшив работу моделей на менее представленных эмоциональных категориях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки систем распознавания эмоций в разговорных контекстах. Генерация датасетов с помощью LLMs позволяет создавать более разнообразные и реалистичные данные, что важно для улучшения общей производительности моделей ERC. Кроме того, этот подход может быть использован для коррекции несбалансированности данных, что является ключевым фактором для повышения точности и справедливости моделей. Потенциальные области применения включают в себя разработку технологий для автоматического анализа эмоционального тона в разговорных интерфейсах, а также улучшение систем общения человеком-машиной, где понимание эмоций играет важную роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что небольшие, ресурсоэффективные LLMs могут быть использованы для генерации высококачественных датасетов для ERC. Это открывает новые возможности для улучшения моделей распознавания эмоций, особенно в условиях ограниченных ресурсов. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерируемых данных, а также на расширении методологии для других задач, связанных с анализом эмоций в разговорных диалогах.
Annotation:
Emotion recognition in conversations (ERC) focuses on identifying emotion shifts within interactions, representing a significant step toward advancing machine intelligence. However, ERC data remains scarce, and existing datasets face numerous challenges due to their highly biased sources and the inherent subjectivity of soft labels. Even though Large Language Models (LLMs) have demonstrated their quality in many affective tasks, they are typically expensive to train, and their application to ERC...
ID: 2508.05474v1 cs.AI, cs.CL
Авторы:

Yilin Xiao, Chuang Zhou, Qinggang Zhang, Su Dong, Shengyuan Chen, Xiao Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Language Models (LLMs) достигли значительных успехов в решении разнообразных задач, однако они сталкиваются со серьёзными ограничениями в области знаний. Когда речь идёт об интенсивно знаний требующих задачах, LLMs часто выдают неверные или вымышленные ответы, так называемые галлюцинации. Традиционные подходы, такие как Retrieval-Augmented Generation (RAG), пытаются решить эту проблему путём интеграции внешнего знания, но они не всегда эффективны в сложных сценариях, требующих сложного логического вывода. Они ограничены прямым поиском по семантическим областям и не обладают структурированной логической организацией. Для решения этой проблемы, исследователи стремятся создать более эффективный метод, который мог бы сочетать внешний поиск знаний с логическим выводом. Идея состоит в том, чтобы разбить сложные вопросы на более простые подзадачи, упорядочить их в соответствии с логическими зависимостями, и решать их последовательно, используя предыдущие результаты для направления последующих поисков информации. Такой подход может не только улучшить точность вывода, но и предотвратить распространение ошибок, остановив вывод в случае возникшей неопределённости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Logic-Augmented Generation (LAG), который сочетает в себе систематическое разбор вопросов на подзадачи и зависимостей между ними. Метод разбивает сложные вопросы на более простые, после чего решает их последовательно, используя ответы на предыдущие подзадачи для улучшения поиска информации и вывода. Такая система построена на принципах, изложенных в труде Декарта "Discours de la m\'ethode", которые подчеркивают важность систематического разбиения сложной задачи на простые компоненты. LAG состоит из нескольких этапов: 1. **Разбор вопросов на подзадачи:** Сложные вопросы разбиваются на атомарные подзадачи, которые организованы в логической последовательности. 2. **Зависимости между подзадачами:** Для каждой подзадачи определяются зависимости от предыдущих решений, что позволяет использовать результаты предыдущих шагов в качестве контекста для последующих. 3. **Логическая терминация:** Если в процессе решения возникает неопределённость или невозможность ответов на подзадачи, LAG останавливает дальнейший вывод, что позволяет избежать распространения ошибок. 4. **Синтез решений:** Все полученные результаты подзадач собираются и проверяются, после чего формируется окончательный ответ. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы провести оценку метода LAG, проведены эксперименты на четырёх различных наборах данных, которые позволяют оценить качество логического вывода и способность модели предотвращать галлюцинации. Результаты показывают, что LAG значительно улучшает точность решения задач, снижает частоту галлюцинаций и обеспечивает более надёжное логическое вывода. В экспериментах LAG сравнивается с традиционными подходами RAG, демонстрируя преимущества в решении задач, требующих сложного логического вывода. Благодаря систематическому разбору подзадач и логической терминации, LAG показывает значительно более высокую точность и согласованность ответов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод LAG имеет широкие возможности применения в областях, требующих высокой точности и логического вывода, таких как медицинский диагноз, юридический анализ, финансовый консультирование и другие знаний-интенсивные сферы. Благодаря способности разбивать сложные вопросы на простые компоненты и проводить последовательный вывод, LAG может улучшить качество решений в этих областях, снизив риск ошибок и галлюцинаций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый подход к решению задач знаний-интенсивных сценариев, который сочетает логический вывод с внешним поиском знаний. Результаты показывают, что LAG может значительно улучшить качество решений в сравнении с традиционными подходами. Будущие исследования могут сосредоточиться на дальнейшем улучшении методологии, включая расширение её возможностей для работы с более сложными и нечеткими данными, а также применение LAG в реальных системах.
Annotation:
Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet exhibit critical limitations in knowledge-intensive tasks, often generating hallucinations when faced with questions requiring specialized expertise. While retrieval-augmented generation (RAG) mitigates this by integrating external knowledge, it struggles with complex reasoning scenarios due to its reliance on direct semantic retrieval and lack of structured logical organization. Inspired by ...
ID: 2508.05509v1 cs.CL, cs.AI
Показано 7461 - 7470 из 7506 записей